文献阅读笔记（4）_论文信誉排行网

Identifying Informative Web Content Blocks using Web Page Segmentation

使用网页分割识别网页的信息内容块

解决问题

网页由信息内容块和非信息内容块组成。信息内容块是指网页的主题内容，非信息内容块是指网页中的广告、导航、隐私声明等等。前者是搜索引擎检索的主要目标，后者则是噪声。从网页中抽取信息的过程需要去除非信息块，本文使用网页分割来识别网页的信息内容块。

解决思路

1. 对网页的HTML文档进行预处理，去掉一些无意义的标签，如<a>,<b>,<script>等

2. 基于处理后的HTML文档构建DOM树

3. 基于DOM树，取one-depth的子节点生成序列，该序列及保留了原DOM树的层次特征，又减少了计算量

4. 从序列中找出关键模式，即序列（长度为n）中重复出现至少两次的子序列（长度为m ），并满足1<m<=n/2

5. 利用找出的关键模式，通过引入虚拟节点对原序列进行块的划分

6. 计算块中的标签数目，得出块的重要性

7. 将重要性低于预定的阈值的块认定为噪声块，并且把它去掉

8. 用Precision,Recall,F Score对这种方法进行评估

结论

用从康奈尔大学获得的数据集进行实验，最终平均查准率为0.732456，平均召回率为0.80175439，平均F值为0.73807596.

期刊分类解释	期刊刊号的解释	医学期刊分类表	核心期刊	期刊查询	（2014-2015）CSSCI来源期刊目录	2008医学核心期刊	政策法规
CSSCI	CSCD	SSCI	《工程索引》（EI）	SCI(科学引文索引)	参考文献格式国家标准	2014中文核心期刊目录	论文信誉排行