Identifying Informative Web Content Blocks using Web Page Segmentation
使用网页分割识别网页的信息内容块
解决问题
网页由信息内容块和非信息内容块组成。信息内容块是指网页的主题内容,非信息内容块是指网页中的广告、导航、隐私声明等等。前者是搜索引擎检索的主要目标,后者则是噪声。从网页中抽取信息的过程需要去除非信息块,本文使用网页分割来识别网页的信息内容块。
解决思路
1. 对网页的HTML文档进行预处理,去掉一些无意义的标签,如<a>,<b>,<script>等
2. 基于处理后的HTML文档构建DOM树
3. 基于DOM树,取one-depth的子节点生成序列,该序列及保留了原DOM树的层次特征,又减少了计算量
4. 从序列中找出关键模式,即序列(长度为n)中重复出现至少两次的子序列(长度为m ),并满足1<m<=n/2
5. 利用找出的关键模式,通过引入虚拟节点对原序列进行块的划分
6. 计算块中的标签数目,得出块的重要性
7. 将重要性低于预定的阈值的块认定为噪声块,并且把它去掉
8. 用Precision,Recall,F Score对这种方法进行评估
结论
用从康奈尔大学获得的数据集进行实验,最终平均查准率为0.732456,平均召回率为0.80175439,平均F值为0.73807596.