论文信誉排行网 论文信誉排行网 设为首页
联系我们
收藏本站
 官方首页
 投稿指南
 写作指导
 职称评审
 文献检索
 期刊科普知识
 非法期刊
 学术不端
期刊分类解释 期刊刊号的解释 医学期刊分类表 核心期刊 期刊查询 (2014-2015)CSSCI来源期刊目录 2008医学核心期刊 政策法规
CSSCI CSCD SSCI 《工程索引》(EI) SCI(科学引文索引) 参考文献格式国家标准 2014中文核心期刊目录 论文信誉排行
 当前位置:首页 > 写作指导 > 浏览正文
文献阅读笔记(23)-基于网页框架和规则的去噪方法-1篇
作者: 佚名     来源: 本站原创     时间:2014年07月24

Tags:论文信誉排行网
 基于网页框架和规则的去噪方法

摘要:提出基于网页框架和规则的去噪方法。根据TABLE标签将网页分成若干部分,对各个TABLE的长宽比属性进行比较,去掉长宽比很大的部分,并对其余的TABLE中的内容进行分析,根据内部是否存在和段落文字有关的标签pbr等来区分主题内容和噪音内容。

噪声分类

(1)导航类:为了维持网页间的链接关系,方便浏览者对网站进行浏览而设置的链接。

(2)修饰类:为了美化页面而采用的背景、修饰图片等。如站点标志图片、广告条。

(3)交互类:为了收集用户提交信息或提供站内搜索服务的表单等。如在线问卷调查表。

(4)其他类:网页中声明的版权信息、创建时间、作者等描述性信息。

参考文献(文献笔记荆涛,左万利基于可视布局信息的网页噪音去除算法_荆涛[J]. 华南理工大学学报(自然科学版), 2004, 卷缺失(0): 90-93+104.

启发式规则

(1)标签<table></table>之间如果有标签pbr,可以看为是正文内容;

(2)若标签<table> width  height 属性为其占页面的百分比,则需要根据这个百分比的值来确定其是否为主题内容。若width  height 属性的百分比数值较大,则认为有可能是主题内容;

(3)对于多层嵌套的标签<table>,认为只在其中某一层table 中存在主题内容;

(4)对于没有标签<table>的网页,即不是由表格分割的网页,如果存在段落文字,则认为是主题内容。

算法思想

对于有标签<table>的网页,认为重要的信息都放在网页的中间区域,而且该区域长度和宽度都比较大。而网页边缘区域的重要性相对于中间区域都很弱,而且该区域比较狭长;对于没有标签<table>的网页,只是根据其是否存在段落文字来判断是否为主题内容,并没有考虑更多。

实验分析

1)数据集选用CWT200G(Chinese Web testcollection with 200 GB Web pages)中的 125 个站点的 132 559 个网页进行测试。

2)衡量指标检查结果用优、良、中、差”4 个标准进行判断。其中代表网页主题内容正确提取,且噪音基本去除;代表网页主题内容正确提取,噪音存在一部分;代表网页主题内容基本能正确提取,噪音存在较多;代表网页噪音基本没有消除或者主题内容没有正确提取。

 

参考文献

[1] 时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J]. 计算机工程,2007, 卷缺失(19):276-278.


免责申明:网友评论不代表本站立场! 客服EMAIL:lunwenpaihang@126.com