论文信誉排行网 论文信誉排行网 设为首页
联系我们
收藏本站
 官方首页
 投稿指南
 写作指导
 职称评审
 文献检索
 期刊科普知识
 非法期刊
 学术不端
期刊分类解释 期刊刊号的解释 医学期刊分类表 核心期刊 期刊查询 (2014-2015)CSSCI来源期刊目录 2008医学核心期刊 政策法规
CSSCI CSCD SSCI 《工程索引》(EI) SCI(科学引文索引) 参考文献格式国家标准 2014中文核心期刊目录 论文信誉排行
 当前位置:首页 > 写作指导 > 浏览正文
文献阅读笔记(16)-网页的块重要性学习模型-1篇
作者: 佚名     来源: 本站原创     时间:2014年07月13

Tags:论文信誉排行网 代写论文 论文代写

网页的块重要性学习模型

摘要:已有的研究提出了很多网页分块的方法,但是并没有提出对页面中块的重要性(Block Importance )进行统一测量的方法和模型。由于页面中不同块的重要性是不同的,因此本文提出了一种对块重要性自动赋值的模型。首先运用VIPS算法对页面进行分块,然后利用空间特征和内容特征构造块的特征向量,接下来应用SVM和神经网络的学习算法来训练块重要性模型,最后对模型进行样本测试。

块重要性的用户调查

实验方法:从405个网站中采集news,science,shopping(雅虎分类)三个类别共600个网页并对其划分得到4539个块。请5个人分别手工对每个块按照以下的四个等级进行标注。

Level 1:噪声信息(如广告、版权、修饰)

Level 2:有用的信息但是与页面主题不相关(如导航、目录等)

Level 3:与页面主题相关的信息,但是没有显著的重要性(如相关主题、主题索引)

Level 4:页面中最重要的部分(如标题、主要内容)

标注结果如下图所示

结果解释:0.929表明5个人中有3个人同意将页面划分为4个等级,这样的页面占全部页面的0.929.  0.995表明将Level2Level3合并,有3/5同意对0.995的页面进行这种合并。

调查说明:用户对页面的块重要性有一致的观点,建立块重要性的模型是有意义的。

块的特征

空间特征:VIPS分块后每个块的空间位置由以下4个特征描述,考虑到实际情况又对空间位置特做了一些修正,具体公式见文献原文。

内容特征:内容特征由以下9个特征来描述,具体说明见文献原文。

块重要性学习模型

由于在用户调查中已经对块进行标注,因此可将每个块用(X,Y)表示,其中X是块的特征,Y是块的重要性。因此问题转化为通过训练集寻找一个函数:

本文分别运用神经网络(转化为回归问题)和SVM(转化为分类问题)进行训练和建模,此处略去具体过程。

实验分析

1) 数据集用户调查所用的数据集.

2) 衡量指标.  Precision,Recall, Micro-F1,Micro-Accuracy. 对每一个LevelPrecision,Recall来衡量,对整体表现用Micro-F1,Micro-Accuracy来衡量.

 

参考文献

[1] R. Liu H. Wen J. R. & MaW. Y. Learning Block Importance Models for Web Pages[J].In Proceedings of the13th International Conference on World Wide Web,2004:203-211.


免责申明:网友评论不代表本站立场! 客服EMAIL:lunwenpaihang@126.com