网页的块重要性学习模型
摘要:已有的研究提出了很多网页分块的方法,但是并没有提出对页面中块的重要性(Block Importance )进行统一测量的方法和模型。由于页面中不同块的重要性是不同的,因此本文提出了一种对块重要性自动赋值的模型。首先运用VIPS算法对页面进行分块,然后利用空间特征和内容特征构造块的特征向量,接下来应用SVM和神经网络的学习算法来训练块重要性模型,最后对模型进行样本测试。
块重要性的用户调查
实验方法:从405个网站中采集news,science,shopping(雅虎分类)三个类别共600个网页并对其划分得到4539个块。请5个人分别手工对每个块按照以下的四个等级进行标注。
Level 1:噪声信息(如广告、版权、修饰)
Level 2:有用的信息但是与页面主题不相关(如导航、目录等)
Level 3:与页面主题相关的信息,但是没有显著的重要性(如相关主题、主题索引)
Level 4:页面中最重要的部分(如标题、主要内容)
标注结果如下图所示
结果解释:0.929表明5个人中有3个人同意将页面划分为4个等级,这样的页面占全部页面的0.929. 0.995表明将Level2和Level3合并,有3/5同意对0.995的页面进行这种合并。
调查说明:用户对页面的块重要性有一致的观点,建立块重要性的模型是有意义的。
块的特征
空间特征:VIPS分块后每个块的空间位置由以下4个特征描述,考虑到实际情况又对空间位置特征做了一些修正,具体公式见文献原文。
内容特征:内容特征由以下9个特征来描述,具体说明见文献原文。
块重要性学习模型
由于在用户调查中已经对块进行标注,因此可将每个块用(X,Y)表示,其中X是块的特征,Y是块的重要性。因此问题转化为通过训练集寻找一个函数:
本文分别运用神经网络(转化为回归问题)和SVM(转化为分类问题)进行训练和建模,此处略去具体过程。
实验分析
1) 数据集. 用户调查所用的数据集.
2) 衡量指标. Precision,Recall, Micro-F1,Micro-Accuracy. 对每一个Level用Precision,Recall来衡量,对整体表现用Micro-F1,Micro-Accuracy来衡量.
参考文献
[1] R. Liu H. Wen J. R. & MaW. Y. Learning Block Importance Models for Web Pages[J].In Proceedings of the13th International Conference on World Wide Web,2004:203-211.