文献阅读笔记(3)——网页去噪效果评价方法
[1] 张恒,屈景辉,张亮.网页文本信息提取及结果评价_张恒[J].微计算机应用,2007(9):27-30.
1)文章创新点:
提出了信噪比的概念作为网页去噪的性能衡量指标。信噪比的定义:要提取信息的字符总数与噪声信息的字符数之比。公式如下:
2)评价方法:
本文并没有对网页直接进行去噪,而是先利用URL下载得到网页内容,继而获取网页的HTML文档,通过提取HTML文档中的<TITLE>,<P>标记的内容得到文本信息,再进一步去掉<TITLE>,<P>等标记符,得到纯文本,最后进行信噪比的计算。如下图所示:
3)质疑:提取前跟提取后的平均信噪比是怎么得到的?
4)概念定义
全局噪音:在对Web上得到的一组页面集进行挖掘或聚类时,若一个网页所存留的副本,如镜像网站、复制的页面及旧版本的页面也在此页面集合中,则这些副本成为噪音数据,即全局噪音。局部噪音:即在一个页面内与页面主题无关的区域及项。这些噪音包括广告栏、导航条、修饰作用的图片等。(定义参考文献:YiLan,Liu Bing,Li Xiaoli.Eliminating noisy informationin Web pages for data mining. Proceeding of the8thACMSIG XDDInternational Conference on Knowledge Discovery and Data Mining . 2003,296~305)
[2]VieiraK,Silva A S D,Pinto N,et al.A fast and robustmethod for Web page templatedetection and removal[C]Proc of the 15th ACM Int Conf on InformationandKnowledge Management.New York:ACM,2006:258-267
1)概念定义
F-Measure又称为F-Score,是IR(信息检索)领域的常用的一个评价标准,计算公式为:
其中β是参数,P是精确率(Precision),R是召回率(Recall),F是衡量P和R的综合指数。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。
精确率(precision)的公式是
召回率(recall)的公式是
当参数β=1时,就是最常见的F1-Measure:
2)评价方法
研究思路:First, the costly process of template detection is performed over asmall set of sample pages. Then, the derived(推导出的) template isremoved from the remaining pages in the collection.
评价方法:a.人工判断与计算机判断作对比,用F1-Measure衡量。We selected 10 (real) web sites. For each site i, wemanually identified the template byvisually inspecting the pages.We built a reference set Si containing the terms(words)present in the template. Then, for each of these sites we applied ourmethod to automatically remove the template and generated a corresponding setTi of the terms present in the detected template. Sets Si and Ti were then comparedusing the well-known F-measure defined as: Fi=2(Ri.Pi)/(Ri+ Pi), where Ri= |Si∩ Ti|/|Si|(Recall) andPi= |Si∩Ti|/|Ti| (Precision).
b.比较应用去噪方法和不应用去噪方法对WEB挖掘(分类和聚类)的影响。
总结:评估去噪效果的方法有以下这些,一种是从算法的效率和精度方面直接评价去噪方法的性能;一种是把去噪方法应用到搜索引擎和数据挖掘(分类和聚类),判断应用去噪方法和不应用去噪方法导致的区别;一些方法采用F-measure、召回率、精度等性能指标;一种方法是定义信噪比的概念作为性能衡量指标。