英语翻译求翻译成英文 随着互联网信息技术的不断发展,互联网的信息量也日益膨胀.近年来,全球因特网上的信息数据正以爆炸式的
英语翻译
求翻译成英文
随着互联网信息技术的不断发展,互联网的信息量也日益膨胀.近年来,全球因特网上的信息数据正以爆炸式的速度在增长.据IDC报告称,从现在到2011年,预计信息量将以每年57%的速度增长,在2010年信息总量将达到988EB (1EB=10亿GB),约为2006年的6倍,相当于有史以来所有书籍数字信息量的1800万倍.面对如此巨大的互联网信息库,如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题.这时,搜索引擎的出现无疑给人们带来了极大的方便.然而,随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大,人们发现,即使是借助搜索引擎的帮助,他们也越来越难以有效和准确的找到自己所需要的信息资源.
本文在研究了现有的搜索引擎的解决方案后,通过采用一种统计网页特征的方法,将中文网页中的内容部分抽取出来.该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取内容节点.该方法相比传统的基于包装器的抽取方法,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值.