毕业论文

当前位置: 毕业论文 > 研究现状 >

网页信息采集国内外研究现状与存在的问题

时间:2022-05-16 22:18来源:毕业论文
网页信息采集的主要内容是负责跟踪搜索任务的执行结果,并采集这些搜索结果。信息采集的部分主要通过采集搜索引擎的搜索结果来完成,很多搜索引擎的作用很类似,主要以系统中
打赏

网页信息采集的主要内容是负责跟踪搜索任务的执行结果,并采集这些搜索结果。信息采集的部分主要通过采集搜索引擎的搜索结果来完成,很多搜索引擎的作用很类似,主要以系统中创建的搜索任务为搜索目标,在自己的搜索引擎中找到这些内容。那么,程序设计怎样从搜索引擎的内容进行信息采集呢?目前中国国内研究这块内容的成果还是有一些的,根据参考资料,大部分的研究是基于元搜索引擎进行信息采集的。元搜索引擎接到用户请求查询的命令以后,可以在相同的时间内在几个不一样的搜索引擎上展开搜索的工作,得到搜索结果后,元搜索引擎就会把搜索到的信息显示给用户。目前中国国内研究的搜索引擎信息采集系统实际上是建立在一种搜索引擎上的,这个搜索引擎就是元搜索引擎。但是相比于国外元搜索引擎信息采集技术的研究水平,中国目前的元搜索引擎信息采集技术还不够成熟,另外,由于中国法律政策等原因,Google目前在中国不能使用,当使用元搜索引擎信息采集系统时,不能全面得到需要的内容。80742

那么网页内容提取这部分研究的又如何呢?这里要用到web页面抓取的技术。搜索引擎提供的一条条信息都罗列在web页面上,该程序会抓取web页面,并对web页面的内容进行分析,然后根据这些分析后的信息,建立一个数据库,将这些信息按照一定的规则放在数据库里,至此,该程序设计就完成了搜索引擎内容的信息分析的工作。论文网

那么国外对搜索引擎信息分析技术研究的水平如何呢?根据参考消息,他们对信息采集的方法是搜索引擎的使用者连接在一起的,也就是说,首先使用者必须要登录自己的账号,然后搜索引擎才可以将他使用搜索引擎搜索过的信息收集起来并在以后提供给他,这在很大程度上给使用者带来了麻烦。

通过对上面国内外搜索引擎信息采集分析技术的研究,我认为这次的毕业设计课题还是有很大的研究内容的,并且它也具有很好的研究价值。

参考文献

 

[1]邵维忠,杨芙清。面向对象的系统分析。北京:清华大学出版社。2000:78-98。

[2]郑红军,张乃孝。软件开发中的形式化方法。计算机科学。1997, 24(6): 90-96。

[3]王悠悠, 吴中博。 网页内容提取工具的设计与实现。电脑知识与技术, 2011, 07(32):7878-7879。

[4]张园园。 基于用户兴趣的个性化搜索引擎的分析与研究。 燕山大学, 2006:33-45。

[5]王苏, 马革新, 刘丰年,等。 关于个性化搜索引擎中用户兴趣模型的研究。 长沙大学学报, 2013, 27(5):64-66。

[6]邓铁清, 王恺。 Web数据提取与发布工具的设计与实现。 计算机应用研究, 2004, 21(3):178-180。

[7]张净。 Web信息自动抽取技术的研究与实现。 武汉理工大学, 2009:25-40。

[8]汪文元,沙基昌。谭东风。基于Petri网和UML活动图工作流建模比较。系统仿真学报。2006, 18(2):504-510。

[9]刘甫迎。C#程序设计教程。北京:电子工业出版社,2008:58-94。

[10]李净, 袁小华, 沈晓晶。 Web权威信息自动提取技术的研究及应用。 计算机工程, 2008, 34(13):54-55。

[11]李德奇。ASP。NET程序设计。北京:人民邮电出版社,2007:33-57。

[12]Kroll P, Kruchten P。 The rational unified process made easy: a practitioner's guide to the RUP[M]。 Addison-Wesley Professional。 2003:76-89。

[13]Seung Mo Cho, et al。 A semantics of sequence diagrams。 Information Processing Letters 2002,84(3): 125-130。

[14]Laender A H F, Ribeiro-Neto B A, et al。 A brief survey of web data extraction tools。 Acm Sigmod Record, 2002, 31(2):84-93。 网页信息采集国内外研究现状与存在的问题:http://www.youerw.com/yanjiu/lunwen_93937.html

------分隔线----------------------------
推荐内容