当前位置：问答库＞论文摘要

题目：网页信息采集分类系统的设计与实现

● 摘要

互联网已发展成为拥有数亿页面的分布式信息空间，而且这个数字仍以每4至6个月翻一番的速度增加着。随着网络信息资源的急剧增长，人们越来越多地关注如何开发和利用这些网络信息资源。然而现存的技术无法满足用户对高质量的网络信息服务的需求，例如传统的搜索引擎返回的相关网页太多，用户很难快速准确地定位到所需的信息，网页信息采集分类系统就是在这样一种环境下应运而生的。网页信息采集分类系统是网络信息挖掘的一种技术实现，它的设计思路是：网页搜索à网页内容提取à内容的分类（形成知识库）。系统的研究对象是网页中的信息，比如新闻网站中的新闻网页、专利网站的专利介绍网页、公司网站的产品介绍网页等。系统的实现目标是从网页信息资源中寻找用户需要的有价值信息，并及时提供给用户。我们在整个系统的设计中，以功能为导向原则，将系统划分为6个模块，先设计模块之间的接口，然后再细化成更小的模块。在实现的过程中，从最小的功能单元开始实现，再组装成大的功能，最终完成整个系统。在系统的开发过程中，我们研究了关于网络信息挖掘相关的技术，包括网页搜索技术，网页内容提取技术，文本分类和聚类等等。本论文提出了网页搜索算法和网页内容提取算法，并在网页信息采集分类系统中得到了应用，取得了较好的效果；文本的分类采用了已有的算法，在系统中用代码进行了实现。本论文在网页信息的采集方面进行了积极的探索和研究，提供了一套实际可行的技术解决方案，提高了网络中信息的综合利用价值。

当前位置：问答库＞论文摘要

相关题目: