题目:网页信息采集分类系统的设计与实现
● 摘要
互联网已发展成为拥有数亿页面的分布式信息空间,而且这个数字仍以每4至6个月翻一番的速度增加着。随着网络信息资源的急剧增长,人们越来越多地关注如何开发和利用这些网络信息资源。然而现存的技术无法满足用户对高质量的网络信息服务的需求,例如传统的搜索引擎返回的相关网页太多,用户很难快速准确地定位到所需的信息,网页信息采集分类系统就是在这样一种环境下应运而生的。网页信息采集分类系统是网络信息挖掘的一种技术实现,它的设计思路是:网页搜索à网页内容提取à内容的分类(形成知识库)。系统的研究对象是网页中的信息,比如新闻网站中的新闻网页、专利网站的专利介绍网页、公司网站的产品介绍网页等。系统的实现目标是从网页信息资源中寻找用户需要的有价值信息,并及时提供给用户。我们在整个系统的设计中,以功能为导向原则,将系统划分为6个模块,先设计模块之间的接口,然后再细化成更小的模块。在实现的过程中,从最小的功能单元开始实现,再组装成大的功能,最终完成整个系统。在系统的开发过程中,我们研究了关于网络信息挖掘相关的技术,包括网页搜索技术,网页内容提取技术,文本分类和聚类等等。本论文提出了网页搜索算法和网页内容提取算法,并在网页信息采集分类系统中得到了应用,取得了较好的效果;文本的分类采用了已有的算法,在系统中用代码进行了实现。本论文在网页信息的采集方面进行了积极的探索和研究,提供了一套实际可行的技术解决方案,提高了网络中信息的综合利用价值。
相关内容
相关标签