精彩专题推荐:建站之入门课 建站之必修课 建站之关键课 网站价值所在 流量提高专题 css+div 标准 个人网站打造全过程
返回建站学首页
导航:
建站首页 | 网站设计 | 网站开发 | 网站运营 | 网页软件 | 建站指南 | 搜索优化 | 图像处理 | 视频教程 | 书籍教程 | 建站专题
当前位置:首页>搜索优化>SEO优化>正文

搜索引擎在网络信息挖掘中的应用


来源: 时间:06-10-04 点击: 点击这里收藏本文

目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。然而,数据挖掘技术与可视化技术、地理信息系统、统计分析系统相结合,可以丰富数据挖掘技术及工具的功能与性能。
4、网络信息挖掘及其分类
网络信息挖掘是一个极其复杂的过程,它不同于传统的数据仓库技术和简单的知识发现(KDD),它面对的海量信息不是全简单的结构化数据,而常常为半结构化的数据,如文本、图形、图像数据,甚至是异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
网络信息挖掘大致分为四个步骤:①资源发现,即检索所需的网络文档;②信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息;③概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;④分析,对挖掘出的模式进行确认或解释。
根据挖掘的对象不同,网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络用法挖掘。①网络内容挖掘。即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多,从网络信息源的角度看,大量的网络信息资源可以直接从网上抓取、建立索引、实现检索服务,但是还有一些网络信息是“隐藏”的,如由用户的提问而动态生成的结果,或是存在DBMS中的数据,或是那些私人数据,它们无法被索引,从而无法提供对它们有效的检索方式;从资源形式看,网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的,因此网络内容挖掘是一种多媒体数据挖掘形式。②网络结构挖掘。即挖掘Web潜在的链接结构模式。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。③网络用法挖掘。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。
二、搜索引擎的主要技术及其应用和发展趋势
狭义上讲,网络信息检索就是网络信息(内容)挖掘的一种。因此,要探讨网络信息挖掘,也有必要探讨一下有关搜索引擎的问题。
1、什么是搜索引擎
搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的检索(企业、人名、电话黄页等)。
2、搜索引擎的主要技术
搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成。①搜索器:其功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死连接和无效连接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。③检索器:其功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。④用户接口:其作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询进行限制。
9 7 3 1 2 3 4 4 8 :

  把此文章收藏到:          
广而告之
文章搜索
  • Google JZxue.Com

关于我们 | 联系我们 | 友情链接 | 网站地图
Copyright © 2005 - 2006 建站学 All rights reserved.