详细介绍常用的几类搜索引擎技术
因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎(计算机爱好者,学习计算机基础,电脑入门,请到本站http://www.16qiuxue.com,我站同时提供计算机基础知识教程,计算机基础知识试题供大家学习和使用),技术恰好解决了这一难题,它可以为用户提供信息检索服务。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。
据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9TB,并且仍以每4个月翻一番的速度增长。例如,Google目前拥有10亿个网址,30亿个网页,3.9 亿张图像,Google支持66种语言接口,16种文件格式,面对如此海量的数据和如此异构的信息,用户要在里面寻找信息,必然会“大海捞针”无功而返。
搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。
目前,搜索引擎技术按信息标引的方式可以分为目录式搜索引擎、机器人搜索引擎和混合式搜索引擎;按查询方式可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;按语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。
目录式搜索引擎
目录式搜索引擎(Directory Search Engine)是最早出现的基于WWW的搜索引擎,以雅虎为代表,我国的搜狐也属于目录式搜索引擎。
目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可浏览式等级主题索引式搜索引擎,一般的搜索引擎分类体系有五六层,有的甚至十几层。
目录式搜索引擎主要通过人工发现信息,依靠编目员的知识进行甄别和分类。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,但由于人工信息搜集速度较慢,不能及时地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜索引擎。
机器人搜索引擎
机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。
机器人搜索引擎使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。 详细介绍常用的几类搜索引擎技术,详细介绍常用的几类搜索引擎技术
- ·上一篇:微软教你在IE7中使用RSS
- ·下一篇:浏览网页另类体验使用Mozilla Firefox火狐浏览器
- › 详细介绍常用的几类搜索引擎技术
- › 玩家详细介绍地下城与勇士武神的纯刷图点
- › QQ飞车完美飘移方法_赛车操作键详细介绍
- › 跑跑卡丁车SR尖锋车详细介绍
- › 详细介绍,逐步认识扫描仪
- tag: 暂无联系方式 电脑使用技巧,电脑技巧,电脑技巧大全,电脑学习,电脑学习 - 电脑使用技巧
网友评论>>
栏目分类
电脑使用技巧 推荐
- · 如何使用IE9的自动完成功能
- · 正确设置IE9浏览器保障正常运行!
- · 任务栏基本设置技巧
- · 不用密码就可以访问网上邻居的办法
- · 如何批量进行共享文件夹权限设置迁移复制
- · 网上搜索技巧
- · 消除电脑辐射的各种方法
- · 优化firefox提高上网浏览速度
- · 智能五笔输入法实用技巧两则
- · 开始菜单IE选项不见了
- · 如何安装及卸载IE7.0浏览器
- · 让多系统共享IE资源
- · 个性十足的IE搜索工具条
- · 卸载网络实名步步跟进
- · 浏览器中英文单词随时查
- · IE组件的安装方式一例
- · IE浏览器新实用技巧两则
- · 发掘浏览器潜能的优化策略
- · Netscape
- · Mozilla Firefox技巧拾零
- · IE浏览器的四种另类技巧
- · 打造更完美的Firefox
- · Firefox浏览器使用方法问答下
- · Firefox浏览器使用方法问答上
- · Firefox浏览器使用方法问答中
- · IE7取消管理员权限 将具备防间谍软件功能