搜索引擎工作原理
什么是搜索引擎
搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统,它包括信息搜集、信息整理和用户查询3部分。搜索引擎的主要任务是搜索其他网站上的信息,并将这些信息进行分类并建立索引,然后把索引的内容放到数据库中,当用户向搜索引擎提交搜索请求的时候,搜索引擎会从数据库中找出匹配的资料反馈给用户,用户再根据这些信息访问相应的网站,从而找到自己需要的资料。
搜索引擎分类
按照数据收集方式的不同,搜索引擎主要分为3类:分别是目录索引搜索引擎、全文检索搜索引擎与元搜索引擎。
1.目录索引搜索引擎
目录索引搜索引擎(Search Index/ Directory)中的数据是各个网站自己提交的,它就像一个电话号码簿一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介。用户不使用关键字也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容)。这类搜索引擎往往也提供关键字查询功能,但在查询时,它只能够按照网站的名称、网址、简介等内容进行查询,所以它的查询结果也只是网站的URL地址,不能查到具体的页面。由于这类搜索引擎的数据一般由网站提供,因此它的搜索结果并不完全准确,并不是严格意义上的搜索引擎。
2.全文检索搜索引擎
全文检索搜索引擎(Full Text Search Engine)这类搜索引擎通过一种称为“蜘蛛”的程序自动在网络上提取各个网站的信息来建立自己的数据库,并向用户提供查询服务,是一种真正意义上的搜索引擎。如AlaVista, Google, Excite, Hothot, Lycos等。
全文检索搜索引擎数据库中的数据来源分两种:一是定期搜索,也就是每隔一段时间搜索引擎就主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,就会自动提取网站的信息和网址加入自己的数据库。二是网站提交的信息,即网站所有者主动向搜索引擎提交地址,搜索引擎会在一定时间内派出“蜘蛛”程序搜索所提交的网站的相关信息,并存人自己的数据库中。总的说来,这些数据都是“蜘蛛”程序搜索到的网页上的具体内容,其搜索结果也能精确到具体网页。
其实,如今的搜索引擎和目录索引已经开始相互融合,全文检索搜索引擎也提供目录索引服务。比如Yahoo这样的目录索引已经在20世纪90年代后期开始与Google等搜索引擎合作,提供全文搜索服务。
3.元搜索引擎
元搜索引擎(META Search Engine)在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace, Dogpile, Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
搜索引擎工作原理
从工作原理角度解释,目前已有的全部搜索引擎并不是真正搜索互联网,它们的搜索范围实际上仅限于预先整理好的网页索引数据库。有资料显示,即便是排名全球搜索引擎第一的Google可以检索的网页数量,也不超过全球互联网上网页总数的4喇。由此,可以提醒用户在使用搜索引擎过程中注意两个问题:第一。检索的网页范围有限,通过搜索引擎没有找到,并不代表互联网上真的没有;第二,企业网站制作并不必然会被搜索引擎收录检索。
1.全文检索搜索引擎
真正意义上的搜索引擎,通常指的是收集了互联网上几千万个到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键同的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL, AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个同,如“网络营销”,但如果有别的网页B用链接“网络营销”指向这个网页A,那么用户搜索“网络营销”时也能找到网页A。而且,如果有更多网页(C,D,E,F……)用名为“网络营销”的链接指向这个网页A,或者给出这个链接的源网页(B,C,D,E,F……)越优秀,那么网页A在用户搜索“网络营销”时也会被认为更相关,排序也会越靠前。
全文检索搜索引擎的工作原理分为3步:从互联网上抓取网页;建立索引数据库;在索引数据库中搜索排序。
(1)从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,程序可以沿着任何网页中的所有超链接爬到其他网页并重复这过程,最终把爬过的所有网页收集回来。
(2)建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键同的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
(3)在索引数据库中搜索排序
当用户输人关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键同的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库存储了互联网上几亿个至几十亿个的网页索引,数据量达到几千兆甚至几万兆。但即使最大的搜索引擎建立超过20亿个网页的索引数据库,也只能占到互联网上普通网页的40%不到,不同搜索引擎之间的网页数据重叠率一般在70%以下。使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。
2.目录索引搜索引擎
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按目录索引逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
与全文搜索引擎相比,目录索引搜索引擎的工作原理有以下不同之处:
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。
再次,在登录搜索引擎时,一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像Yahoo这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
本发布于UEO营销型网站建设公司中欧体育zoty下载 中国//lzshtjxc.com/
推荐新闻
更多行业-
“中欧体育zoty下载 中国”专注于定制高端网站建设
为什么进行定制高端网站建设 网站建设,意义重大。网站是我们面对互联网用...
2019-07-16 -
网站建设:实用策略助力在线发展
企业网站已成为公司与客户沟通的重要桥梁。一个功能齐全、用户友好的网站不...
2024-10-18 -
为何网站建设完成后没有流量?
网站建设完成后没有流量可能涉及多个因素。以下是一些可能导致这种情况的常...
2023-08-28 -
技术干货-网站建设开发规范
网站建设和开发需要遵循一定的规范和最佳实践,以确保网站的可用性、性能、...
2023-09-06 -
[北京网站制作]获得软文灵感的方式 教你几点实际的
时下站长们很多人都说软文不好写啊,真的不好写,其实不是不好写,是没有找...
2011-10-27 -
浅谈网站建设需要准备些什么
前面我也说过,但凡有一定成功的网站,站长一定付出了不少,要么脑力(技术...
2012-07-25
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com