计算机信息检索的原理
计算机信息检索过程是指用户对检索播求加以分析,明确检索范围。弄清主题概念,形成检索标识及检索策略,愉入到计算机中进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序控制下,进行离级逻辑运算。选出符合要求的信息并输出。计算机检索的过程实际上是一个比较、匹配的过程,是用计算机代替人工检索的匹配过程。计算机一方面接受检索提问(即检索提问表达式),另一方面从数据库中接受文献记录。然后在两者之间进行匹配运算,即计算机信息检索把检素提问与文献记录之间的相关性检索转变成了检索词与标引词之间的相似计算。目前.一般计算机信息检索系统为进行检索词与标引词之间的相似性运算,所采用的方法可以分为以下几个等级。
(1)单个整词的比较.例如.检索词是psychoan目ysis,而标引词也是psyeh咖alys畜s,两者全等,则为命中.全等是相似性的一种特殊形式,对于一些包含数值的词,如出版年、文摘号等也可以进行大于(>)、小于(<)的运算.
(2)词的片断(主要是词根)比较.例如,检索词是用截断符号(如@)表示的Pscho@,则命中所有开头与截断符号之前相同的词,如Psych。姗!ysis、Psychobiology等.这就是截词检索.截词有右截断、左截断、左右同时截断以及中间掩符等几种形式。对截断符之后的允许字符数.可不限制,也可限制在若千字符之间。即可分有限截断和无限截断两种模式。不论叮种,其基本原理都是进行词的片断对比。这种对比不要求检索词和标引词全等.而是部分相等或近似.因此,这个级别的比较是一种较典型的相似性运算。
(3)固定词组的比较.例如,检索词是Libra卿and bformation science,而标引词也是LibraJ,and Info,ation science.这是由多个整词构成的词组.但比较仍然是全等的运算.
(4)多个整词之间位置逻辑的比较。即可以指定两个整词,词与词之间至多相隔几个字(即可以擂入其他的字或字毋.忽略不计).两词出现的先后次序可以指定为可以对换或不可以对换.例如.检索Information(2w)Re州eval,可以命中Infonm旧lion stora朗andR。州cval.这种位宜迈辑的运抹可以说是带有贝活性的词组比较,而这种比较是允许有一定范幽的相似性运算。它称为相邻度检索。
(5)由若干单独的检索词或词组构成的定逻辑组合的比较。它的目标不是检索各个单独的检索词或词组.而是在愈义上彼此结合、互扣限定的词(成词组)的完整组合。例如.“信息”和“网络.,它们分别是两个单独的词,而“信息网络”是这两个词逻辑组合的一种形式。“信息网络”不是“信息,和“网络.这两个词的混合,而是两种愈义的结合,是两种概念合成了一种新的概念。
推荐新闻
更多行业-
网络经济的范围经济性
近几十年来,随着产业组织理论的更新与发展,范围经济性已经越来越被人们所...
2014-11-17 -
网站建设中副导航的作用是什么呢?
看过很多企业网站的结构,很多企业网站里面也都加入了副导航。什么叫做副导...
2014-04-24 -
优质企业网站建设应具备的特点
越来越多的公司正在通过各种方式和平台进行网络推广,所有这些都是为了让用...
2020-10-19 -
如何让百度秒收你的网站
外链建设 笔者认为外链建设对于一个网站来说很重要甚至比内链更重要高权重...
2012-06-19 -
去哪儿副总戴政:动用一切力量报道携程负面
“去哪儿”副总爆粗口昨日,携程旅行网高层和华北...
2012-02-03 -
生产企业网站建设方案
企业网站已经成为现代企业不可或缺的一部分。企业网站不仅是一个展示企业形...
2023-06-15
预约专业咨询顾问沟通!
免责声明
非常感谢您访问我们的网站。在您使用本网站之前,请您仔细阅读本声明的所有条款。
1、本站部分内容来源自网络,涉及到的部分文章和图片版权属于原作者,本站转载仅供大家学习和交流,切勿用于任何商业活动。
2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。
3、本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。
4、如果侵害了您的合法权益,请您及时与我们,我们会在第一时间删除相关内容!
联系方式:010-60259772
电子邮件:394588593@qq.com