iv>
读者培训

第4章 网络信息资源检索技术

发布时间:2019-06-02 21:27:06 发布人:本站编辑 浏览次数:

随着因特网的飞速发展,网上资源日新月异,呈爆炸性增长,面对浩如烟海的各种网络信息资源,用户需要掌握高校的检索技术和选择高质量的检索工具。本章主要介绍网络信息资源的检索方法、技术和主要的网络检索工具的使用。

4.1网络信息资源概述

网络信息资源(Network lnformation Resources)是指将文字、图像、声音、动画等多种形式的信息数字化后存放在光、磁等非印刷纸质的载体中,并通过计算机网络通信等方式进行传递的信息内容的集合。与印刷型文献相比,它在出版组织等方面的特点是,载体形式虚拟,存储方式多样,传播方式交互,存在状态无序、不稳定,信息价值差异大等。

4.2网络信息资源检索

4.2.1网络信息资源检索的一般方法

用户在网上获取信息,一般有以下几种检索方法:

1.浏览。用户在网络上随意地浏览,将一些意外发现的有用信息的网站地址,主要是一些网上期刊、数据库以及信息机构等的网址记录下来,进而获取网络资源,这是一种日常对URL(网址)进行积累的方法。

2.通过网络资源指南查找信息。是指利用由专业人员开发出来的网络资源主题指南来检索信息的办法。如Yahoo!就是广为人知的综合性主题分类树体系的网络资源指南。

3.利用网络信息检索工具查找信息。网络信息检索工具为网上查询信息提供了诸多途径。查询不同类型的资源要使用不同类型的检索工具,目前流行的是WWW检索工具——搜索引擎。

4.2.2网络信息检索技术

网络信息检索技术是指应用信息检索过程的原理、方法、策略、设备条件和检索手段等因素的总称。下面介绍主要的既适用于网络信息检索、也适用于光盘数据库检索的计算机检索技术。

1.布尔逻辑检索技术

布尔逻辑检索是建立最早的检索理论,也是检索系统中应用最广泛的检索技术。它通过对布尔逻辑运算符进行组配,形成检索式,以表达用户的检索需求,并通过一定的算法和手段进行检索。

布尔逻辑运算符有三种形式:逻辑与(AND)、逻辑或(OR)和逻辑非(NOT)。

逻辑与(AND)

是一种用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。一般使用“*”或“&”表示。检索表达式为“A AND B,或“A*B”,表示被检索的文献记录中必须同时含有A和B才能被命中。例如:希望了解数控机床的产品信息,检索式可表达为:“数控机床*产品目录”或“数控机床 AND 产品目录”。

逻辑或(OR)

是一种用于并列关系的组配,可以扩大检索范围,提高查全率。一般使用“+”来表示。其检索表达式为“A OR B”或“A+B”,表示检索记录中含有A或B中的任意一词即被命中。例如,检索计算机算法或程序语言的相关文献,检索式可表达为:“计算机算法 OR 计算机程序设计语言”。

逻辑非(NOT)

是一种表示排斥关系的组配,用于从原来的检索范围中排除不需要的概念或影响检索结果的概念。一般使用“-”来表示。其检索表达式为:“A NOT B”或“A-B”,表示检索结果中含有A但不含有B的记录。例如,检索除因特网之外的计算机相关文献,则检索式应表达为:“computer-Intemet‘’或“computer NOT Intemet”。

2.位置算符

位置算符表示连接的两个检索词之间的位置关系,常用的有(W)、(nW)、(N)、(nN)、(S)、(F)。

(1)(W)或()算符:是“With‘’的缩写,用“(W)”或“()”表示两个检索词词序不许颠倒,两词之间不许插词,只许空格或连字符号。例如检索式为CD(W)ROM时,将命中CDROM或CD-ROM。

(nW)算符是“n words'’的缩写,检索词之间允许插入0-n个词,词序不许颠倒。例anticorrosion(1W) paint可检出antieorrosion paint和anticorrosion of paint。

(2)(N)算符:是“Near”的缩写,(N)表示其连接的两个检索词的顺序可以颠倒,但两词之间不许插词,例cross(N)section可检出cross section和sectioncross。

(nN)算符是从(N)算符引伸出来的,检索词之间允许插入0-n个词,词序可以颠倒。

4.2.2网络信息检索技术

(3)(F)算符:是“Field”的缩写,(F)表示其连接的两个检索词必须在同一字段内,词序及两词间插入的词数不限。例如digital(F)computer。

(4)(S)算符:是“Sentence”和“Sub-field”的缩写,算符两侧的检索词必须在同一句子,词序及两词间插入的词数不限。

(5)P算符:是“paragraph”的缩写,检索式为A(P) B,表示两个概念A、B必须同时在同一自然段中出现。

上述位置算符可以混合用于同一检索式中,由于检索系统是按从左到右的顺序处理检索式的,因此,应将限制最严的算符放在最左边。

3.截词符

截词是指检索者将检索词在他认为合适的地方截断。截词检索是指使用截词的一个局部进行检索的一种方法。即凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词有后截断、前截断、中截断3种类型,截词符可分别用?、$、*等来表示。截词检索分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。

(1)后截断:后截断有无限截断和有限截断两种:无限截断是在一个词尾加一个“?”,表示在其后可增加任意多个字符,这些词都被作为检索词进行检索。有限截断是在词尾加有限个“?”,n个“?”号表示其后可添加的字符少于等于n个。

(2)前截断:前截断与后截断相反,将截词符放在一个词的前面,以表示其右边不管截去有限或无限个字符,只要数据库中具有与截词符号后面部分字符串相同的检索词的信息,即为命中信息。

(3)中截断:中截断只允许有限截断,是指在一个词中间有若干个“?,,号,表示可插入若干个字符。

4.限制检索

限制检索就是对检索词范围(时间、国别、语种、信息类型等)进行约束或限定的方法,它大多通过检索系统的限制符号或限制命令来实现。

5.全文检索技术

全文检索是对文献全文内容进行的字符串的匹配检索,包括字符串检索、截词检索、位置检索、同义词控制以及后控词表等技术。全文检索技术使用原文中任何一个有实际意义的词作为检索人口,而且得到的检索结果是源文献而不是文献的线索。

6.构造检索式

构造检索式是检索策略的具体表达,是将表达主体内容的检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可识别和执行的命令形式。

构造检索式分两个步骤:

1)选择检索词:是计算机检索成败的关键。因此,在执行检索前需从课题的名称及其

描述出发,认真分析,提取供检索使用的词或词组,再对这些词或词组进行规范处理。

2)组配检索词:利用各种运算符对所选择的检索词进行组配,提高其查准率。

7.加权检索

加权检索是根据用户的检索需求来确定检索词,再由每个词在检索要求中的重要程度不同,分别给予一定的数值(权数)加以区别。

(1)词加权检索:在检索式的构造过程中,检索者根据检索需求,选定检索词,同时给定每一个检索词(概念)一个数值(权)表示其针对本次检索的重要程度。

(2)词频加权检索:是根据检索词在记录中出现的频次来决定该检索词的权值,而不是由检索者指定检索词的权值。

(3)法定数检索:它是加权检索的一种特例,其过程实际上是自动构造布尔提问式和不断修正提问式的过程。

4.2.3网络信息资源检索工具及检索途径

1.网络信息资源检索工具——搜索引擎

(1)搜索引擎概述

网上信息大爆炸,用户要在这浩瀚的信息海洋里寻找所需求的信息,必然会像大海捞针。搜索引擎正是为了解决这个问题而出现的技术。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

(2)搜索引擎的工作原理:搜索引擎的工作主要由两部分组成:信息搜集处理和信息检索输出。

1)信息的搜集处理。搜索引擎定期搜集信息,并对搜集来的信息进行整理加工,添加至该搜索引擎所指向的数据库。搜索引擎搜集信息的主要对象是互联网上的各个网络站点。

2)信息的检索输出。对搜集的信息进行分析、标引、加工处理后,形成可供用户检索的数据库,并以Web形式提供用户检索。

(3)搜索引擎的分类

1)按信息覆盖范围及用户群可分为综合搜索引擎(如腾讯)和专业(专题)搜索引擎(如查找地图信息的MapBlast)。

2)按搜索范围分为独立搜索引擎(如google)和元搜索引擎 。

3)按其索引方式分为目录式搜索引擎、全文机器人搜索引擎、分类全文搜索引擎、智能搜索引擎。

①目录式搜索引擎提供等级式主题目录,用户通过主题目录的指引,逐层浏览信息,直到找到与自己需求相关的信息。特别适合于希望了解某一方面或范围内信息但又没有明确搜索目的的用户使用。该类搜索引擎因为加入了人的智能化,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。有代表性的目录式搜索引擎有腾讯、网易、新浪、搜狐等。

②全文(机器人)搜索引擎提供对关键词或自然语言的查询。全文搜索引擎能够对网站的每个网页中的每个单字进行搜索。有代表的全文搜索引有:Google、百度等。

③分类全文搜索引擎是在分类的基础上再进一步进行全文检索。很多搜索引擎同时提供分类和关键词两种方式的检索。

④智能搜索引擎具备符合用户实际需要的知识库,搜索时根据已有的知识库来理解检索词的意义并由此产生联想,从而找出相关网站或网页。

2.网络信息资源检索途径

目前Intemet上的检索工具主要提供分类目录检索和关键词检索两种途径。

(1)分类目录检索:分类目录检索索引数据库通常称为目录(Catalog),该目录是由人工进行分类建立的,类似于图书馆的目录,适合于主题较宽或要求较为简单的查询。

使用分类目录进行信息搜索的基本步骤是:

1)在Web浏览器中,根据URL地址,打开搜索工具的主页。

2)通过搜索工具主页链接进入分类目录检索界面。

3)根据分类目录结构选择所需类目,单击分类目录进入所选定类目的下一级子目录,或者进入一组站点列表。

4)选择需要的站点,单击站点名称,实现链接。

5)检索结果的显示与选择。

(2)关键词检索:关键词检索主要是指利用搜索索引查找网页的方法,适合于主题较为专指、细小或狭窄的查询。

使用关键词进行信息搜索的基本步骤是:

1)根据URL地址,调用该查询工具的主页,如Google。

2)在查询工具主页的信息检索输入框中,键人关键词或查询短语。

3)单击“检索”或“查询”,或直接按回车进行查询提交,搜索索引立即进行实时交互式的信息查询。

4)显示搜索结果。检索结果页面通常包括一系列资源标题和相应的资源描述,以及指向这些资源的站点链接。

3.搜索引擎的使用方法和技巧

(1)选择合适的搜索引擎

(2)缩小检索范围

(3)构造恰当的检索表达式

4.3常用搜索引擎的介绍

4.3.1目录型搜索引擎

国内比较常用的目录型搜索引擎有搜狐。

4.3.2全文(机器人)搜索引擎

国内比较常用的目录型搜索引擎有谷歌和百度。

1.谷歌

2.百度

4.3.3中文元搜索引擎

元搜索引擎的不同之处在于它本身并不搜集信息和数据,而是利用其他搜索工具搜集信息。

(1)万维搜索

(2)MetaFisher

(3)搜星

4.3.4专业搜索引擎

专业搜索引擎就是服务于专门领域的信息查询工具。

(1)查询地址、人物、电话、电邮等内容搜索引擎。

网易黄页:http://114.163.com

(2)查询地图地区信息等内容搜索引擎。

中华地图网:http://www.hua2.com

4.3.5其他搜索引擎

其他常用的搜索引擎有:

新浪:http://www.sina.com



版权所有:bobapp官方下载 2016-2020 ICP备案 :吉ICP备13000357号-1
铁东地址:bobapp官方下载 四平市铁东区长发路1299号
邮编:136001 邮箱:ngxywz@126.com

/* 图书馆- 右侧浮动菜单 */
Baidu
map