查新的作用
文献的概念、等级与主要类型
主要文献信息源及其特点
文献检索概述
文献检索的方法、途径及程序
基本检索方法
检索效果的评价
 

查新的作用
    查新工作在科技研究开发、科研管理和国民经济建设中发挥着十分重要的工作。具体说来,表现在以下几个方面。
    一、为科研立项提供客观依据
    科研课题在论点、研究开发目标、技术路线、技术内容、技术指标、技术水平等方面是否具有新颖性,在正式立项前,首要的工作是全面、准确地掌握国内外的有关情报,查清该课题在国内外是否已有人研究开发过。通过查新可以了解国内外有关科学技术的发展水平、研究开发方向;是否已研究开发或正在研究开发;研究开发的深度及广度;已解决和尚未解决的问题等等,对所选课题是否具有新颖性的判断提供客观依据。这样可防止重复研究开发而造成人力、财力、物力的浪费和损失。
    过去对新上项目、重点项目的选择不注意查新,导致重复研究。据统计,我国科研项目重复率达40%,而另外60%中部分重复又在20%以上,同时与国外重复也约占30%左右,其中大部分是国外已公开的技术,因而造成了人力、物力、财力的严重浪费。
    二、为科技成果的鉴定、评估、验收、转化、奖励等提供客观依据
    查新可以为科技成果的鉴定、评估、验收、转化、奖励等提供客观的文献依据。例如某企业为成果鉴定,要求通过查新确认他们的"轻烃燃气灶具"项目为国内首创,经查新证实,国内已有此灶具的报道,从而否定了"国内首创"的评价。该企业十分后悔在立项时未经项目查新而造成的人力、物力和财力的损失 。
    查新还能保证科技成果鉴定、评估、验收、转化、奖励等的科学性和可靠性。在这些工作中,若无查新部门提供可靠的查新报告作为文献依据,只凭专家小组的专业知识和经验,难免会有不公正之处,可能会得不出确切的结论。这样既不利于调动科技人员的积极性,又妨碍成果的推广应用。高质量的查新,结合专家丰富的专业知识,便可防止上述现象的发生,从而保证鉴定、评估、验收、转化、奖励等的权威性和科学性。
    三、为科技人员进行研究开发提供可靠而丰富的信息
    随着科学技术的不断发展,学科分类越来越细,信息源于不同的载体已成为普遍现象,这给获取信息带来了一定的难度。有关研究表明,技术人员查阅文献所花的时间,约占其工作量的50%,若通过专业查新人员查新,则可以大量节省科研人员查阅文献的时间。查新机构一般具有丰富的信息资源和完善的计算机检索系统,能提供从一次文献到二次文献的全面服务,如通过国际联机情报检索系统提供世界著名的SCI(科学引文索引)、CA(化学文摘 )、EI(工程索引 )、NTIS(美国政府报告 )、WPI(世界专利索引)等近千个科技、经济、商业等资料的数据库,内容涉及各种学术会议和期刊的论文、技术报告、专利、标准和规范、报纸、通告等,收藏的数据最早可追溯到十九世纪,最新可查到几分钟前公布的信息。据有关资料统计,这些系统包含了世界上98%以上的机读文献,基本能满足科研工作的信息需求。
top  
    文献的概念、等级与主要类型

    一、文献的概念
    文献是记录有知识的一切载体(GB/T 3792.1-1983)。具体地说,文献是将知识、信息用文字、符号、图像、音频等记录在一定的物质载体上的结合体。在查新中,文献是科技文献的简称,是指通过各种手段(文字、图形、公式、代码、声频、视频、电子等)记录下科学技术信息或知识的载体。
    由上述定义我们可以看出,文献具有三个基本属性,即文献的知识性、记录性和物质性。它具有存贮知识、传递和交流信息的功能。
    二、文献的等级
    由于文献的种类繁多,各具特色,不同类型文献所记载的信息内容也各有侧重,因此,首先了解文献的级别、类型、特点等知识,对进一步做好文献检索工作将有很大的帮助。
    依据文献传递知识、信息的质和量的不同以及加工层次的不同,人们将文献分为四个等级,分别称为零次文献、一次文献、二次文献和三次文献。
    1.零次文献
    这是一种特殊形式的情报信息源,主要包括两个方面的内容:一是形成一次文献以前的知识信息,即未经记录,未形成文字材料,是人们的"出你之口,入我之耳"的口头交谈,是直接作用于人的感觉器官的非文献型的情报信息;二是未公开于社会即未经正式发表的原始的文献,或没正式出版的各种书刊资料,如书信、手稿、记录、笔记和包括一些内部使用通过公开正式的订购途径所不能获得的书刊资料。
    零次文献一般是通过口头交谈、参观展览、参加报告会等途径获取,不仅在内容上有一定的价值,而且能弥补一般公开文献从信息的客观形成到公开传播之间费时甚多的弊病。
    2.一次文献
这是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也常被称为原始文献(或叫一级文献),其所记载的知识、信息比较新颖、具体、详尽。一次文献在整个文献中是数量最大、种类最多、所包括的新鲜内容最多、使用最广、影响最大的文献,如期刊论文、专利文献、科技报告、会议录、学位论文等等,这些文献具有创新性、实用性和学术性等明显特征,是科技查新工作中进行文献对比分析的主要依据。
    3.二次文献
    二次文献也称二级文献,它是将大量分散、零乱、无序的一次文献进行整理、浓缩、提炼,并按照一定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利用。其主要类型有、目录、索引等,如《中文科技资料目录》、《中国科技期刊数据库》等。二次文献具有明显的汇集性、系统性和可检索性,它汇集的不是一次文献本身,而是某个特定范围的一次文献线索。它的重要性在于使查找一次文献所花费的时间大大减少,二次文献是查新工作中检索文献所利用的主要工具。
    4.三次文献
    三次文献也称三级文献,是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。它通常是围绕某个专题,利用二次文献检索搜集大量相关文献,对其内容进行深度加工而成。属于这类文献的有综述、评论、评述、进展、动态等,这些对现有成果加以评论、综述并预测其发展趋势的文献,具有较高的实用价值。在查新工作中,可以充分利用反映某一领域研究动态的综述类文献,在短时间内了解其研究历史、发展动态、水平等,以便能更准确地掌握待查项目的技术背景,把握查新点。
    总之,从零次文献、一次文献、二次文献到三次文献,是一个由分散到集中,由无序到有序,由博而精的对知识信息进行不同层次的加工过程。它们所含信息的质和量是不同的,对于改善人们的知识结构所起到的作用也不同。零次和一次文献是最基本的信息源,是文献信息检索和利用的主要对象;二次文献是一次文献的集中提炼和有序化,它是文献信息检索的工具;三次文献是把分散的零次文献、一次文献、二次文献,按照专题或知识的门类进行综合分析加工而成的成果,是高度浓缩的文献信息,它既是文献信息检索和利用的对象,又可作为检索文献信息的工具。
    三、文献的主要类型
    文献的类型有很多,分类方法也多种多样。根据载体形式分为:纸质文献、感光材料文献、磁性材料文献、光盘文献等;根据介质的可识别性分为:人可读型文献、机器可读型文献;根据记录信息所采取的形式分为:文字型、代码型、视频型、声频型。将上述多种形式于一体的称为综合型文献。这里主要介绍按照文献外在形态划分的文献类型。
    1. 印刷型
    印刷型文献是以纸质材料为载体,以印刷为记录手段而形成的文献形式,是目前整个文献中的主体,也是有着悠久历史的传统文献形式。它的特点是不需要特殊设备,可以随身携带,随处随时阅读。但存贮密度小,体积大,占据空间大,不便于保存。
    2. 缩微型
    缩微型文献是以感光材料为载体,以照相为记录手段而形成的一种文献形式,包括缩微胶卷、缩微平片、缩微卡片等。缩微型文献的优点是体积小,便于收藏和保存,价格便宜等,但阅读需要有较复杂的阅读设备来支持。目前在整个文献中,所占数量较少,在一般的图书馆入藏亦较少。
    3. 声像型
声像型文献是以磁性和感光材料为介质记录声音、图像等信息的一种文献形式。其优点是存取快捷,可闻其声,见其形,易理解。
    4. 电子数字型
    电子数字型文献是以计算机处理技术为核心记录信息的一种文献形式。这种文献存贮容量大,检索速度快捷、灵活,使用方便。随着计算机技术特别是网络技术的迅猛发展和普及,电子数字型文献的地位越来越受到人们的重视。
top  
    主要文献信息源及其特点

    一、科技图书
    一般来讲,图书是指内容比较成熟、资料比较系统、有完整定型的装帧形式的出版物。科技图书是一种重要的科技文献源,它大多是对已发表的科技成果、生产技术知识和经验的概括论述。科技图书的范围较广,主要包括:学术专著、参考工具书(指对某个专业范围作广泛系统研究的手册、年鉴、百科全书、辞典、字典等)、教科书等等。对要较全面、系统地获取某一专题的知识,参阅图书是行之有效的方法。
    二、科技期刊
    期刊(Periodicals)也称杂志(Journals 或 Magazine),是指那些定期或不定期出版、汇集了多位著者论文的的连续出版物。科技期刊在科技情报来源方面占有重要地位,约占整个科技信息来源的65%~70%。它与专利文献、科技图书三者被视为科技文献的三大支柱,也是科技查新工作利用率最高的文献源。
    科技期刊的特点是:每种期刊都有固定的名称和版式,有连续的出版序号,有专门的编辑机构编辑出版,与图书相比,它出版周期短,刊载速度快,数量大,内容较新颖、丰富。
    三、专利文献
    专利文献通常是指发明人或专利权人申请专利时向专利局所呈交的一份详细说明发明的目的、构成及效果的书面技术文件,经专利局审查,公开出版或授权后的文献。广义的专利文献还包括专利公报(摘要)及专利的各种检索工具。
    专利文献的特点是:数量庞大、报道快、学科领域广阔、内容新颖、具有实用性和可靠性。由于专利文献的这些特点,它的科技情报价值越来越大,使用率也日益提高。本书第四部分第十九章将专门介绍专利文献及其检索。
    四、科技报告
    科技报告(Scientific and Technical Report),又称研究报告和技术报告,是科学技术工作者围绕某个课题研究所取得的成果的正式报告,或对某个课题研究过程中各阶段进展情况的实际记录。科技报告自20世纪20年代产生以来,发展迅速,已成为继期刊之后的第二大报道科技最新成果的文献类型。从报道的内容看,科技报告大多都涉及高、精、尖科学研究和技术设计及其阶段进展情况,客观地反映科研过程中的经验和教训。
    科技报告的特点是:单独成册,所报道成果一般必须经过主管部门组织有关单位审定鉴定,其内容专深、可靠、详尽,而且不受篇幅限制,可操作性强,报告迅速。有些报告因涉及尖端技术或国防问题等,所以一般控制发行。
    目前,世界上各发达国家及部分发展中国家每年都有相当数量科技报告产生,尤以美、英、法、德、日等国的科技报告为多。
    在科技查新工作中利用较多的是美国国家技术信息服务局NTIS(The National Technical Information     Service of the U.S Deportment of Commerce)出版的《美国政府研究报告通报与索引》,有数据库和检索刊物以及缩微平片等多种形式可利用。
    五、学位论文
    学位论文是高等院校和科研院所的本科生、研究生为获得学位资格(博士、硕士和学士)而撰写的学术性较强的研究论文,是在学习和研究中参考大量文献、进行科学研究的基础上而完成的。
    学位论文的特点是:理论性、系统性较强,内容专一,阐述详细,具有一定的独创性,是一种重要的文献信息源。
    学位论文除在本单位被收藏外,一般还在国家指定单位专门进行收藏。国内收藏硕士、博士学位论文的指定单位是中国科学技术信息研究所和国家图书馆。检索国内学位论文可以利用《中国学位论文数据库》,检索国外学位论文可利用Dialog国际联机系统或国际大学缩微胶卷公司(University     Microfilms International)编辑出版的《国际学位论文文摘》、《美国博士学位论文》以及《学位论文综合索引》等检索工具。
    六、会议文献
    会议文献是指各种科学技术会议上所发表的论文、报告稿、讲演稿等与会议有关的文献。目前,全世界每年出版的会议论文集已超过4千种,会议论文数十万篇。国内已有《科技会议论文数据库》可供检索。
    会议文献的主要特点是:传播信息及时、论题集中、内容新颖、专业性强、质量较高,往往代表某一学科或专业领域内最新学术研究成果,基本上反映了该学科或专业的学术水平、研究动态和发展趋势。会议文献是科技查新中重要的信息源之一。
    七、政府出版物
    政府出版物是指各国政府部门及其设立的专门机构发表、出版的文件,可分为行政性文件(如法令、方针政策、统计资料等)和科技文献(包括政府所属各部门的科技研究报告、科技成果公布、科普资料及技术政策文件等),其中科技文献约占30%~40%左右。
    政府出版物的特点是:内容可靠,与其他信息源有一定重复。借助于政府出版物,可以了解某一国家的科技政策、经济政策等,而且对于了解其科技活动、科技成果等,有一定的参考作用。美国政府出版物数量最多,每年有几千篇公开,其他国家如英国、加拿大、法国等也出版一定数量的政府出版物。查找美国政府出版物可检索索引性刊物《美国政府出版物目录月报》(中国科学院图书馆收藏)。
    八、标准文献
标准文献是技术标准、技术规格和技术规则等文献的总称。它们是记录人们在从事科学试验、工程设计、生产建设、商品流通、技术转让和组织管理时共同遵守的技术文件。其主要特点是:能较全面地反映标准制订国的经济和技术政策,技术、生产及工艺水平,自然条件及资源情况等;能够提供许多其他文献不可能包含的特殊技术信息。它们具有严肃性、法律性、时效性和滞后性。标准文献是准确了解该国社会经济领域各方面技术信息的重要参考文献。
    检索国内标准的检索工具主要有《中国标准化年鉴》、《中国国家标准汇编》、《国家标准和部标准目录》、《中国国家标准文献数据库》等;检索国外标准文献的检索工具主要有《国际标准文献数据库》(中国标准情报中心编)、《ISO国际标准目录》、《美国国家标准目录》、《英国标准年鉴》等中译本资料及各国标准的原版目录。
top  
文献检索概述

    一、文献检索的涵义
    文献检索的概念有狭义和广义之分。狭义的检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。如果真正要获取文献中所记录的信息,那么还要依据检索所取得的文献线索索取原文。
    广义的检索包括信息的存储和检索两个过程(Storage and Retrieval)。信息存储是指工作人员将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。而检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。
    依据检索对象的不同,文献检索可分为三种类型:(1)以查找文献线索为对象的文献检索;(2)以查找数值与非数值混合情报为对象的事实检索;(3)以查找数据、公式或图表为对象的数据检索。
    二、文献检索的基本原理
信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。
文献信息的存储和检索的全过程可用图6-1表示。
图6-1文献检索基本原理示意



    存储的过程,主要对信息源进行标引,将其外表和内容的特征(如文献的标题、作者、来源和主题等)用特定的检索语言转化为一定的标识(如主题词、分类号和类目名称等),再将这些标识按一定的顺序编排后输入检索系统,从而为检索提供有规可循的途径。
    为了保证文献信息能存得进、取得出,就必须使文献存储所依据的规则与文献信息检索所依据的规则尽量做到一致。也就是说,为了检索过程的顺利进行和达到较高的检索效率,除了在存储和检索过程的各个环节必须依据一定的方法和规则外,还必须有统一的检索语言和名称规范作为存储人员和检索人员的共同依据。
top  
文献检索的方法、途径及程序

    一、文献检索方法
    查找文献的方法分为如下三种:
    1. 直接法
    直接法是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。
    (1)顺查法
    顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。
    (2)倒查法
    倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。
    (3)抽查法
    抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。
    2. 追溯法
    追溯法是指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找"引文"的一种最简便的扩大情报来源的方法。它还可以从查到的"引文"中再追溯查找"引文",像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。
    3. 综合法
    综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。
    综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。对于查新工作中的文献检索,可以根据查新项目的性质和检索要求将上述检索方法融汇在一起,灵活处理。
    二、文献检索途径
    检索工具有多种索引,可以提供多种检索途径。一般来讲,检索途径可以分为以下四种:分类途径、主题途径、著者途径和其他途径。
    1. 分类途径
    分类途径是指按照文献资料所属学科(专业)类别进行检索的途径,它所依据的是检索工具中的分类索引。
    分类途径检索文献关键在于正确理解检索工具的分类表,将待查项目划分到相应的类目中去。一些检索工具如《中文科技资料目录》是按分类编排的,可以按照分类进行查找。
    2. 主题途径
    主题途径是指通过文献资料的内容主题进行检索的途径,它依据的是各种主题索引或关键词索引,检索者只要根据项目确定检索词(主题词或关键词),便可以实施检索。
    主题途径检索文献关键在于分析项目、提炼主题概念,运用词语来表达主题概念。主题途径是一种主要的检索途径。
    3. 著者途径
    著者途径是指根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。
    4. 其他途径
    其他途径包括利用检索工具的各种专用索引来检索的途径。专用索引的种类很多,常见的有各种号码索引(如专利号、入藏号、报告号等),专用符号代码索引(如元素符号、分子式、结构式等),专用名词术语索引(如地名、机构名、商品名、生物属名等)。
    三、文献检索程序
    文献检索工作是一项实践性和经验性很强的工作,对于不同的项目,可能采取不同的检索方法和程序。检索程序与检索的具体要求有密切关系,大致可分为以下几个步骤。
    1. 分析待查项目,明确主题概念
    首先应分析待查项目的内容实质、所涉及的学科范围及其相互关系,明确要查证的文献内容、性质等,根据要查证的要点抽提出主题概念,明确哪些是主要概念,哪些是次要概念,并初步定出逻辑组配。
    2. 选择检索工具,确定检索策略
    选择恰当的检索工具,是成功实施检索的关键。选择检索工具一定要根据待查项目的内容、性质来确定,选择的检索工具要注意其所报道的学科专业范围、所包括的语种及其所收录的文献类型等,在选择中,要以专业性检索工具为主,再通过综合型检索工具相配合。如果一种检索工具同时具有机读数据库和刊物两种形式,应以检索数据库为主,这样不仅可以提高检索效率,而且还能提高查准率和查全率。为了避免检索工具在编辑出版过程中的滞后性,还应该在必要时补充查找若干主要相关期刊的现刊,以防止漏检。
    3. 确定检索途径和检索标识
一般的检索工具都根据文献的内容特征和外部特征提供多种检索途径,除主要利用主题途径外,还应充分利用分类途径、著者途径等多方位进行补充检索,以避免单一种途径不足所造成的漏检。
    4. 查找文献线索,索取原文
应用检索工具实施检索后,获得的检索结果即为文献线索,对文献线索进行整理,分析其相关程度,根据需要,可利用文献线索中提供的文献出处,索取原文。
top  
基本检索方法

     一、布尔检索
    利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或"OR"、逻辑与"AND"、逻辑非"NOT"。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。
    下面以"计算机"和"文献检索" 两个词来解释三种逻辑算符的含义。
    (1)"计算机"AND"文献检索",表示查找文献内容中既含有"计算机"又含有"文献检索"词的文献。
    (2)"计算机"OR"文献检索",表示查找文献内容中含有"计算机"或含有"文献检索"以及两词都包含的文献。
    (3)"计算机"NOT"文献检索",表示查找文献内容中含有"计算机"而不含有"文献检索"的那部分文献。
    检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。
    二、截词检索
    截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。
    不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。下面以无限截词举例说明:
    (1)后截断,前方一致。如:comput?表示computer,computers,computing等。
    (2)前截断,后方一致。如:?computer表示minicomputer,microcomputers等。
    (3)中截断,中间一致。如?comput?表示minicomputer,microcomputers等。
    截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。
    三、原文检索
    "原文"是指数据库中的原始记录,原文检索即以原始记录中的检索词与检索词间特定位置关系为对象的运算。原文检索可以说是一种不依赖叙词表而直接使用自由词的检索方法。
    原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的运算符不同;运算符的职能和使用范围不同。原文检索的运算符可以通称为位置运算符。从RECON、ORBIT和STAIRS三大软件对原文检索的规定,可以看出其运算符主要是以下4个级别:
    (1)记录级检索,要求检索词出现在同一记录中;
    (2)字段级检索,要求检索词出现在同一字段中;
    (3)子字段或自然句级检索,要求检索词出现在同一子字段或同一自然句中;
    (4)词位置检索,要求检索词之间的相互位置满足某些条件。
    原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。
     四、加权检索和聚类检索
    1.加权检索
    加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。
    运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。
    2.聚类检索
    聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示--文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。
    聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。
    五、扩检与缩检
    1.扩检
    扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的方法。扩检的方法主要可以有以下几种: = 1 \* GB3     ①概念的扩大; = 2 \* GB3 ②范围的扩大; = 3 \* GB3 ③增加同义词; = 4 \* GB3 ④年代的扩大。
    2.缩检
    缩检是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加查准率的一个方法。缩检与扩检相反,即概念的缩小、范围的限定、年代的减少等。此外,还可以通过以下方法进行限定: = 1 \* GB3 ①核心概念的限定; = 2 \* GB3 ②语种的限定; = 3 \* GB3 ③特定期刊的限定。
    扩检与缩检是检索过程中经常面临的问题。在联机检索时,由于机时的限制,用户应该在上机前就拟定好扩检与缩检的策略,也就是说,在拟定检索策略时,应该同时考虑如命中文献太少或太多时如何处理的办法。否则,会大大增加机时,而且不易得到满意的结果。
top  
检索效果的评价

    检索效果是指利用检索系统(或工具)开展检索服务时所产生的有效结果。计算机检索效果如何,直接反映检索系统的性能,影响系统在信息市场上的竞争能力和用户的利益。
     一、评价的目的、范围
    评价系统的检索效果,目的是为了准确地掌握系统的各种性能和水平,找出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服务质量,保持并加强系统在市场上的竞争力。
    检索效果包括技术效果和社会经济效果两个方面。技术效果主要是指系统的性能和服务质量,系统在满足用户的信息需要时所达到的程度。社会经济效果是指系统如何经济有效地满足用户需要,使用户或系统本身获得一定的社会和经济效益。因此,技术效果评价又称为性能评价。社会经济效果评价则属于效益评价,而且要与费用成本联系起来,比较复杂。
    二、评价标准
    根据F.W.Lancaster的阐述,判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。
    查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。
    查全率=[检出相关文献量/文献库内相关文献总量]×100%
例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。
    查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
    查准率=[检出相关文献量/检出文献总量]×100%
    如果检出的文献总篇数为50篇,经审查确定其中与项目相关的只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为"相关率"。查准率和查全率结合起来,描述了系统的检索成功率。
    三、影响检索效果的因素
    查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索引语言、标引工作和检索工作等有着非常密切的关系。
    1.影响查全率的因素
    影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等。
    2.影响查准率的因素
    影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻?quot;非"功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑"或"不当等等。
    实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。



 
长春科技查新中心
地址:长春市东民主大街322号509房间
E-mail:ningli@ccst.gov.cn
技术支持:长春科技信息网