1.什么是查准率
查准率是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。
2.查准率的计算公式[1]
查准率= | 检索出的相关信息量 |
× 100% |
检索出的信息总量 |
3.查准率的局限性[1]
4.影响查准率的因素[2]
影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等等。
实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果。
5.提高查准率的具体方法[3]
在检索系统和数据库确定的前提下,若要提高文献检索的查准率,选择主题词范围就要窄一点,专指度要高一些,逻辑算符应选择具有缩检意义的“逻辑与”。
- 1.选择主要概念和基本概念
为了提高查准率,应在多个主题概念中选择主要概念和基本概念,删除重复概念。例如,检索“空气中铅污染问题的研究”这一课题,空气中含铅必然是污染问题,故“污染”是个可舍去的重复概念;“研究”是个广泛概念,既然是讨论空气中的铅污染,必然带“研究”性质,故亦应舍去;余下的主题概念应简化为:“空气”、“铅”,用“空气AND铅”这_组配检索,不但检准率高,而且检索效果最好。
- 2.提高主题词的专指度
为提高文献检索的查准率,选择主题词时应尽量避免选择外延广泛的上位词,而应增加或换用专指性较强的主题词和下位词进行检索。例如,从篇名查找有关“水果罐头加工技术”的文献,采用外延广泛的上位词“罐头”进行检索,即使利用限定词“加工”进一步限制检索范围,其查准率还是较低,检出了许多不相关的文献;选用专指词“水果”与“罐头”进行检索,大大提高了查准率,但可作参考的文献较少;相应地增加下位主题词“桔子、苹果、菠萝”与“罐头”组配检索,不但检准率高,而且选中的文献亦大大增加。
- 3.选择规范专业用语检索
许多全文数据库采用关键词(即自由词)检索。关键词未经词形控制及词义控制,这使得检索语言中存在大量的同义词、近义词、多义词、同形异义词和词义含糊而导致理解不一的词,因此,简单的关键词检索往往会降低检索质量。为了提高检索的查准率,在选择主题词时应选择规范的专业术语,例如用“泡沫塑料”代替“海绵”,用“维生素c”代替“抗坏血酸”或“维他命c”,用“偏瘫”代替“半身不遂”等。对于本身具有多义性的关键词,可采用与主题密切相关的其他主题词进行限制,例如查找有关“DNA脱氧核糖核酸”的文献,若用“DNA”进行检索,从篇名查得文献较多,这使检索结果包含了大量不相关的文献;如果用“DNAAND脱氧核糖核酸”进行组配,结果命中文献较少,大大提高了查准率。
- 4.采用“逻辑与”组配
在文献检索过程中,单个主题词的计算机检索比较简单,2个或2个以上的主题词则需要先根据检索课题的要求对主题词进行组配。“逻辑与”组配具有缩检功能,因此要提高检索的查准率,可用“AND”连接一些能进一步限定主题概念的相关检索项。例如,查找“转基因作物安全性”方面的文献,检索式可制订为:转基因作物AND安全性。