关键词自由标引在网络数据库中使用得非常广泛,但是关键词自由标引的使用必须制定必要的标引规则.掌握标引要点.其系统应配备后控词表。
1.制定关键词自由标引规则
制定关键词自由标引规则,是保证标引质蛋的重要措施。标引规则应包括主题分析、标引要求、措词禁忌等.但不要太烦琐。标引人员应熟悉标引规则。
2.关键词自由标引系统应配备后控词表
自然语言表达概念的自由度很大.其原因是不仅存在着许多同义词和近义词,而且还存在着大量同义和近义的词组表达形式。由于自然语言标引时不用词表,因而也就无从对有属分关系和相关关系的概念进行显示.这就要求检索者在检索时必须想出某个事物概念在自然语言中的一切表达形式及其与有关事物的各种联系,但这是一件非常困难的事情,因而翻检率就很大,存在着用户构造检索策略困难和检全率较低的问题.由于信息生产者和检索者的川词也可能没有确切反映载体的实际内容和检索的真正要求,因此自然语育检索也存在着一些影响检准的因素。
虽然自然语言检索存在着上述问题,但关键词自由检索系统有检准率较高、标引速度较快、标引成本低的优点。若采取后控措施,上述问题大多数在很大程度上可以解决。在枪索阶段实行控制.也可以达到控制的目的。将全部自由标引用词桩理成后控制词表,对自由标引系统在检索阶段进行控制.即参考后控词表构造检索策略.是消除自然语言在检索中存在问题的有效方法。
所谓控制,大致可概括为两点:一是对语词的规范化处理(包括专指度控制);二是显示概念之间的关系。信息载体检索过程中的控制.可分为信息载体标引阶段的控制和信息载体检索阶段的控制.在实践中信息载体检索系统的“标引不控制+枪索控制”模式.标引时使用关键团(自然语育).枪索时则既可使用自然言.也可使用存放在机内的只供检索的词表。这种模式称为后控制,属于关键词自然语言检索法.所使用的词表称为后控制词表.后控制词表只用于检索而不用于标引,所以也称只供枪索词表.后控侧词表有一种编制方式,是利用检索表达式中的用词由计算机自动积尽而成,采用这种方式编制的词表也称为不断增长的词表。如百度研发的搜索引擎就采用了后控制词表。在用“人工智能”检索中文网页时,系统在给出含有.人工智能”网页的同时。还提供了与“人工智能”相关的概念,如“人工智能论文”“智能ABC",“智能”“人工智能的应用”“人工智能算法”“人工智能与知识工程”“模式识别与人工智能”"Internet与人工智能等。http://www.yixiin.com/