目标是提供富有洞察力的搜索结果
面对日益增多的在线和离线信息,创建可用的数据结构变得前所未有地重要。数据组织的目标是提供对由不同数据存储库表示的海量资源的访问。请考虑现在使用 Yahoo、Google 或 Ask.com 执行的 Web 搜索的常见示例。仅在几年前,富有成效的搜索可能还需要逐个页面地仔细搜索一个或两个值。今天,使用高级">搜索算法,大多数搜索都可以在头几个页面中找到感兴趣的信息,或者可以基于突出显示的相关词条快速改进搜索。
要提供针对大型数据仓库的有用见解,第一步是生成一种引用信息的常见方法——换句话说,就是开发受控词汇表。
技能和能力
受控词汇表可以具有任何程度的复杂性,但是创建受控词汇表通常要求信息架构师具备对信息领域的深入见解。词汇表创建者使用诸如 ISO2788(请参见参考资料)等标准来建立用于特定分类层次结构的术语集。数据词汇表标准是管理特定信息集合的统一、经过测试和有效的方法。例如,存在用于对图书、音乐、电影、地图或其他项目进行分类的图书馆标准。该系统为熟悉图书馆标准的任何人提供了一种快速定位所关心信息的统一方法。
创建受控词汇表的最常见方法是使用常见的术语来描述信息集,以及将这些术语安排到单个具有根的层次结构中。例如:
石头 -> 岩石 -> 石灰石 -> 大理石 -> 印度绿大理石
如果了解地质学,这种结构将非常直观、普遍并且相对容易构造。本文的下一个部分将讨论四种不同类型的基于术语的受控词汇表结构。
另一种形式的词汇表标准是规范文件 (authority file)。图书馆组织方案中经常使用规范文件来明确定义一组术语。法律中也广泛使用它们来建立特定法律条款的统一定义。通常只有在误解某个特定条款导致严重后果时,才会创建这些正式语言。例如,在诉讼案件中,由于自然语言歧义性导致的误解可能会导致巨大的财务后果甚至监禁。
相关但不太严格的受控词汇表是职业行话。某个行业(医疗、法律、科学、工程等等)中建立行话是为了实现快速而明确理解。职业行话需要有关特定主题的深入知识。存在许多行话的案例,但是由于大多数术语都没有得到官方认可,因此一个领域的一群工作者使用的行话术语可能与另一个领域的人使用的行话术语不同。结果,某个行话术语可能没有唯一的定义。由于这个原因,在将行话用于控制术语时应该非常小心。应该确保预期受众熟悉这些术语,还要确保这些术语定义良好并且非常稳定。
图标表示 (Iconic representation) 是另一种功能强大和受控制的信息表示方法。在这种类型的表示法中,信息分类由可视的图标形式而不是语言术语来表示。考虑一张预期由可能不讲本地语言的游客使用的城市地图。城市旅游景点和设施的图示表示要比标准语言表述更容易理解。但是这种方法要求熟悉所选符号的含义(例如表示医疗建筑的符号;在许多中东国家,表示医疗建筑的符号是红新月徽而不是红十字徽),从而使得图标表示法成为一种具有挑战性的方法。此外,即使在最好的情况下,使用图像或图标信息表示形式也很难植入层次结构思想。
为您的信息和用户选择最有效的词汇表类型
已经有许多优秀的资料来源讨论了不同种类的基于术语的受控词汇表,因此本文仅对它们进行简要的介绍(请参见参考资料部分)。在定义信息组织结构时,经常使用四种基本形式(按复杂性递增的顺序列出):
列表
同义词环 (Synonym ring)
面向方面的描述
词典
要理解词汇表类型之间的区别,一种方法是考虑不同的词汇表类型如何添加一个新的信息维度。例如,列表是一维结构,该结构基于所列信息的单个公共属性。如果要表示地球上存在的所有形式的石头的列表,则该列表将包含以下三项:熔灰岩、沉积岩 和变质岩。
同义词环向列表增添了另一个维度,允许从一个术语导航到另一个密切相关的术语。例如,Netflix 使用先前的租借行为来推荐附加的电影节目选择。某个最初关注一组电影演员的人可以浏览相关的导演或音乐或情节,然后转移到流派、评论集萃、电影分类、连续剧等等。使用这种相关术语信息组织方法,用户可以快速浏览感兴趣的电影,并在用户未表示对特定建议分类感兴趣的情况下,可以将候选电影集从几万部减至很少。