意图搜索最早起源于互联网行业,通过对传统搜索引擎的智能化应用扩展,基于分类算法对意图分析和分析扩展等功能进行应用,逐渐由搜索引擎学会判断用户的真实搜索意图,实现智能搜索引擎。随着全球安全形势日趋恶化,意图搜索逐渐与物联网结合并落地,中国工程院吴曼青院士提出了反恐环境下基于大数据的意图搜索的设想充分表明了安防行业已经把意图搜索概念提升到了主流产品形态,充分做好了与意图搜索技术结合的准备工作。
一、意图搜索起源
意图搜索最早起源于互联网行业搜索引擎工具,随着互联网信息量的不断增加,能够快速、准确地查找信息越来越困难,主要原因是搜索引擎不能理解用户的真实查询意图,因而机器学习如遗传算法、BP神经网络法等在这方面的应用研究快速地被引起关注。Lam Wai 就利用基于事例的机器学习和查询反馈技术实现了文本的自动分类并用于文本检索, 实验证明了其优越性。Mandala Rila 采用加权方法从多类信息中实现查询扩展 , 以及Chakrabarti 探讨的基于矩阵代数的主题提取算法、组合词汇和索引文本等特征提取都是这方面的努力。但目前最有前景的是Doug Lenat 研制的搜索系统, 通过建立常识库和推理机来与用户交谈, 进而实现对用户真正意图的理解。知识工程之父Feigenbaum称赞他开创了查询的“语义时代”(TheAge of Semantics)。但前提是要建立一个庞大的百科全书常识库, 这是非常困难的, 而且也不分析用户的潜在意图。构造庞大知识库的一种方法是从网络上自动构造, Craven 和Lesser 提出了信息获取的系统原理, 知识库的结构和实现方法。Choi 则实现了一种具体的自动构造系统,其可从网上发现文本并归入本地数据库供查询, 它相当于智能代理。Alsaffa 做了类似的探索, 利用专家系统在用户喜欢的表达和系统要求的表达之间实现自动转换。意图搜索正在基于这些技术之上实现了智能化的自动搜索。虽然意图搜索起源于互联网行业,但是目前已经被广泛用于其它行业,例如在安防行业与物联网技术紧密结合。
二、意图搜索在互联网行业的发展
互联网行业最早由搜索引擎起步,目前数据也都是通过搜索引擎实现数据交换和传递过程。用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此产生了对特定信息的需求,之后用户会在头脑中逐步形成秒速需求的查询词,将查询提交给搜索引擎,然后对搜索结果进行浏览,如果发现搜索结果不能完全解决用户的信息需求,则会根据搜索结果的启发,改写查询,以便更精确地描述自己的信息需求,之后重新构造新的查询需求,提交搜索引擎,如此形成用户和搜素引擎交互的闭合回路,直到搜索结果已经解决了自己的需求或尝试几次无果而终。从上述过程可以看出,从用户产生信息需求到最终形成用户查询,中间有很大的不确定性,用户未必能够一开始就找到合适的查询词,即使是找到了,也可能存在查询词不能完全描述信息需求的情形,即在形成查询的过程中存在信息丢失的问题。所以后续循环中的查询改写就是用户逐步澄清搜索需求的一个过程。
用户发出的每个搜索请求背后都隐含着潜在的搜索意图,如果搜索引擎能够根据查询词汇自动找出背后的用户搜索意图,然后针对不同的意图,提供不同的检索方法,将更符合用户意图的搜索结果排在前列,无疑会增加搜索引擎用户的搜索体验。目前搜索引擎已经部分实现了这种搜索模式,比如用户搜索“北京 天气”的时候会主动将当天的气温等情况列在搜索结果最前面。
意图搜索是基于目前internet上信息的无组织、异构、分布和动态的特点以及现有搜索的不足而提出的,用于解决现有信息检索系统所面临的“信息过载”、“资源迷向”和搜索结果个性化需求等实际问题,实现Internet信息个性化主动服务。搜索引擎在强化“智能化”方向的理念之上,在自动分类、自动聚类的基础上推出智能导航、概念搜索、个性化搜索功能,使搜索引擎充分领会用户意图的进行搜索,这是意图搜索在搜索引擎方面的落地应用模式。
当前大多数搜索引擎是通过用户注册及用户个性化配置(利用cookie机制、为用户建立配置文件等)来提高对用户搜索请求的精度和命中率,实现一定程度上的个性化搜索服务。这种方式需要用户在服务器上登记个人信息,但这可能造成用户某些隐私信息的泄露。目前比较公认的搜索引擎意图搜索方法是采用特征获取方法。特征获取方法分为两类,第一类方式可以称为事先方法,这种方法在查询被提交给搜索引擎以前,利用查询本身的特征来表示查询,比如表示特定需求的特征词汇、词与词之间关系、词的词性以及词的选择优先性、在语料集中的统计信息等等;第二类方法可以称为事后方法,这种方法利用查询被提交给搜索引擎以后的相关数据来获取查询的特征。
意图搜索分为意图分析和分析扩展两个部分。意图分析是解决“信息过载”和“资源迷向”问题的有效途径,通过对用户所需的信息资源进行搜集、加工、整理,可以梳理和有序化网络上的专业信息资源,向用户提供智能化的信息服务。意图分析和分析扩展的具体步骤如下所述:
(1)意图分析。①根据用户对问题的回答,检索知识库中的相关信息,以提供直接的回答。②对输入的原始查询根据其概念内容进行组织和安排,以析取相关的概念信息和范畴知识。然后,通过语义联想等意图推理修改查询向量。③将查询向量交由用户交互确认、编辑。④根据用户的编辑结果可以再次意图推理,直到用户满意为止。⑤将此次意图推理的结果记入知识库中,以备以后的意图推理。
(2)分析扩展。根据意图分析的结果,更新原始查询向量,形成新的查询向量。方法是将应用领域知识和索引、相关性、估计和查询表达相结合来实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。查询扩展所需要的查询词的选择策略有:①非独立类。非独立词指的是和查询词具有较大相关性的词。查询扩展通过知识库推理从知识库中找出相关性词、短语、句子、段/篇章。②交互式选择。用户从通过上述策略得出的待选词中决定最后的查询词。
三、意图搜索与安防行业的结合
2014年发生的震惊全球的“马航失联”事件牵动了无数中国人的心,泛太平洋各国均提供了大量帮助用于搜索失联航班,但是由于搜索方式千奇万种、信息达到海量级别、信息来源不连续性等多种问题,导致搜索迟迟没有结果。仔细分析搜索方式,可以发觉这类型的搜索形式其实与互联网行业的搜索引擎意图搜索有相似之处,相似点在于都需要对数据进行收集、甄别、过滤、分类、整合,都不是一个单一的行动,而是一整套连贯的过程。
物联网行业本身由于传感器的多种多样导致数据形式多样性、信息海量性等特征,如果大数据环境下还是采用过去的全文检索方式进行单一化搜索,未来一定无法满足用户的智能化需求。针对这一挑战,2014中国大数据峰会上中国工程院吴曼青院士发表了名为“存在就有痕迹,联系就有信息,反恐环境下大数据的意图搜索”的专题演讲,吴院士以众多美国案例为引,描述了新时代反恐行动应用的特性:法律保障、以人为核心、高技术手段、国际合作,通过构建虚拟空间信息社会雷达的方式将意图搜索引用到反恐活动中,提升反恐能力。
基于“存在就有痕迹,联系就有信息”的基本理念,构建网络空间中行为事件、思想事件等模型,在实体空间和虚拟空间中全面收集人的存在痕迹和联系信息,关注人物或事件间联系链,从而实现网络空间中存在的各种意图,完成对意图产生源头、传播途径和发展趋势的全方位描述,达到对个人和组织的所思所想行为所在的全面搜索和分析。物联网行业拥有海量的视频、音频、图片数据,通过相应智能算法可以从中提取出可供分类的结构化信息,通过这些结构化信息与意图搜索技术相结合可以帮助用户快速预判事物、事件发生概率和趋势。
因国内反恐形势严峻,大数据搜索需要积极应对新时期恐怖主义威胁,立足恐怖主义存在和意图特征,运用大数据技术进行深入关联分析,实现对恐怖分子的准确识别和暴恐事件的提前预警,有力提升反恐维稳核心能力。海康威视作为安防行业的龙头,物联网概念提出之处就已经开始涉及其中,相信在不远的将来,意图搜索应用可能就在海康威视率先落地。
四、结语
本文首先针对意图搜索的来源、基本概念作了一些解释,随后针对产生意图搜索概念的互联网行业具体发展过程、应用模式及技术等做了一些讨论,最后对安防行业与意图搜索技术相结合的具体形式进行了探讨,通过马航失联事件的预测性分析告诉读者意图搜索如何在安防、反恐等领域发挥自己的作用,如何与物联网紧密结合。
本文转自d1net(转载)