前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我们如何在大数据时代构建更智能的搜索引擎?

我们如何在大数据时代构建更智能的搜索引擎?

作者头像
用户2124910
发布2018-05-29 17:49:26
1.3K0
发布2018-05-29 17:49:26

构建更智能的搜索引擎从了解“例外”开始

看起来,创新似乎来自意想不到的地方(毕竟,如果它来自预期的地方,那它会被称为创新吗?)。如今,许多事情已经聚集在一起,将搜索及搜索引擎置于全新的角度,来自意想不到的地方:异常处理。

以这种方式查看搜索引擎时,您会发现各种各样例外情况遍布其中。

我不是在谈论软件例外(例如Java Exceptions或Throwables),而是例如“规则的例外”之类的情况。换句话说,如何处理搜索引擎标准操作不正确的罕见(但通常很重要)的情况?

右侧的图形说明了处理搜索引擎内部的“规则例外”的方法。换句话说,这是“修复”某些查询或搜索结果的方式。

最近我发生的事情是,我开始将所有这些项目都看作是我可以试图解决可以的问题。这种认识帮助我以不同的方式看待问题。这种想法的结果是目前正在搜索技术领域正在进行的一系列工作,以创建涵盖所有这些技术的工具和方法,形成一个单一的整体系统,该系统还打开企业搜索功能的全新视角。

而且,非常令人难以置信的是,我们最终成立了一个为每个人创建智能数字助理的系统。

您的数字助理搜索显示:Siri,Google Now,Cortana和'Insight Engines'

而且,为什么我们要这样做?因为我们的客户需要它。

多年来,客户一直在寻求像Siri这样的问答系统。借助Google Now和Cortana,这些系统开始变得无处不在,因此需求量也越来越大。最近,Gartner也开始讨论' Insight 引擎 ',这是一项重新定义搜索市场的新技术,提供自然,全面,主动的搜索和发现。

这些确实告诉我,应答系统确实存在问题。

当我被问到这样的系统时,我总是说:“不是现在,也许以后。”为什么?因为我很害怕。我看不到我的解决方案是实用的。

关键问题是领域理解。通用应答系统(如Siri,Google Now)只能理解非常广泛的通用领域:像电影,生日,地理等等。但是,这不是我们的客户想要的(不管他们是否真正的意识到)。

毕竟,我们每个客户都希望创建一个属于自己的搜索应用程序,无论是搜索内部网门户,电子商务,招聘,媒体和出版,还是公共部门的内容。他们有他们自己的语言,自己的缩写,自己的业务流程,以及他们自己的做事方式 - 他们希望他们的数字助理了解他们所在的独特领域并可以回答诸如“TPS表单在哪里?”等问题。或者“上个季度欧洲,中东和非洲地区的小企业出售了多少零小部件?”

而且,所以任何应答系统都需要进行严格的调整(阅读:非常昂贵)才能够处理像这样的问题。

但是,现在我在想:好吧。我认为我们可以做到这一点。哇,我真的认为这是可能的!

从我的第一个搜索引擎 - 自然语言处理(NLP)引擎开始,我一直认为理解查询是实现最高质量搜索的关键。

搜索引擎的新型自然语言处理

我是一名NLP(自然语言处理)人员。在研究生院,我学习了NLP课程,创建了句法(和语义)状态机,并实际创建了软件来实现语句分析,语义分析,照应参考,组块,分段等转换网络的名称。但所有这些旧技术都非常脆弱和昂贵,以至于它们从未成为主流。

如今所发生的变化是出现查看自然语言处理的新方法 - 两级简化 - 它简单地将文本与大型模式数据库进行匹配,并通过匹配创建理解。它是一种源于NLP的RISC(精简指令集计算)形式。我们不是试图深入理解句子结构和内部意义,而是创建大型模式数据库并将查询内容与这些模式进行匹配。

例如:

  • “TPS”>“表格性能表”> “表单类型”
  • “小企业”> “客户类别”

在今天,这就是智能搜索系统的发展趋势:

使用大数据创建模式

但是,保罗,你说,这有什么帮助?毕竟,你仍然需要手动创建大量的图案,是不是很昂贵?

这完全是一个真正的担忧。幸运的是,下面有针对于你的问题的回复:

  1. 创建模式要便宜得多,因为它不再需要专家。
  2. 创建模式要便宜得多,因为我们有一个漂亮的新界面。
  3. 为公司创建模式比为世界创建模式要便宜。
  4. 仅通过几种模式即可获得优势
  5. 我们可以使用大数据来创建模式!

所以是的,这可能(最终)需要许多模式,但是由于每种模式的创建成本都非常低,并且只需几种模式就可以立即获得好处,这使得这个新系统对所有搜索引擎用户都是可行的。

有人可能会认为所有这些处理异常的方法都与大数据相矛盾。毕竟,大数据都是通过汇总大量数据并对此数据量进行广泛的统计分析,以获得洞察力和算法来预测未来的行为。

然而,现在我清楚地知道这两种方法可以很好地协同工作:通过使用大数据来创建模式数据库。

模式可以来自任何地方。他们可以手动输入,也可以从内容中提取(使用文本挖掘技术)。它们可以从Wikipedia,Geonames或Freebase中提取。抑或者,它们可以来自用户查询。它们可以从客户的业务系统中提取。再者,通过以上的任何组合。

许多这些技术需要大数据来处理大量的令牌,大量查询日志等。这些过程的输出是模式,字典,标签等,这些输入到模式匹配引擎并且驱动查询配对。

我们的一个客户已经拥有超过1200万种模式,这些模式也是通过大数据分析,手动清理和组合产生的。

'Insight 引擎'如何转换搜索?

我们一如既往的目标是改变企业搜索行业。我们在搜索技术公司所做的一切都着眼于推动行业向前发展,当然这个模式也不例外。

我们打算用这些想法向真正的智能搜索引擎迈出一大步。这将启用以前不实用的各种功能:

  • 问答系统
  • 业务系统的接口
  • 有针对性的电子商务搜索(详细了解优化电子商务搜索功能)
  • 智能数字助理

让用户轻松搜索:编码您的世界语言

最后,我们正在创建一个对你的世界的数字理解。这种数字理解为语言(查询,请求,操作和内容)和组成与公司有关的所有业务对象提供了桥梁。

而且,这不是很棒吗?一个可以用你母语说话的计算机?一个可以理解您的请求和您的需求的计算机?可以掌握语音到文本系统,并拥有自己定制的个人数字助理。这真是太棒了。

我们相信这里讨论的只是依据搜索和大数据分析可能实现的

数字助理的表面。

想象一下这个这个系统的可行性!

本文首次发布于Search Technologies的博客

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 构建更智能的搜索引擎从了解“例外”开始
  • 您的数字助理搜索显示:Siri,Google Now,Cortana和'Insight Engines'
  • 搜索引擎的新型自然语言处理
  • 'Insight 引擎'如何转换搜索?
  • 让用户轻松搜索:编码您的世界语言
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档