以下文章来源于CS的陋室 ,作者机智的叉烧
陋室,用知识装点。房主主要谈论与数学和计算机相关的知识,不定时推送和个人学习进度相关的知识,大数据时代,数学和计算机一个不能拉下。来一起学习和讨论吧!
随着文本层面的搜索向语义向量召回迭代(可能不少新人都不知道文本搜索了吧?),NER任务在搜索中的地位好像有所下降,但是作为关键的理解和抽取技术,仍有重要的应用场景,因此好好掌握还是非常关键的。
原文链接: 美团搜索中NER技术的探索与实践
一、NER的具体场景和需求
要讲落地,肯定要从需求和场景特点开始讲起。相比通用的人名地名组织名,在美团中大部分的NER任务都是用来识别query中的店铺,地址,品类之类的东西,为下游的结构化搜索服务。例如“王府井附近的川菜”,也是要构造“地点=王府井,品类=川菜”这样的检索逻辑返回给用户。
首先,说实话这种query还真不好用向量检索,因为物料的特征复杂不好表征,且语义表征并不一定适合场景,常规的用户搜索query给麦当劳,召回语义非常接近的肯德基不太合适;而且不做抽取直接做文本检索对特定字段的需求也很难匹配到,为此,还真就需要可靠的NER来进行这种搜索。
除此之外,美团搜索的NER还面临这些挑战:
有关技术选型的思考,美团这篇文章的讲解非常细致,对于技术选型不熟悉的,可以研读一下这篇文章,思路有很多可以学习的地方。
技术方案简单概括就是实体匹配+模型,而且根据作者说的话是缺一不可。
首先有关实体匹配的作用,作者用了四点既有解释:
除了这些,我感觉还有一个需要补充的点:
然而,模型同样必不可少,但他并非主角,而是是实体词典的补充,核心其实就是泛化能力的问题,其一是歧义问题,其二解决oov问题提升泛化能力,例如根据句式的推断模型多少是可以办得到的。
这两种风格迥异的方法,在应用中是需要融合的,作者介绍的很简单,实际用的应该也是这么简单,构造一个继续crf的打分器对两个结果打分,在词典无结果过路径分数明显低于模型时,再选择模型结果。
有关实体匹配技术本就可以聊一篇文章了,而因为匹配本质是一个数据结构与算法的问题,目前已经不是关键技术难点,所以并不需要多聊,真正需要聊的是挖掘,也就是词典是如何构造出来的。
要懂挖掘首先要知道挖掘的东西怎么用,缺的数据是什么,缺的东西在哪里。首先我们知道词典挖掘出来是用来匹配的,目标还是很明确的;第二缺的是什么,其实对于商家等各种信息,其实商家自己都已经会填写了,抽取出来非常方便,但这些抽取的结果内容多半非常正规,所以这里的问题就在于,用户的各种花式输入并不一定会是一个标准的名字,例如“招商银行”这么一个地名用户大概率只会整个“招行”,而且还要可能带一堆的支行名,要保证实体匹配的召回率甚至是一些准确率,词典要就是要把这些不太正规但是高频的内容也给识别出来,再举个栗子,“海底捞火锅”用户大都只输入个“海底捞”吧。
要挖掘这些说法,首先想到的是新词发现,但现在的新词发现却在一个很尴尬的位置,无监督的准确率并不高,有监督的缺数据,小样本的泛化能力又不够,所以很难整,所以光靠新词发现,效果其实很一般,一般的方式是多路的方式来整。
说到挖掘,要提两个关键点,一个是挖掘的物料,另一就是挖掘方法。根据美团的文章,前者则来自商家信息库、百科词条、半结构化的搜索日志、非结构化的用户评论等。至于挖掘方法,本着挖掘的需求,高召回是需求,高准确是底线,首先应该满足高召回,所以一般使用多路,多种方式的形式整。其中,用户评论可以说是一个信息的宝库,因此文章也重点聊了这个信息源的挖掘。
挖掘的方案流程是这样的:
有关候选短语的可用性,可以从这4个维度进行评估:
另外一个值得关注的是,他可能是一个实体词,但是他是什么类的,并不清楚,这方面作者建议大家用AutoNER的方式对词汇类别进行预测。
最早的方式是词典匹配,比较强的会结合搜搜量来筛选出最优结果,此时会有这些问题(用词典的场景基本都会有的~):
其实可以看到很多内容基本上此时美团在实体词典匹配前引入了一个CRF分词模型,是针对垂域定制的,同时针对分词器设计了两阶段的修复方法:
《美团搜索NER技术启示(下):
模型、展望和个人评价》
本文来自:公众号【CS的陋室】
作者:机智的叉烧
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,
对用户启发更大的文章,做原创性内容奖励。
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
>> 投稿请添加工作人员微信!
关于我“门”
▼
点击“阅读原文”按钮,查看社区原文
⤵一键送你进入TechBeat快乐星球