直播回顾(视频+pdf)| 搜索算法揭秘:阿里大淘宝技术直播专场

让创新获得认可 将门创投 2022-01-17 08:22

图片


将门-TechBeat人工智能社区联合阿里巴巴大淘宝技术主办的「搜索算法揭秘」直播专场现已落下帷幕,感谢10000+位观众跟我们一同度过了两个干货满满的下午

图片
图片
图片
图片
图片

左右滑动查看两场直播回顾

本文包含三个大家最关心的信息:【pdf获取方式】、【回顾视频】、【Q&A文字版】,详情如下:

一、PDF 获取方式

关注“将门创投”公众号,后台回复“搜索算法”,即可获取四场Talk分享ppt。


二、回顾视频获取方式

第一场:淘宝搜索召回、个性化搜索排序



演讲嘉宾

阿里巴巴大淘宝技术资深算法专家 瑞溪、湘生


分享主题:

多模态、多目标模型在电商搜索召回算法的应用


电商搜索排序算法


观看地址:

https://www.techbeat.net/talk-info?id=624


图片

 👉点此查看 更多关于Talk及嘉宾的介绍

第二场:电商搜索相关性、电商知识图谱



演讲嘉宾

阿里巴巴大淘宝技术算法专家 左枢、久越


分享主题:

电商搜索相关性技术演进


电商知识图谱的构建以及应用


观看地址:

https://www.techbeat.net/talk-info?id=625


图片

 👉 点此查看 更多关于Talk及嘉宾的介绍

三、Q&A 文字版

瑞溪《多模态、多目标模型在电商搜索召回算法的应用》

Q1. 这里面有没有反作弊的模块?

A:搜索整体有反作弊的模型参与排序的

Q2. 多目标召回时,相关性loss是怎么设定的?pv loss的负样本应该是什么样呢?

A:我们搜索有一个独立的相关性模型,相关性的label是这样选的:用我们的相关性模型打分为强相关的作为正样本,随机负采样的作为负样本。

Q3. 这个相似query是不是有点类似“猜你喜欢”?

A:不是,相似query就是指语义上相似的query

Q4. 多目标拔河的问题,GradNorm怎么样?

A:平均的gradnorm没有太剧烈的波动,看不出什么异常

Q5. 多目标loss怎么调的 可以介绍下吗

A:可以调个目标权重,因为用的是sampled softmax,还可以调temperature参数

Q6. item侧的向量是和query相关的吗?要不然cross attention咋做

A:在多模态预训练阶段,是有一个item和query做内积衡量相似度的目标的

Q7. 拔河问题则呢么通过AM-Softmax和Margin解决呢?AM-Softmax和Margin是不是是一种“更好啦开差距,某些情况下更合理”的loss,并不是为解决这类“矛盾”设计的?

A:是这样的,因为拔河问题主要是由随机采样的负样本引起的,因此我们主要是抑制与点击目标梯度差别太大的负样本梯度。当相关负例梯度与点击正例差别超过一定程度时,就不使用该负例梯度了

湘生《电商搜索排序算法》

Q1. 请问下,加曝光序列的出发点是什么?有什么作用?

A:对比其他商品序列,曝光商品有一个非常重要的性质,它是当前user + query + context 下,所能实际搜出的最准确的商品。从某种程度上来说,曝光商品综合了此次搜索丰富的信息,能够有效的对user / query进行强有力的表达。

Q2. 这是18年的工作了,有更新的嘛(“商品的多模态表示学习- Learning Universal Item Representationa…”这一页slides)

A:多模态方面的工作我们一直在持续投入探索, 近两年的工作后续也会有相关论文整理, 欢迎关注。

Q3. id类序列特征时预训练还是端到端的?

A:id序列是端到端训练。

Q4. 用户首次查询的搜索排序和用户有过此类目行为数据查询排序有什么不同?

A:  对比多次查询,初次查询类目的不之处在于排序模型的用户行为序列中缺乏该类目下的个性化行为作为特征,搜索结果的个性化程度会相对弱一些。

Q5. 剪枝会作用到哪些网络层?比如embedding后的第一层MLP

A:  剪枝会作用在所有的全连接层。

Q6. 需要导出剪枝后的新张量吗,要修改推理吗?

A:  需要导出剪枝后的张量,模型在部署时本来就需要拆图以优化性能,这个过程中会对剪枝结果做适配。

Q7. 批更新是用过去一天的数据训练吗?

A:  用过去一天的数据,在前一天的ckpt上热启动训练。

Q8. 端上模型size是多大?

A: 约500K, embedding参数部分需要拆出来部署在云侧。

左枢《电商搜索相关性技术演进》

Q1. “用户相关性的反馈”建立相关性的方法有哪些呢?

A:淘宝会有多种用户反馈渠道,比如搜索结果页右下角可以对页面结果反馈,长按商品可以对单个商品的相关性做反馈

Q2. 在哪些阶段做的过滤呢?

A:召回、粗排、精排阶段都会做,每个阶段通过的商品都会有一定的数量限制,过滤条件之一就是相关性

Q3. 相关性和精排有什么区别?

A:精排是决定每个商品的展示顺序,相关性逻辑上是决定商品是否应该展示,不去影响展示的顺序

久越《电商知识图谱的构建以及应用》

Q1. 底层的数据库是什么?

A:用的是阿里云的大数据存储系统

Q2. 跟Alicoco是什么关系?

A:Alicoco是我们整个知识图谱底层数据的统一名称

Q3. 四元组和三元组是什么关系?

A:四元组是在三元组的结构上做了一层扩展,比如面向底层数据加入了同义词扩展,面向业务应用加了营销改写的扩展


加入活动交流

第一时间获取最新活动预告,跟讲师及观众进行在线交流,参与互动抽奖,尽在【活动交流群】

还未入群的同学可添加“将门小将”(thexiaojiang)微信

图片

添加小将微信

备注“淘宝-姓名-title”,title可以是“公司-职位”或者“高校-专业”

期待下期直播间相见!

关于大淘宝技术

大淘宝技术是阿里巴巴新零售技术的王牌军,支撑淘宝、天猫核心电商以及闲鱼、每平每屋等创新业务,服务9亿用户,赋能各行业1000万商家。


大淘宝技术打造了全球领先的线上新零售技术平台,并作为核心技术团队保障了12次双十一购物狂欢节的成功。通过不断探索和衍生颠覆型互联网新技术,打造了业内领先的淘宝直播、用户增长、智能营销等技术体系,并且通过技术驱动商业,在家装家居赛道中成功开创了每平每屋新业务,以更加智能、友好、普惠的科技深度重塑产业和用户体验。


同时,我们积极参与开源社区的建设,不断贡献优秀项目,开源了前端研发体系(ICE)、客户端语言协程框架(coobjc)、深度学习框架(MNN)、测试Sandbox体系重要模块(Sandbox-Repeater)等10多个项目,与全球开发者共享最佳技术实践。


大淘宝技术的愿景是致力于成为全球最懂商业的技术创新团队,打造消费者和商家一体化的新零售智能商业平台,创新商业赛道。随着新零售业务的持续探索与快速发展,我们不断吸引用户增长、机器学习、视觉算法、音视频通信、数字媒体、端侧智能等领域全球顶尖专业人才加入,让科技引领面向未来的商业创新和进步。


如果你也够有好奇心、有恒心、有思考力,希望一起创造时代传奇!欢迎加入我们,招聘邮箱:ruoqi.zlj@taobao.com


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!


更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区


点击“阅读原文”,

送你进入Talk专题【回顾视频】页面!