以下文章来源于放大灯 ,作者放大灯团队
果壳旗下科技产业报道品牌,关心一切与新科技有关的技术、公司、产业和人物故事。
你以为自己在「调教」算法,其实是平台在调教你。
来源:放大灯(ID:guokr233)
作者:陈颖、杨景诒
编辑:李拓、刘冬宇,策划:放大灯团队。
原标题:一发入魂的音乐,如何来到你的耳边?
在中国,几家头部互联网音乐平台的曲库规模共计超过 7000 万首(如果计算重复),假设每首歌平均时长 3 分钟,一个人需要连续收听 400 年才能听完。
普通人一辈子往往只会听三五千首歌曲。穷极一生,你也不可能遍历这庞大的曲库——不仅是你不能,甚至音乐平台的编辑也做不到。
所以,谁能为你推荐下一首歌?谁来给你惊喜?
今天,听歌似乎简单又容易,但从前并非如此。
早期互联网音乐播放器比较原始,用户需要主动搜索并点歌。1999 年上线的九天音乐,与后来的百度 MP3、酷狗等,起初都是点播平台。
与点播相对的,则是电台音乐(Radio)——它由专业的编辑或算法决定用户听什么歌。
2009 年,豆瓣基于推荐算法,推出豆瓣 FM。中国互联网音乐平台从此进入算法时代,QQ 音乐、虾米音乐、网易云音乐等也纷纷效仿。
这项功能颇有前瞻性——在国外,以推荐算法成名的 Spotify,其电台功能的上线时间,也比豆瓣 FM 晚两年 [1]。至于推荐算法在其它领域大杀四方,还要等到 2012 年才上线的今日头条。
国内互联网音乐平台发展历程|放大灯团队制图
为什么互联网音乐平台对算法这么积极?
算法不仅革新了产品体验,更能决定平台的生死存亡——你能想到,仅仅把「搜歌」变成「推歌」,平台就能省下一大笔钱吗?
豆瓣 FM 做电台的主要原因是——穷。
音乐行业有一套细致的版权定价规则。点播版权、配乐版权、下载版权的价格均有不同。其中,电台播放的版权费用比点播的版权费更低。
现实条件是,豆瓣手里只有电台播放的版权,于是因陋就简做了一款纯电台产品。「在豆瓣 FM 里,你不能重听前一首歌。」前豆瓣 FM 技术总监赵凌告诉放大灯团队(ID:guokr233),这也是因为版权的限制。
算法推送不仅降低了版权单价,也改变了音乐平台向唱片公司付费的逻辑。
此前,互联网音乐平台以预付费模式,花钱批量「租下」唱片公司的版权曲库(租期 2~3 年),吸引用户听。但这种简单粗暴的模式有明显漏洞,像传统磁带 A 面录热门歌,B 面录充数的「水歌」一样,唱片公司也会把热门歌和「水歌」打包售卖,导致一部分歌曲播放量极高,一部分播放量又奇低,因此,预先支付给唱片公司的费用,本质是为热门曲库买单。
低效的预付费模式浪费了版权资源利用率,互联网音乐平台自然不能忍——如果不能单买热门曲库,那就必须改变计费规则。
如今,国外音乐平台如 Spotify、Google、苹果、亚马逊等公司已开始尝试按播放量支付版权费(如 Spotify 定价 0.00331 美元/次,Google 定价 0.0054 美元/次,Apple Music 定价 0.00495 美元/次,Amazon 定价 0.00395 美元/次)[2]。就匠音乐创始人张昭轶告诉放大灯团队,按播放量付费未来会成为行业标准。
计费方式改变后,算法会在很大程度上影响唱片公司的收入。
一方面,算法面前,曲库与曲库并不平等。
通过播放量,算法将轻易分辨出热门/冷门音乐,并将其经济价值分为三六九等。以早年虾米音乐的独家曲库为例,滚石音乐的曲库规模只有几万首,但都很热门,所以很快被网易云音乐抢走;BMG 的曲库规模超过 250 万首,但多数冷门,所以迟迟无人争抢,几乎到了虾米关闭前夜才转给网易云音乐。
接下来,算法分发将引发马太效应,热门曲库会给唱片公司带来更多收入,而曲库冷门的唱片公司就讨不到什么好处。通过按需付费,互联网音乐平台可以将经费用在刀刃上——购买消费者真正喜欢的歌曲。
另一方面,算法本身并非完全中立,它更能体现出平台的意志。
算法不仅能决定推什么歌,还能决定推谁的歌。虾米音乐的算法,就更倾向于向用户推荐小众音乐人和他们的作品 [3]。这也意味着,唱片公司在虾米音乐得到的推荐量会更少,其版权收入也会因此缩水。张昭轶表示:「这样一来,传统唱片公司的地位会变得十分被动。」
算法给互联网音乐公司带来的不止是经济效益,还有更好的用户体验。
Spotify 研究总监莫妮亚·拉玛斯·罗列克称,Spotify 的「灵魂」是一个名为 BaRT 的算法系统。这个系统能分析每一个用户的特点,选出用户感兴趣的音乐,生成「千人千面」的推荐歌单 [4]。莫妮亚还表示,BaRT 能够帮助提高用户的使用体验——让用户更久、更频繁地使用算法推荐(wanting to use the technology longer and often)[4]。
此外,随着算法不断迭代,互联网音乐平台推荐的内容越来越准,用户还会对产品产生依赖。而算法留住的用户越多,用户停留的时间越长,他们为内容付费的可能性也就越大。「这件事有难度,但如果能做好,它会给音乐平台带来很大收益。」赵凌认为。
但早期的推荐算法,不像现在的那么「高级」。
「推荐算法刚在音乐行业火起来的时候,大家用的都是协同过滤算法。」赵凌告诉放大灯团队。
举个例子,如果有两个用户 a 和 b,他们都听了 A 歌和 B 歌,那协同过滤算法就会把 a、b 当作两个相似用户,会把用户 a 听到的另一首 C 歌推荐给用户 b,这就是简单的「用户协同过滤」逻辑。
用户协同过滤算法工作原理|放大灯团队制图
事实上,协同过滤算法诞生于上世纪 80 年代,在本世纪初,亚马逊将其用于商品推荐,而它的确也比较适和推荐复杂内容,不仅仅是豆瓣 FM,网易云音乐也用过这种基础算法 [5]。
就在 2020 年底,还有一位新消费圈的创业者曾发文总结自己一年来的朋友圈,其中就有一条提到音乐推荐算法,她将 Spotify 基于行为的协同过滤算法称为高级的,并认为国内的音乐 App 算法「好弱哦」。
我们现在知道了,国内音乐 App 们也在用协同过滤,豆瓣 FM 甚至比 Spotify 还早做出来两年。
然而,协同过滤是一条简单粗暴的算法路线。它的优势在于,机器不需要理解内容,仅凭用户行为数据就可以完成推荐。而这也是它最大的问题,协同过滤算法无法判断歌曲的特点,只知道其中的相关性,但这个相关性往往不那么准确。
协同过滤算法的精确度与行为数据的积累量有关,它的确越用越好用,但新用户初来乍到、新歌曲刚刚上线,都是协同过滤算法的处理盲区。但新用户的体验又至关重要——每一个增长黑客理论中,「新用户留存」都是重要的环节。
随着技术的发展,机器也逐渐学会「理解」内容——简单来说,算法会抽取歌曲的音乐和歌词特征,给每首歌都打上数个「标签」。通过标签理解歌曲内容,再将其匹配给最合适的听众。
于是,互联网音乐平台纷纷抛弃协同过滤,把希望寄托在基于标签簇的个性化推荐算法上。
网易云音乐算法团队告诉放大灯团队,推荐算法不仅会给歌曲、歌单打标签,还会盘点用户的群体特征,「如果系统判定你喜欢『旅行』标签的歌单,就可能把这群用户偏好的其它标签歌单也推给你。」
基于标签簇的推荐算法工作原理|放大灯团队制图
如今看来,基于标签簇的推荐算法比协同过滤算法更先进。它是主流在线音乐平台的标配,但不包括 Apple Music。
苹果现任 CEO 库克认为,相比起冷冰冰的算法,由真人进行运作的 Apple Music 更懂它的听众 [6]。
虽然路线一致,但不是所有在线音乐平台都能把算法做到尽善尽美。用户在使用时,会感到明显差异,而这又涉及公司之间不同的推荐策略,以及它们在算法细节上不同的处理方式。
对于普通用户而言,评价音乐播放器算法的维度非常简单:它推的歌适合我的口味吗?
豆瓣 FM 是国内最早启动纯算法推荐机制的音乐电台。在豆瓣 FM 上线 10 年后、几乎没有什么市场份额的 2019 年,还有人在知乎回答:豆瓣最大的优势在于其强大的算法,它「总会找到我喜欢的歌曲」[7]。
豆瓣 FM 的初始定位是一款后台产品,在用户聊天、工作、居家时播放背景音乐。
豆瓣 FM 由豆瓣孵化,后者是以兴趣为核心的社交网站,用户会产生并积累大量书、影、音等标记和偏好数据,可供豆瓣 FM 作更精准的音乐推荐。
用户在豆瓣 FM 上能进行的交互行为不多:点红心、跳过、暂停、下一首……但所有这些行为都会被豆瓣 FM 收集起来,用来分析用户的喜好。
早期豆瓣 FM 还尝试过用一些新奇的办法来优化算法。比如,采取人机赛马的方式,分两组、按照歌词情感属性对音乐进行分类。在这次尝试里,人类胜出了——机器只能分出几个大类,再细分其准确度就会下降。
不过,豆瓣还是通过几十个推荐引擎,日以继夜地为用户推送音乐。赵凌表示,这些推荐引擎也并非一成不变,会随着产品的运行不断修正。
除了豆瓣 FM,虾米音乐的推送品质也为人称许。
与豆瓣 FM 的定位不同,虾米想要建立起高质量的音乐社区。成立初期,为了完善曲库,虾米音乐「从全球范围内召集了 300 多个音乐爱好者,用社区的方式去做」[8]。
虾米音乐充分动员了用户——它鼓励用户自由上传曲目,修改音乐分类、编辑歌词、专辑信息。这些用户们「调教」算法的行为数据,成为算法完善数据库、提高推送精度的帮手。
得益于用户众包,虾米建立起全网音乐曲风分类最全、流派分类最细的音乐库。在 2020 年 7 月举办的上海国际独立音乐季(IMS)活动中,虾米音乐产品及用户运营负责人龙吉就表示,虾米音乐拥有超过 3000 万首曲库 [9]。而根据虾米音乐用户 2021 年初的整理,虾米音乐曲风流派共有 24 个大类,566 个小类 [10]。
从豆瓣 FM 和虾米音乐的案例中,我们可以看到,算法想「随我心意」,需要产品定位、曲库规模、用户行为、运营策略等因素的共同参与。
算法在努力推送用户喜爱的歌曲,但推荐歌单里用户喜欢的歌越多,就越好吗?
并非如此。我们可以假设一个极端的状况——如果一个用户只收听某个特定类型的歌曲,会发生什么?
事实是这个用户很快会进入「听歌茧房」:算法不再推荐新的音乐类型,用户也对新音乐类型不感兴趣,同时对已收藏的歌曲感到烦腻。音乐 App 用户的黏性和使用时长也会降低。
是推送用户喜爱的特定歌曲,还是探索用户的兴趣边界?是选择低风险的大众流行,还是冒更高的风险尝试给用户一些惊喜?算法必须做出权衡。
网易云音乐算法团队向放大灯团队介绍,为了规避「听歌茧房」现象,网易云音乐会推荐用户平时不太接触的歌曲,增加用户听歌类型的多样性。
扰动因素的作用 | 放大灯团队制图
在推送中加入扰动因素——用户比较陌生的歌曲,也已经成了在线音乐播放器的标配。
算法运转之下,数千万首歌曲从曲库中出发,被推荐到用户耳边。在这个过程中,用户对音乐 App 推送算法有了朦胧认知:虾米的推送很有品位、豆瓣 FM 的推送很准、QQ 音乐更喜欢推流行歌……
还有网友脑补网易云音乐「算法小哥」的小剧场:「我还不知道你好那一口?」「你以为歌单 80% 都会是日语 POP?呵呵,我知道这个时候你需要一首后摇来调整回丧的氛围。」[11]
网易云音乐是在故意推荐特定情绪类型的音乐吗?
网易云音乐算法团队向放大灯团队表示,网易云音乐的「情感」歌单一共有怀旧、清新等 13 个类型。根据 2020 歌单年度报告的统计,平台歌单的高频词第 1 名正是「治愈」,超过 75% 的用户听过治愈相关的歌单。
推荐算法风格的差异也导致用户群进一步分化。
赵凌向放大灯团队介绍,2013 年,QQ 音乐曾试图和豆瓣 FM 合作,将 QQ 音乐的用户行为数据导入豆瓣 FM,改进各自的算法。可该项目在开始不久后,就被叫停了。
原因是,两方用户行为之间的差异实在是太大了。QQ 音乐的用户呈现出偏低龄、爱听流行歌的整体特征,这和豆瓣 FM 的用户特征发生了剧烈冲突。
但音乐 App 的竞争维度不只是算法,产品、社区和最基本的核心版权曲库规模也非常重要,正是由于这些短板,豆瓣 FM 和虾米在版权大战中相继失势。
虾米音乐创始人王皓在接受播客《坏蛋调频》采访时表示,不认可互联网音乐平台打版权战。恶性竞争之下,版权价格会越抬越高。但王皓也进行了反思:「当时真的很天真地以为,我们可以在互联网时代找到更透明、更直接的方法帮到所有音乐家。」[12]
虾米没有找到更好的方法,优秀的推荐算法没能挽救虾米。2021 年 2 月,虾米正式停止运营。
推荐算法的初衷,是用技术手段帮用户挖掘「好歌」。但实际上,无论推荐音乐还是流量变现,15 秒的短视频都比动辄三四分钟的单曲更高效。
QuestMobile 发布的《2020 中国移动互联网半年度报告》显示,至 2020 年 6 月,短视频行业 MAU 已经达到 8.52 亿。而同期,中国在线音乐行业的 MAU 为 6.55 亿。同时,短视频 App 占据用户的时长份额接近 20%,成为了仅次于即时通讯的第二大互联网行业 [13]。迅速崛起的短视频 App 正成为不折不扣的流量黑洞。
这些短视频 App 带火了众多「一夜爆红」的神曲。从《学猫叫》到《绿色》再到《酒醉的蝴蝶》,历代「抖音神曲」不光影响了听众的音乐品味,也带来其它改变。
借由神曲们的崛起,短视频 App 的推荐算法也开始影响音乐制作。
张昭轶向放大灯团队介绍,在没有算法的时代,「1645」「4536251」和「卡侬」这三套和弦已是「大歌」要素,而算法将这几套和弦体系的显著性继续放大。为了追求效率,算法倾向于推荐与热门神曲相似的音乐。除了和弦体系,短旋律重复、反拍副歌这些刺激性更强的音乐特征,同样被算法强化。
对于音乐制作人来说,如果想让自己的歌曲得到算法的青睐,那么就必须迎合算法的口味。「事实上,很多音乐人、经纪团队和 MCN 已经开始这样做了。」张昭轶告诉放大灯团队。
从这个角度来说,推荐算法已经在迫使上游的音乐制作行业,去生产符合算法口味的歌曲。
在虾米音乐宣布停止运营之际,有人在知乎上提问:「虾米能不能把个人推荐算法公开?」但即便这套算法被公开,但它能帮某个小而美的播放器杀出重围吗?或者,某个巨头把它买下来,就能改善用户体验吗?
从互联网音乐到短视频,算法的形态、作用和影响看似发生了变化,但有一点确定无疑:算法不断更迭,但它终归要服务于互联网音乐产品的核心定位,以及背后公司的意志。
算法不是音乐行业唯一的神,但它让音乐 App 更有神采。
References:
— 直播预告 —
3 月 21 日(星期日)晚 8 点,极客君将在视频号直播间发起一场关于人脸识别的讨论。我们还会现场连麦瑞莱智慧 RealAI 公司的张旭东,来极客公园视频号直播间,聊聊人脸识别的那些事儿。
点击下方「预约」按钮,一键预约直播,和我们一起聊聊!