6月6日,中国计算机学会(CCF)主办的中国计算机学会青年精英大会(CCF YEF)在线上举行,在“经典流传的机器学习与数据挖掘算法”技术论坛上,明略科技首席科学家、明略科学院院长吴信东;UCLA 副教授孙怡舟;微软雷蒙德研究院高级研究科学家东昱晓;CCF高级会员、清华大学计算机系长聘教授朱军;CCF高级会员、中科院计算所研究员沈华伟几位特邀专家带领了大家重温经典,解读他们心目中的经典机器学习与数据挖掘算法,并与大家分享了这些算法的起源、应用与影响。其中,朱军教授做了题为《贝叶斯学习回顾与展望》报告,总时长为1个小时左右,内容主要分为五个部分:贝叶斯理论应对不确定性、贝叶斯理论和经典算法、可扩展的贝叶斯方法、珠算编程库以及应用贝叶斯理论的一些例子。下文是本场报告的文字版,由 AI 科技评论编辑。
那么面对这一类的不确定性应该如何建模?核心是用概率的方法,也叫贝叶斯方法。原理很简单,如上图所示,中间的那个公式就是贝叶斯公式。此公式包含先验、似然函数以及后验分布。没看到数据之前,模型有先验(π(θ)),有了数据之后,建模得到的是似然模型(P(D|θ)),有了这两个因素可以根据贝叶斯定律计算后验概率(P(θ|D))。如果追溯历史,最早在1763年就有文章讨论贝叶斯理论,正式发表则是在贝叶斯去世之后。而目前机器领域内有贝叶斯方法和非贝叶斯方法之争,总体来说在社区内共处得还算融洽。2015年nature也发表了一篇文章《Probabilisticmachine learning and artificial intelligence》详细阐述了关于概率的机器学习以及人工智能里边的一些核心的问题、思想等进展,感兴趣的可以去阅读。
上面是MIT做的一个例子,主要针对小样本学习,当时MIT用贝叶斯建模的方法叫Bayesian Program Learning。其内涵是一个多层的贝叶斯模型,能够用一些基本的部件通过某种组合得到一些更大的部件,然后再在进行某种关系的组合,最后去用噪声渲染模型生成手写字符。所以整个字符生成过程用贝叶斯的方法刻画了出来。此模型已经引入很强的领域知识,所以在训练的时对数据的依赖就没那么强。甚至模型只观察一个样类(one-shot),就可以做到比较精确的分类。当时展示的效果也是超过了人类的精度。