图注:探索期间,2014年夏天,方浩树去乌克兰参加了全球志愿者活动在大学的前两年,由于没把心思花在上课上,方浩树的成绩一直比较差。后来,方浩树先给自己定了一个目标:出国。如果要出国留学,那必然离不开好的绩点,于是他就思考:“自己是不是应该好好学习?先把成绩提上来,然后再做下一步的打算。”确定了出国的目标后,方浩树开始努力学习,把成绩提高到了全系前10名。与此同时,他也开始寻找加入实验室的机会。当时,方浩树前后一共加入了三个实验室,一个是光量子方向,一个是网络方向,一个是高性能计算方向。但似乎没有找到入门的方法,“感觉做不动”。大三时期,方浩树偶然了解到上海交通大学的本科生研究计划(Participation in Research Program,简称PRP)。自2001年起,上海交大开始实施PRP计划,希望帮助对科研感兴趣的本科生参与课外科研项目的研究工作。没有多想,方浩树选择参加PRP计划,并加入了第四个实验室,跟随自动化系的阎威武教授学习机器学习的相关知识。在这个计划中,方浩树根据阎威武推荐的 ML 入门资料去摸索、自学,推导、钻研逻辑回归、支持向量机、MLP等新知识,“越学越觉得有意思。”但深入学习一段时间后,方浩树又开始迷茫。同时,2015年那会,国内有关神经网络、深度学习的研究还没有火起来,网络上的相关知识介绍十分有限。“当时阎老师主要研究方向不是计算机视觉,用到神经网络的地方比较少,没有很合适的Topic给我做,我也不知道这个方向能做什么。”尽管对神经网络与计算机视觉感兴趣,但方浩树没有从事相关科研实践的机会。在大三的寒假,也就是2016年初,方浩树在BBS上看到卢策吾的实习生招聘广告。当时,卢策吾还在斯坦福大学李飞飞实验室担任博士后,第二年才回上海交大,但已经开始招实习生。方浩树发现自己的兴趣方向与卢策吾的研究很契合,于是便投递了简历。“Human Understanding(人类理解)从最底层像素级别到语义级别,逐层深入的理解使我更感兴趣。”在面试中,卢策吾主要了解了方浩树在PRP计划里所学习与收获到的知识。其中,方浩树提到自己有一定的机器学习与神经网络的知识基础,于是便通过了面试。如今回头看,虽然当年高考与清北失之交臂,但方浩树觉得,自己在上海交大读本科更好:“因为碰到卢策吾老师这一点很重要。如果去了清北就遇不到卢策吾老师了,这会很遗憾。”预感于加入卢策吾团队做科研的机会难得,因此,2016年大三结束后,方浩树毅然决定办理休学,跟着卢策吾做研究。“一两年对漫长的人生来说可能不算什么。” 2
论文链接:https://arxiv.org/pdf/1612.00137.pdfAAAI 2018完成第一篇顶会一作后,方浩树在卢策吾的指导下就人类行为理解方向进行新的探索。当时,方浩树觉得姿态和部位分割可以相互促进,但实际上,pose和parsing在本质上便不同:”pose需要忽略很多部位信息和像素级信息,只关注关键点;但是parsing正好相反,能够捕捉到每个像素的信息。”迫不得已,研究停滞半年之久,直到2017年暑假,方浩树加入UCLA的VCLA研究中心进行研究实习,师从朱松纯。UCLA的暑研机会,也是得益于第一篇顶会论文:当时,第一篇论文开源后,一位在UCLA就读的博士后用到了论文中的代码,觉得很不错,于是便将方浩树推荐到朱松纯门下参加暑期实习。在UCLA实习期间,方浩树学到图模型和图像语法的知识,并将语法模型和神经网络结合起来。论文把人体三维模型看作语法,然后用它来帮助神经网络预测三维骨架。工作用到三个语法:人的姿态对称语法,运动学的语法,以及人的树状结构语法。最终,文章《Learning pose grammar to encode human body configuration for 3d pose estimation》被 AAAI 2018 接收为Oral Paper。
论文链接:https://arxiv.org/pdf/1710.06513.pdfCVPR 2018在接触新方向的过程中,方浩树偶然读到陈鑫磊的某篇论文,文中提到通过聚类来做分割。这启发了方浩树:为何不通过pose来做聚类,通过聚类来帮助parsing呢?这个思路在试验中取得了极大进展。经过三个多月的试验,论文初稿已成型。戴宇荣在改完论文摘要后,又提出:利用pose信息从数据库里迁移已有的标注数据,来达到知识迁移的目的。这又给了方浩树创新算法方式的新灵感。经过新的试验,方浩树与成员完成了论文《Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer》。论文提出了一种新的半监督学习范式,通过人体的形态学相似性,利用大量易获得的标签从少量的样本中迁移标注数据。这篇工作被CVPR 2018接收为“Spotlight Paper”。
图注:卢策吾(左)与方浩树(右)2019年,方浩树选择直博到吴文俊人工智能博士班,并开始在卢策吾的MVIG实验室进行机器人研究。从人类行为理解到机器人,跨度非常大。但实际上,方浩树最早便是对机器人感兴趣,只是到了攻读博士阶段,才有了成熟的研究时机。此外,方浩树也受到了导师卢策吾的影响:“卢老师经常对我说,我们做研究不应该是为了个人的利益得失,而是应该从整个社会出发,从全人类的利益出发去从事科研。”读博后,除了人类行为理解,方浩树还从事机器人物体研究。他与团队成员提出 GraspNet-1Billion 标准数据集。该数据集规模大,标注丰富,并带有统一评测机器人抓取姿态的框架,着重于复杂场景的抓取姿态检测,既可以提供大量真实的抓取数据,又能提供真实的视觉感知。方浩树认为,与主要做信息抽取的图像处理或语音识别相比,机器人是主动与世界交互,此时 AI 有“主观能动性”,能够主动服务人类,同时,交互的过程也能为理解世界带来更多的信息量。因此,方浩树觉得,“通过机器人,我们更能接触到AI的本质。”接下来,方浩树将专注于研究机器人物体操作,让机器人能够通过操作,在一个特定的环境里完成某项任务。他希望机器人可以像人一样自主学习。比如,看一段人做饭的视频,或者观察人类做饭,就能将类似的操作复现,自己学会做饭。这个过程包含感知与控制,前者涉及到姿态估计、语义分割和三维视觉等知识,后者则包含基础的抓取知识等。因此,方浩树计划逐渐将人类行为理解与机器人物体抓取的知识结合起来。但如何表征知识,将知识引擎和推理系统应用到机器人领域,还是一个困难且充满挑战的基础问题。我们无法知道方浩树选择留美读博后的学术生涯是什么模样。但在卢策吾的团队中,方浩树仍继续突破自我,并揽获多项大奖。比如,方浩树入选 AI 青年科学家联盟·梧桐汇发起的「A 班计划」,获得2019 年度CCF-CV“中科视拓Seeta学术新锐奖”(获奖学生共3名,其余2名分别是来自清华大学的饶永铭与易冉),2019年百度奖学金(每年仅评选10人,吴翼、吴佳俊等人也曾获得该奖项)。