大数据如何塑造材料科学家的新世界?

李轩熠 等 中科院物理所 前天


01

大数据塑造你我的世界


中午,工作结束的你点起了外卖。打开软件,发现列表推荐的前几家都是你爱吃的。于是,你享受了一顿愉快的午餐。

下班时,北斗导航系统为你规划了一条与平时不同的路线。回到家后,你发现今天的驾驶意外顺利,平时总会遇到的堵车没有发生。

晚上,你打开昨天外语课的作业。你的作文又没有及格。不过,批改软件早已把文章的错误尽数标出,并提出了更好的修改,加深了你对语法的理解。
信息社会,大数据无处不在

拥有掌控这一切的能力,正是数据。确切来说,是“大数据”。当今信息社会中,每个人的生活都会留下一串数据,而万物的互联互通也都是基于各类数据。医生依靠大数据做出更精确的诊断,法官依靠大数据在简单案件上节省精力,而软件公司则通过大数据为你定制出最个性化的服务……我们每个人,都在贡献数据,同时被大数据所塑造。

从这点来讲,材料科学家们也不例外。在材料科学领域,数据作为记录材料信息的一种方式,已经变得越来越普遍。过去,材料科学是实验室中的不断进步的。为了制造出稳定、明亮的电灯,爱迪生做过几千次试验,才发现了合适的灯丝材料钨。而现在,人们发现材料中原子及排列可以决定材料的内在性能,更多理论模拟的方法可供利用,很多材料性质可直接预测材料科学家们便像“钢铁侠”一般,随心所欲地创造新型材料
像钢铁侠一样研究材料科学

实验技术结合计算机模拟来研究材料组份结构性能,已成为一种快捷有效的常规方法。特别是很多情况下,普通实验手段几乎失效,计算材料学可以充分发挥其优势。不仅如此,当材料大数据积累到一定程度时,越来越多的内在规律将被揭示,各式各样、种类繁多、功能强大的新材料将会浮出水面。就像“人类基因组计划”破解了生命的密码,基于材料计算和数据库的“材料基因组计划”,将会极大地加速材料的研发,降低材料发现的门槛和成本,促进人类社会的进步[1]。新材料研发模式正在从“经验型”向“预测型”转变。
理论计算可以使材料研发过程速度加快,成本降低

随着的信息技术的发展和材料模拟领域的进步,人们可以通过高通量计算在短时间内获得大量数据,并利用它来筛选和设计材料从而大幅加速材料研发速度,降低材料研发成本

02

材料基因:从出现到百花齐放


材料的进步代表人类的进步。早在20世纪80—90年代,国内外不断有科学家提出有关材料基因的基本理念。“材料基因组计划”由美国在2011年率先提出,旨在利用在材料计算模拟数据挖掘方面的突破,提高新材料发现的速度,降低成本,进一步发挥实验技术的效能。此概念一经提出便引起重大反响。以锂离子电池材料开发为主要方向的劳伦斯伯克利国家实验室的Kristin A. Persson教授和Gerbrand Ceder教授系统性地材料基因的思想用于锂离子电池材料的开发,发现了许多性能优异的新型电极材料,是早期材料基因工作的代表。[2]不仅如此,该国家实验室的科学家们划时代地将所有涉及的晶体结构的计算数据统一放置在了一个数据库平台中。数据平台的出现有效减少了重复计算的次数,增加了计算机智能判定,为后续的科研工作者提供了极大的便利。这个数据平台就是Materials Project [3]。
若干业界领先的世界级材料数据库

针对不同类型或功能的材料,人们研究的热点往往有所不同。于是,更多的材料数据库出现了。为了在大数据范围内研究各类合金的性质和功能,西北大学的科学家们建立了OQMD数据库[4];为了发现更多新材料,杜克大学的Aflow数据库应运而生[5]。石墨烯的成功剥离使人们拓宽了对低维度材料的认识,经过十几年的发展,来自瑞士洛桑大学的课题组已经建立起二维材料数据库[6],涵盖所有已知二维材料的性质。美国、欧洲、日本的众多课题组都已加入各类材料数据库的开发,材料基因组在科研界掀起了热潮。

材料科学的发展新趋势:从“基于实验的经验型模式”向“基于数据的预测型模式”转变

国外如火如荼,国内也毫不逊色。2016年初,科技部正式发布“材料基因工程关键技术与支撑平台”的重点研发计划,很多大学和科研院所都搭建起具备材料计算和材料合成的设备,加入材料基因探索的浪潮。[1] 近年来,针对某些具体问题或性质的材料基因计算研究论文相继上线,国内对材料大数据的研究已初具规模。


但是,与拥有大量基础的欧美相比,我国在材料计算方面有着全方位的差距。然而,新材料的研发与应用反映了一个国家的科技竞争能力,对国家安全和社会经济发展有着重大意义;只有全面、精确、规模化的材料数据库的建成,才有可能更有效地指导新材料的研发和突破。在这一点上,中科院物理所近期上线的“Atomly”数据库,一步到位地填补我国没有世界级材料数据库的空白

03

Atomly上线,

或是材料基因研究的下一块拼图


Atomly(https://atomly.net), 是中科院物理所最新原创的材料数据库。作为材料数据库中的“后起之秀”,它不仅集各个前辈之大成,而且还在某些方面超越了它的前辈们,甚至实现了诸多创新功能。Atomly的特点如下:
Atomly.net数据库上线,主界面如图所示(需注册)

1. “更多、更强”的数据
到目前为止,Atomly已经计算了14万多种材料的相关数据,这些材料包含了经过数据库比对去重后的无机晶体结构数据库 (ICSD) 中的大部分结构,该数据库在实验合成及晶体研究领域久负盛名,也包含了一大批以往DFT计算研究中提出的假想结构。因此,Atomly内含的材料数据不仅全面,而且和材料实验的联系十分紧密。
Atomly材料数据库目前的数据条目统计

在此基础上,我们得到了其中14万多种材料详细电子结构信息能带,态密度等)以及近4万组热力学相关的相图。这些数据可以让人们更深入地了解材料的相关性质,并能充分利用这些精度统一的信息去助力新材料的研发与探索
Atomly数据库目前涵盖的信息

2. 个性化计算服务Run4U
材料数据库的用户们,物理背景往往并不相同,有些用户不熟悉第一性原理计算软件,或者想便捷的了解我们数据库中未包含结构的性质。因此,我们开发了Run4U这一功能。这一功能支持用户在线自主上传新的结构,我们的后台会对这些结构进行初步的筛选,如果数据库中真的没有包含,就会自动进行第一性原理计算,2-3天后用户便可在列表中看到想要的计算结果。使用Run4U功能时,用户无需购买软件、计算资源,也无需掌握学习DFT的计算细节;同时,计算的结果可以自动被后台分析入库,可复查、复用。Run4U的设计对用户非常友好,其流程如下图所示。

run4u,用户提交结构并计算

3. 创新型材料设计方法
“地毯式”全库材料搜索示意图

(1)通过高通量计算生产材料数据,进一步从数据出发搜索新材料。此类方法已有成功案例:过去70年人类平均每年发现3.3个氮化物材料加州大学伯克利分校的Ceder组通过高通量计算等材料大数据方法,一年内发现92种有可能材料,并用实验合成7种。[7]

(2)机器学习势函数作为近年来迅速发展的学科,正在逐渐展示其优越性。在分子动力学中,对于传统势函数而言,往往缺乏一定的精度,这导致在时间步长的积累之下,势函数带来的“误差”将逐步积累,最终将给出一个错误的结果。而机器学习则可以利用DFT计算的数据进行拟合,得到的模型可在给定相应构型的情况下,预测出相应的物理属性,例如能量,力等。基于Atomly材料数据库内的大量数据,我们开发了一套精准的机器学习势函数工具包(Highly Accurate Artificial Intelligence Force Field, 简称HAAIFF),可以精确拟合分子动力学中所需的体系能量,原子受力等参量。在保证精准的前提下,我们对程序包进行了优化,使其可在GPU上进行训练以及预测,极大的提高了该机器学习势函数的速度,为运行分子动力学提供了便利。使用户同时获得密度泛函理论计算的精度和经典分子动力学的速度。该工具包可供用户进行自行使用,同时,为了节省用户收集DFT计算数据带来的成本,我们提供了由该工具包训练的机器学习势函数库,用户可在这些函数库的基础上,再次二度训练,以此既可以节省收集数据时间,又可以扩增机器学习势函数适用范围。以下为HAAIFF训练金属钨体系例子(含BCC和FCC的超胞结构,展示了HAAIFF高精度的特性)。我们将于不久的未来发布这一方法及程序包。
HAAIFF实现高精度势函数训练

(3)通过分析大量材料数据,通过机器学习归纳出形成能预测模型,可用迅速判断新材料的形成能和结构稳定性等,从而指导新材料设计、合成难度程度预测等。
通过对atomly数据库学习得到的材料形成能预测模型

04

迅速达到巅峰,

物理所材料基因未来可期

放眼全球,材料计算已经成为指导新材料研发的常规方法,而各类新奇的材料数据库像雨后春笋一般不断被开发、报道。这其中最具代表性的计算材料数据库,便是前文中提到了Materials ProjectOQMDAflow。但是,这些库近年来发展明显放缓,数据质量也参差不齐。例如,OQMD包含大量易于计算的合金材料但对离子化合物的相图刻画非常不全面Materials Project只有50%的结构拥有电子结构信息,且近期数据增长放缓
材料数据库幕后的软件体系

材料基因工程是物理所近期布局的重要发展领域,借助物理所在材料计算方向的积累和特色,结合了物理所松山湖材料实验室怀柔材料基因平台的优势力量,Atomly发展迅速,从开始构建到上线的1年多时间内,已经完成了对14万个材料的高精度计算,每个材料的电子结构等基本信息方面十分全面且精确,迅速站在了世界材料数据库界的巅峰。就目前而言,初版上线的Atomly整体已非常优秀。但是,Atomly的上线仅仅是一个开始。目前仍有数以万计的新结构正在计算,各材料介电函数声子谱等重要且独特的物理信息也正在上线的路上。在拥有材料大数据积累的前提下,机器学习等更多新型人工智能方法将使材料数据库的整体性和优越性不断完善和提高,为新材料的研发提供更加智能的捷径。

材料科学蓬勃发展,材料探索永无止境Atomly还有很大的成长空间,物理所材料基因研究未来可期。Atomly将保持世界巅峰水准,与其他优秀的材料计算数据库一道,为我国乃至全世界材料科学家们探索材料基因、研发新型材料打下坚实的基础

备注:
文中提交的材料计算基础设施及数据库由中国科学院物理研究院、松山湖材料实验室、怀柔材料基因组研究平台的科学家共同完成。
怀柔材料基因组研究平台


参考:

[1] 材料基因/孟胜,刘行编著;辽宁省科学技术协会组编.—北京:科学普及出版社,2017.2 

[2] Aydinol M K, Kohan A F, Ceder G, et al. Ab initio study of lithium intercalation in metal oxides and metal dichalcogenides[J]. Physical Review B, 1997, 56(3): 1354.

[3] Jain A, Ong S P, Hautier G, et al. Commentary: The Materials Project: A materials genome approach to accelerating materials innovation[J]. Apl Materials, 2013, 1(1): 011002.

[4] Saal, J. E., Kirklin, S., Aykol, M., Meredig, B., and Wolverton, C. "Materials Design and Discovery with High-Throughput Density Functional Theory: The Open Quantum Materials Database (OQMD)", JOM 65, 1501-1509 (2013). 

[5] Curtarolo S, Setyawan W, Hart G L W, et al. AFLOW: an automatic framework for high-throughput materials discovery[J]. Computational Materials Science, 2012, 58: 218-226.

[6] Mounet N, Gibertini M, Schwaller P, et al. Two-dimensional materials from high-throughput computational exfoliation of experimentally known compounds[J]. Nature nanotechnology, 2018, 13(3): 246.

[7] Sun W, Bartel C J, Arca E, et al. A map of the inorganic ternary metal nitrides[J]. Nature materials, 2019, 18(7): 732.


作者:李轩熠 等

审核:刘淼

编辑:fengyao


近期热门文章Top10

↓ 点击标题即可查看 ↓

1. 塑料垃圾入侵人体全过程曝光

2. 0.999…真的等于1嘛?

3. 《三十而已》中的蓝色烟花,到底有多难造?

4. 失传近300年的“绝世好钢”重出江湖!科学家3D打印出大马士革钢

5. 为了用最小的箱子装最多的汽水,数学家们研究到了24维!

6. 这对啊,这对是史上最难异地恋。

7. 为了保护皮肤,你知道黑色素有多努力吗?

8. 刚喝完的汽水瓶不要扔,吸管伸进去,隔壁的小孩都...

9. 总说“下次一定”的你被验证码白嫖了多少次?

10. 今天的文章是真的水……

 点此查看以往全部热门文章