导航菜单
首页 >  研究生发nature子刊什么水平  > 本科毕业生一作发Nature,独立完成9成工作量

本科毕业生一作发Nature,独立完成9成工作量

本科毕业生一作发Nature,独立完成9成工作量

 

毕恺峰是清华大学钱学森力学班2016级本科生,他于2020年毕业后加入华为,成为一名工程师。3年后,他作为第一作者,在Nature杂志发表论文。

毕恺峰

该论文通讯作者、华为云人工智能首席科学家田奇向《中国科学报》证实:数据显示,这是近年来中国科技公司首篇作为唯一署名单位的Nature正刊论文。

这篇论文发表于7月6日,介绍了华为云盘古大模型研发团队研究成果——《三维神经网络用于精准中期全球天气预报》,报告了业内“首个在中长期气象预报上精度超过传统数值预报方法的AI模型”。

Nature论文

《中国科学报》进一步了解得知,毕恺峰加入华为云后,曾“半年内连升两级”,目前已是主任工程师。论文主要完成人、华为云高级研究员谢凌曦透露:“这篇文章90%以上的工作量是一作毕恺峰同学完成的”。

3位来自气象领域的专家审稿人对该成果均给出高度评价。其中一位审稿人称赞:“华为云盘古气象大模型让人们重新审视气象预报模型的未来,模型的开放将推动该领域的发展。”

谢凌曦介绍称,盘古气象预训练模型已于2023年3月公开。

“我们公开了论文中使用的1小时、3小时、6小时、24小时模型,这些模型的运行速度很快,即使在CPU上单步迭代所需时间不超过1分钟。这意味着每个研究者都可以在个人电脑上,花几分钟就能完成未来7天的高分辨率全球天气预报。”谢凌曦说。

缺数据?小伙从欧洲气象局下载超200TB

盘古气象大模型的研究,始于2021年。

这年也正是毕恺峰选定AI气象预报并开始准备的时间。此前一则关于清华“钱班”教育方法的文章披露,毕恺峰曾一度因未能找到感兴趣的方向,而“处于迷茫状态”。但自从进入华为后,他的“热情被问题点燃”,并在实习期间解决了一个大问题而被华为录取,“半年升了两级”。

2020年底,毕恺峰开始涉足AI科学计算领域。在做了许多科学计算课题的调研后,2021年下半年他选定了AI气象预报。

人们日常看到的每日天气预报、极端灾害预警、气候变化预测等均属于“数值天气预报”,它比较依赖高性能计算和复杂的物理模型,因此瓶颈问题也比较突出。田奇告诉《中国科学报》,传统数值方法预报一次28公里×28公里的水平精度的、未来10天的全球天气,需要在3000台服务器的超级计算机集群上计算4-5小时。而如果想得到更高精度、更小范围的预测,算力需求和计算时间都将成几何级数增加。

田奇 图源:华为官网

但AI天气预报也存在问题。比如,在数值方法应用最广泛的中长期预报中,现有的AI预报方法精度有显著差距,并受到“可解释性欠缺”“极端天气预测不准”等问题的制约。

田奇研究团队认为,造成这一问题主要有两个原因:一是原有的AI气象预报模型都是基于2D神经网络,难以很好地处理不均匀的3D气象数据;二是AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。

为此,研究团队提出了适应地球坐标系统的三维神经网络(3D Earth-Specific Transformer)来处理复杂的不均匀3D气象数据,并使用层次化时域聚合策略来减少预报迭代次数,从而减少迭代误差。

3D-EST方法在理论上可以解决很大问题,但很快,“缺少实际气象数据”又成为新的掣肘——空有理论,无法进行模型训练,也无法对比预测结果并不断优化模型。

到底是年轻人。毕恺峰不辞辛苦,他花费了大半年的时间,从欧洲气象中心下载了超过200TB的再分析数据,并且利用早期的10年数据,逐步搭建起AI气象预报的训练框架。有了一定的调参经验后,2022年中,他开始在40年数据上做实验。

“我们使用了全球40年的天气数据,用200张GPU卡进行预训练,大概训练了2个月左右的时间,训练出了参数量达到亿级的盘古气象大模型。”田奇对《中国科学报》说。

谢凌曦透露,期间,为了支撑这些模型的训练,团队成员甚至中止了正在运行的程序,让出GPU资源,以确保实验顺利完成。

结果出乎预料地喜人。盘古气象大模型对1小时-7天预测精度,均高于传统数值方法(对比欧洲气象中心的IFS系统),同时盘古气象大模型在一张V100显卡上,只需要1.4秒就能完成24小时的全球气象预报,包括位势、湿度、风速、温度、海平面气压等数值。相比传统数值方法,预测速度提升10000倍。

2022年11月,欧洲气象中心通过邮件与研究团队取得联系,并沟通试用事宜。模型开放后,欧洲气象中心积极测试,并给出了一系列反馈正面的测试报告。这些报告见诸于欧洲气象中心的技术报告、技术博客和在世界气象组织研讨会上的发言。报告肯定了盘古模型在确定性预报和一些天气过程的预报中表现良好,还指出其提供了一种“推理功耗显著低于传统方法”的技术模型。

AI气象预报所消耗的能源,远远少于传统方法(图源:ECMWF报告)

今年5月,台风“玛娃”走向受到广泛关注。中央气象局称,华为云盘古大模型在“玛娃”的路径预报中表现优异,提前五天预报出其转向路径。

欧洲气象中心的系列报告和中央气象局的应用,无疑给盘古气象大模型的天气预报能力“背了书”。

2022年10月上旬,毕恺峰完成了论文初稿;经谢凌曦“刷新”后,论文率先被上传到arXiv平台。

团队没有

相关推荐: