生命科学与生物医药领域正在步入数字化3.0时代,AI正在加速生命健康与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。——张亚勤
9月26日下午,2021年世界互联网大会在乌镇召开。在数据与算法论坛上,清华大学智能产业研究院(AIR)院长张亚勤院士围绕“人工智能赋能生命科学”这一主题,介绍生物世界发生的数字化和智能化新变革,并分享清华大学智能产业研究院(AIR)在人工智能与生命健康交叉学科发展上的新布局。本次报告由张亚勤院长及团队成员马维英、兰艳艳、黄婷婷共同完成。
(摄影/浙江日报记者 李震宇)
随着基因测序技术、高通量生物实验、传感器等技术的发展,生命科学与生物医药领域正在步入数字化3.0时代,数字化、自动化进程加速。健康计算作为一种新型智能科学计算模式,是以人工智能和数据驱动为核心的第四研究范式。它将极大助力人类探索并解决生命健康问题。
人工智能从上世纪五十年代发展到今天,产生了很多不同的算法,尤其是以早期的RNN、LSTM和CNN为代表的深度学习技术,及过去这两年的GAN、transformer-based (BERT和GPT-3模型), 预训练模型等等,可以说从我们感知方面语音识别、人脸识别、物体的分类,已经和人达到同样的水平。但在自然语言理解,知识推理,和视频语义和泛化能力方面还有很多差距。另外在算法透明性,可解释性,因果性,安全,隐私和伦理等方面还存在较大挑战。
在可信AI计算方面最近又很多进展, 一个例子是联邦学习,这也是清华大学智能产业研究院的一个重要研究课题。联邦学习主要有两种方案,一种是横向联邦学习,它主要面向不同来源特征和模型相同的场景,能够保证相同模态不同来源数据之间的隐私性。另一种叫做纵向联邦学习,它可以处理不同来源的特征和模型不同的情况,能够保证多模态数据之间的隐私性。
我们已经看到,AI正在加速生命健康与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。具体体现在,人工智能在蛋白质结构预测、CRISPR基因编辑技术、抗体/TCR/个性化的疫苗研发、精准医疗、AI辅助药物设计等方面的研究已成为国际前沿战略性研究热点。
考虑到这样的学科发展趋势和产业背景,清华大学智能产业研究院(AIR)在“AI+生命健康方向”做了四个研究方向的布局,聚焦在研究“AI增强个人健康管理与公共卫生”、“AI+医疗与生命科学”、“AI辅助药物研发”与“AI+基因分析与编辑”方向。
作为交叉领域研究与应用,AIR认识到人工智能与生命科学、生物医药领域存在较大的知识鸿沟,缺乏面向生物计算的数据集、AI平台、核心算法、计算引擎,同时跨界人才也非常稀缺。针对以上挑战,AIR提出“AI+生命科学破壁计划”,目标是定义AI+生命科学领域的核心前沿研究任务,跨越生命健康领域与人工智能的领域鸿沟,打破壁垒,促进AI与生命科学的深度交叉融合,加速科学发现。
为此,我们需要构建面向生命科学领域的人工智能基础设施、数据平台、核心算法引擎,支撑生命科学前沿研究任务。同时通过打造旗舰公开数据集,组织算法挑战竞赛,构建AI+生命科学的众智平台,培养跨界人才,构建产业生态。
AlphaFold2是AI+生命科学的一个典型成功案例。它的成功因素来自于两方面,首先,是任务的特殊性,蛋白质结构预测就可以看作从序列到三维结构的一个一一映射问题,因此它是一个well define的AI问题。这就是破壁计划的目标,要找到生命科学中意义重大,但同时又能抽象为适合AI的研究任务。第二,是模型的优越性。一方面,长时间的生命科学领域的研究积累了大规模的蛋白质结构数据,而AlphaFold2的整个模型架构则充分利用了数据驱动的端到端深度学习模型,大数据与深度模型的结合恰恰是第四范式的典型特点。因此,AlphaFold2带给我们的启示就是在AI+生命科学的研究中,要注重破壁和第四范式的重要性。
显然,AlphaFold2仅仅是一个开始,它的成功正在开启一个新的模式。蛋白质结构的精准预测为生命科学家提供了高效的计算工具,也为基于AI的重大生命科学发现提供了可能。未来,抗体、抗原的表位预测,肿瘤的精准疗法,TCR/个性化疫苗的设计与优化等方向将成为重要的研究热点,并在AI驱动的新计算模式下取得突破性进展,AI+大分子制药的黄金时代将正式到来。
其中,还会产生很多新的科学挑战,也预示着将产生新的计算范式,例如,干湿融合的闭环式计算框架。一方面人工智能模型通过高通量、多轮湿实验的闭环验证和数据补充将变得更为智能。另一方面,通过主动学习或强化学习的方式, AI将主动规划湿实验的自动化进行,形成干湿闭环验证、迭代加速生命科学发现与产业应用。我们预见到,通过干湿闭环打通,生命科学研究与生物医药产业将迎来新的研究范式与产业模式。
AIR目前在基因数据的表达和预测方面已经取得了一些初步进展。最近,由我们清华大学智能产业研究院(AIR)的兰艳艳教授带领GeneBert团队设计了一个新颖的基因预训练模型,通过构建序列与转录因子之间的二维矩阵,实现了一个多模态的基因预训练模型,获取了基因数据的有效表示,尤其是挖掘了非编码区的数据价值,在下游的启动子、转录子结合位点的预测,先天性巨结肠疾病的基因筛选任务上都大幅提高了性能。我们相信,类似预训练这样的前沿AI技术在基因数据上的持续深入应用,将进一步挖掘基因数据的价值,帮助我们破解人类的密码,在癌症的精准治疗等重要问题上发挥作用。
总结来看,我们认为,生物世界正处于数字化、自动化和智能科学计算的新变革中,用计算的方法,即人工智能和数据驱动的第四研究范式来辅助人们探索并解决生命健康的问题成为一个重要的研究方向。未来,需要学术界和产业界共同推动生命科学、生物医药、基因工程、个人健康各领域从孤立、开环向协同、闭环发展,实现更快速、更精准、更安全、更经济、更普惠的生命科学与生物医药创新,这代表着下个十年巨大的科学发展与产业创新的新机会。
我们热切呼吁