就在AI出人意料摘得2024年诺贝尔物理学奖之后,化学奖也颁发给了三位研究领域与AI相关的科学家。
其中,被誉为“AlphaFold之父”的谷歌DeepMind公司Demis Hassabis博士和John Jumper博士因蛋白质结构预测获奖,而华盛顿大学的David Baker教授因计算蛋白设计荣获殊荣。
他们开发的AI解决方案成功解决了50年来蛋白质结构预测领域的重大挑战。
AI在化学领域的深度应用,值得所有化学人关注。
(*因篇幅有限,文章只介绍AI与化学领域的相关联系,暂不讨论生物)
01、“小小的蛋白质藏着大大的学问”
AlphaFold与蛋白质结构
蛋白质对我们的生命至关重要,它参与身体几乎所有功能,如肌肉收缩、光线感知和食物能量转换等,而这些功能都依赖于蛋白质独特的三维结构。
仅从基因序列推断蛋白质三维结构非常困难,因为DNA只提供氨基酸序列信息,而这些氨基酸会形成复杂的三维结构。蛋白质越大,其内部氨基酸相互作用越多,结构建模就越复杂。
过去几十年,科学家用冷冻电子显微镜、核磁共振或X射线晶体学等技术能在实验室确定蛋白质形状,但这些方法耗时耗资,可能需数年及大量资金。
幸运的是,基因测序成本下降,基因组学数据增多,科学家开始利用AI和深度学习算法预测蛋白质结构。在这样的背景下,AlphaFold应运而生。
AlphaFold官网
2018年12月,DeepMind推出了AlphaFold系统,它能预测和生成蛋白质的3D结构。
在当年的国际蛋白质结构预测竞赛中,AlphaFold首次亮相便大放异彩,以压倒性优势夺冠。成功预测了43种蛋白质中25种的zui精确结构,远超第二名,后者仅预测出3种。
与以往依赖预设模板的传统AI方法不同,AlphaFold利用机器学习从数据中自主发现规律,无需以明确结构的蛋白质3D模型作为参考。
AlphaFold官网
之后,又推出了AlphaFold2。
在2020年竞赛中,AlphaFold2预测了近100个蛋白靶点中三分之二的结构,与实验结果高度一致,有时难以分辨是预测误差还是实验误差。
2021年,发布了涵盖人类和20种模式生物35万个蛋白质结构的AlphaFold数据库,准确预测了98.5%的人类蛋白质结构,远超以往科学界解析的范围。
这一数据库被认为是基因组图谱发布以来的重要里程碑,并被《科学》杂志评为年度科学突破。更令人振奋的是,该数据库免费向全球科研人员开放。
2022年再次取得突破,AlphaFold预测范围扩展至100万个物种,预测蛋白质数量提升至超过2亿种,几乎涵盖了科学界已知的所有蛋白质。
AlphaFold3开源
11月11日,AlphaFold3宣布开源。
与之前的版本相比,AlphaFold3的突破在于它能够与其他分子协同模拟蛋白质。全球的科研人员都可以下载这一工具,用于非商业化应用。
“上帝之手”与计算蛋白设计
David Baker在走上生物化学研究的道路前,专业是研究哲学。
1983年,在哈佛大学学习哲学的Baker在一堂生物学课程上了解到蛋白质折叠问题。自这堂课后,Baker对这个数十年来困扰了无数科学家的难题产生了极大兴趣,甚至不惜转换专业在生物学领域从头开始学习。
1993年,Baker回到了家乡西雅图,在华盛顿大学开始了独立研究的职业生涯。他决心开发一套能够根据序列预测蛋白质结构的软件,于是Rosetta系列软件应运而生。
Rosetta这一名字来源于古埃及的罗塞塔石碑,这块石碑上同时刻有古埃及象形文字、世俗体文字和古希腊文三种不同语言的文本,使得人们得以通过对照不同语言的内容破译了古埃及象形文字。同样地,Baker希望通过Rosetta这个软件来解决把蛋白质的序列翻译成结构的难题。
Rosetta home官网
尽管Rosetta在蛋白质结构预测方面取得了巨大成功,但Baker的野心远不止于此。
他开始向更具挑战性的领域——“蛋白质的从头设计”发起冲击。从头设计蛋白质要求科学家们能够根据一个具有特定形状的蛋白,倒推出其DNA序列。
2003年,Baker团队成功设计出了首个原本并不存在于自然界中的蛋白质——Top7。虽然Top7只有结构无功能,但这标志着从头设计蛋白领域的重大突破。
此后,他的团队继续探索,在今年成功设计出能调控成纤维细胞生长因子信号通路并促进血管分化的全新环形蛋白。这一成果大大扩展了蛋白质从头设计的应用前景,对领域发展产生了深远影响。
Baker参加油管相关讲座的截图
02、AI早已出现在英本化学专业课程中
AI在化学领域的运用并非一蹴而就,其起源可追溯到上世纪六十年代,当时Elias James Corey提出了“逆合成分析原理”,开创了运用计算机技术进行有机合成设计的先河。
随着大数据和AI技术的快速发展,数据驱动的研究范式逐渐在化学领域崭露头角。
AI技术,特别是机器学习算法,擅长在海量数据中寻找隐藏的因果关系,为化学研究提供了新的解决思路。例如,在材料设计、分子动力学模拟、药物研发等方面,AI技术都展现出了巨大潜力。
在英本化学专业课程中,AI已逐渐融入其中。常见的相关内容包括:
1、数据分析与处理技术
学生将学习如何使用各种数据分析工具和方法,包括机器学习算法,来处理和分析化学实验中产生的大量数据。这有助于他们更准确地理解实验结果,发现潜在的科学规律。
2、计算化学与模拟
计算化学和模拟是化学研究中的重要手段之一。学生将学习如何使用计算机程序来模拟化学反应和分子行为,从而更深入地理解化学反应的本质和机制。AI技术的加入使得这一过程更加高效和精确。
3、跨学科合作与项目研究
跨学科合作和项目研究是常见的实践环节。有机会与来自不同学科背景的同学合作,共同解决化学领域的实际问题。在这个过程中,AI技术将作为重要的工具之一,助力学生实现科研目标。
以G5院校相关化学专业课程设置为例:
剑桥大学
剑桥大学本科阶段没有开设单独的化学专业,化学本科课程在自然科学Tripos框架下教授。
IA 部分,学生可将化学作为三门实验科学之一,IB 部分开设两门化学课程;
化学A主要涵盖物理化学和理论化学,化学B主要涵盖有机化学和无机化学,专攻化学的学生通常会选修这两门课程。在第三年和第四年,学生可以完全专注于化学。
申请成绩要求:
Alevel:A*A*A,数学为必修,另外两门科学科目,不同学院有着不同的要求;
IB:41-42分,HL 776 分,数学为必修,另外两门科学科目,不同学院有着不同的要求;
入学笔试:ESAT
剑桥大学,自然科学专业请成绩要求
牛津大学
牛津拥有世界领先的化学系之一,拥有先进的教学和研究实验室以及广泛领域的世界一流研究,包括合成与催化、药物和生物化学、可持续能源、先进材料、创新测量、理论和计算化学。
第一年课程涵盖无机化学、有机化学和物理化学等传统领域,以及化学数学;第二年加深对化学学科的理解并涵盖该学位的大部分核心主题,包括理论化学、生物化学、分子光谱和合成化学,第三/四年研究自己感兴趣的主题。
申请成绩要求:
Alevel:A*A*A(包括化学和数学),科学科目和/或数学均为 A*
IB:40分,HL 766 分、其中 HL 化学 7 分、HL 数学 6 分
牛津大学,化学专业申请成绩要求
帝国理工
IC为期三年的化学课程中,学生将参与世界领先的化学研究,形成对核心化学概念相互关联的理解。
在前两年,学生将研究无机化学、有机化学、物理化学、分析化学、合成化学和计算化学等基本主题。
第三年,可以灵活地从一系列高级化学主题中进行选择,在学科前沿追随自己的兴趣。zui后一年将包括介绍新兴的“工业 4.0”方法和技术,例如快速原型设计、生物黑客和机器学习。
IC,化学专业课程简介
申请成绩要求:
Alevel:AAA,化学A,数学A,第三科目A (生物、经济、进阶数学和物理优先),2023年80%的申请者成绩为A*AA–A*A*A;
IB:38分,HL化学、数学6分,第三门HL科目6分(生物、经济或物理优先),2023年80%的申请者成绩为39-40分。
IC,化学专业申请成绩要求
剑桥大学自然科学专业提供了广泛的学科选择,适合前期对多个科学领域都感兴趣的学生;牛津大学则更加深入专注,而帝国理工学院化学专业注重化学工程与技术方面的应用。
不同院校的专业课程重点不同,这点在确定院校及专业选择时需要同学们格外注意。