人工智能驱动的科学研究(AI for Science,AI4S)是以人工智能(AI)手段辅助或独立完成科学研究任务的一种模式,代表着新的科研范式发展趋势。科研范式的变革则是推动科学中心转移和一国科学崛起的底层力量,关切AI4S的发展特征和趋势,对抢抓新科学革命的机遇意义重大。
一、AI for Science的典型案例
人工智能驱动的科学研究近年来持续升温,2024年的诺贝尔化学奖和物理学奖则将其推到风口浪尖。2024年10月,诺贝尔化学奖揭晓,美国华盛顿大学的大卫·贝克(David Baker)和谷歌公司的英国科学家戴密斯·哈萨比斯(Demis Hassabis)、约翰·M·詹伯(John M. Jumper)获此殊荣,因为他们“在蛋白质设计和蛋白质结构预测方面作出了杰出贡献”。这就是近年来最具典型代表性的AlphaFold辅助蛋白质结构研究的案例。
获奖人哈萨比斯和詹伯开发了一种名为“AlphaFold”的人工智能应用程序,这款程序专门用来预测人体蛋白质的结构,由于蛋白质的结构决定了蛋白质的功能,因此通过预测其结构即可预判其功能,进而进一步设计其结构并创造新的功能。哈萨比斯和詹伯完成了前半部分(结构预测),而贝克则完成了后半部分(结构设计)。由于组成蛋白质多肽链的氨基酸数量极为庞大,通过传统方法无法完成研究,该问题困扰科学界长达50年之久。随着2018年AlphaFold的牛刀小试,这一研究范式表现出巨大的潜力,到2.0版诞生后(2021年),这一问题才被彻底解决。目前利用AlphaFold 2已成功完成大约两亿种蛋白质结构的预测(几乎已穷尽所有已知蛋白质),并被全球200多万科研人员在网络上公开下载使用。
与诺贝尔化学奖类似,2024年诺贝尔物理学奖也颁给了与人工智能有关的研究人员。在诺贝尔物理学奖中,美国普林斯顿大学教授约翰·J·霍普菲尔德(John J. Hopfield)基于神经科学和物理学中自旋系统的原理,发明了一种“联想记忆”的网络模型,用于数据记忆存储和重构,可用来处理数据去噪和缺失数据重构等问题。加拿大多伦多大学教授杰弗里·E·辛顿(Geoffrey E. Hinton)在此基础上,利用统计物理学中系统状态分布和调整的思维,革新了这个模型,生成一种可以基于已有训练自动归类输入信息并调整优化整个系统结构,进而生成新的系统结构的模型,这不仅是早期人工智能生成模型的代表,而且也为今天的深度神经网络机器学习奠定了技术基础。这些研究使得人工神经网络技术成为AI发展的核心,因此物理学奖用来表彰两位科学家“在利用人工神经网络进行机器学习方面所作出的基础性发现和发明”。
我们可以看到,两个奖项都与AI有关,都在科学研究和AI之间建立了某种桥梁,但其逻辑方向不同:在诺贝尔化学奖的案例中,AI辅助了科学研究;而在诺贝尔物理学奖的案例中,科学研究推动了AI发展。由此可见,AI for Science和Science for AI[王燕平1] (科学研究驱动的AI发展)都已被科学界广泛接受。随着诺贝尔奖的这些奖项的颁布,人工智能与科学研究之间的关系显然变得更加紧密,一场轰轰烈烈的科研范式变革已成为不可争辩的事实。
二、AI for Science的技术支撑
人工智能驱动的科学研究实质上代表了未来科研范式的发展方向,它依靠AI技术辅助科学研究,从而加速科研进度、提高科研效率,主要特征包括:第一,以庞大的数据体量为支撑,先有数据,然后产生理论假设,先知道“结果是什么”,然后去分析“为什么”,这不同于以前研究中的先假设、后验证的方法。第二,AI4S属于机器自动研究、自主研究,先通过数据学习获取“规则”,然后进行自动化处理,最后得到分析结果和解决方案,至于处理过程是什么样的、如何解释其中的因果联系,可能人力无法知晓。第三,在理想情况下,AI4S的研究方法本身可以自动进化,不需要由研究人员来决定优劣及取舍,AI可自动完成方法升级,这与传统的人力研究或计算机辅助研究具有根本不同。
总之,AI技术是其核心驱动力,而AI4S的发展又依赖于数据、算力、算法等多方面的支撑,这体现在以下四个方面:
第一,数据是AI4S的生产资料。高质量数据集是训练和优化AI模型和学习推理的基础,数据的质量、数量以及多样性直接影响到模型的最终效果。在科学研究中,数据包括实验数据、观测数据、模拟数据等,不同学科数据类别和复杂度不尽相同。与欧美国家相比,我国在复杂数据领域的数据利用率仍然较低,且传统擅长处理结构化和线性数据的AI框架,无法解决高维非线性数据的复杂性问题。如何有效整合多模态和多层次的数据集,是AI4S的重要研究方向。
第二,算力是AI4S的生产力。特别是在数据密集型的科研领域,无论是训练复杂的深度学习模型,还是处理大规模的数据集和复杂的模型结构,都需要巨大的高性能计算资源,包括强大的计算能力、高效的存储系统、先进的网络通信、灵活的资源调度、安全可靠的环境、专业的技术支持和开放共享的平台等,以确保AI算法的高效运行。通过加速模型的训练过程,可以减少迭代时间,提高科研速度和效率,从而使科学家更快地对研究问题进行迭代和假设验证。
第三,算法是AI4S的生产工具。算法是AI大模型的核心,它定义了如何从数据中提取有效信息并进行预测或决策。不同的科学问题可能需要不同类型的算法,如机器学习中的监督学习、无监督学习、强化学习等。不同环节算法也包含不同的关键技术,如架构设计、优化技术、正则化与模型剪枝(简化模型)、动态调整学习率等。架构的选择会影响模型的性能、训练速度和推理效率,算法的选择和优化则有利于解决特定问题。有效的优化策略可以加快收敛速度并提高最终模型的质量;自适应学习可以进一步提高模型训练效果。
第四,专业知识是AI4S的智力支持。除了算力、算法和数据的AI三大要素外,AI4S的成功还依赖于科学家在各自研究领域的专业知识和经验。科学问题往往具有高度的专业性和复杂性,这些专业知识能够帮助定义研究问题、选择合适的特征、解释模型结果以及设计后续实验。如果没有深厚的专业背景,即使有强大的算力和先进的算法,也难以有效解决具体的科学问题。因此AI4S尚未发展到完全智能的程度,它只是在方向上具有较大的范式优势。
三、AI for Science的发展趋势
从长期来看,当前AI4S正处于初期发展阶段,虽然关于AI4S的相关讨论很多,但真正的应用并不多,总体上判断,AI4S未来可能面临如下发展趋势:
第一,应用范围越来越广,被使用频率越来越高。随着AI技术的进一步发展,AI4S的应用会不断扩展:一方面,在自然科学研究领域,AI参与学术研究的比例越来越高,谷歌学术统计表明,2021—2023年,全球使用AI进行科学研究的论文发表比例增长至超过34.5%,增长超过3倍,主要集中于材料科学、生命科学、能源科学等领域;另一方面,随着生成式AI的发展,社会科学领域也会越来越多地被AI4S介入,相关研究可能会变得更加智能化、更有AI感,ChatGPT、DeepSeek等现象[王燕平2] 级事件的发生是这一趋势的有力证明。
第二,AI4S的相关学术监管压力将迅速增加。正因为其不可抵挡的扩张趋势,未来AI4S的发展可能面临越来越多的监管难题,因为在AI的智能化提升过程中,AI的“想象力”和“致幻率”之间存在着难以调和的矛盾,这一方面是由于AI大模型算法本身所决定的,另一方面可能是由于使用者的判断能力甚至主观意愿所导致。因此,未来的学术研究可能会产生越来越多的“致幻”数据和虚假结论,这对科学发展反而不利。也正因为如此,诺贝尔奖得主辛顿本身也对其提出反对意见(辛顿认为“要像监管核武器一样对AI进行监管”,与此观点类似的还有OpenAI公司的CEO山姆·奥特曼)。
第三,算力“天花板”或将成为AI4S的发展瓶颈。目前AI“智能化”水平的提升,主要靠“规模效应”来驱动,即通过增加模型规模、数据量和计算资源来提高模型性能,这种“大力出奇迹”的方式,在短期内比拼的是“算力”,但从长期来看,必然会遇到某种物理瓶颈,即“算力天花板”。这意味着大模型的开发不能一味地靠堆积算力,而更多的是要多路径协同发展,而正因为模型的性能决定了AI4S的性能和研究效率,因此未来AI4S的发展将从单纯的算力竞争转变为“芯片+算法+应用”的综合实力的竞争。
第四,AI4S推动的学科边界重构将更加明显。AI4S是多学科、多技术、多领域交叉的系统工程,它本身需要跨学科的合作,因此在发展AI4S的过程中,必然会推动学科边界的拆分与重构。一方面,AI4S通过将基础学科与AI相结合,帮助解决不同科研领域的共性问题,促进学科交叉和交流,加大学科融合;另一方面,AI4S需要更多复合型人才的参与才能更好驾驭科学研究,而复合型人才的培育,必然要求打破学科边界,通过构建跨学科知识图谱来加速学科融合。因此,AI4S在未来有望推动大科学研究和微观尺度革命双向突破,继而催生出新的学科领域。
四、相关政策建议
综上,应充分认识抢抓AI4S发展先机的重要意义,充分发挥我国庞大数据资源、丰富应用场景和举国算力等规模优势,更好推动人工智能发展为科学研究赋能添力。因此建议:
第一,坚持数据战略先行,大力推动数据共建共享。充分认识高质量数据资源对AI发展的决定性意义,尽快从国家层面构建AI时代数据发展战略,出台数据共享、共建、共用等政策。坚持推进数据标准化工作,通过数据标准化策略提升数据质量、提高数据再现性,推动科研数据共享利用和科学知识传播迭代。支持相关科技企业和地方政府联合构建大型多模态、多层次数据库,搭建高通量数据生产公共平台,加大数据开放共享和收益分配探索,提高相关数据利用率。
第二,实施算力倍增计划,推动AI算力提质增效。短期内,算力仍是大模型突破的重要方向,要继续推动算力基础设施建设,尽快突破先进制程芯片技术封锁,想方设法缩小与美国的算力差距。在推动已有大算力集群建设的基础上,引入先进算力调度和管理技术,提高本地算力利用率;超前部署“点—线—面”统一协调的全国一体化算力网络,实现算力资源共享和协同调度,提高整体算力使用效率。坚持实施“云计算+AI”方案,以“公共云”模式提供大规模并行智能技术,支持大模型训练和推理应用,促使AI应用于科学研究。
第三,坚持AI开源开放,强化多主体协同创新。支持企业开发开源模型和构建开源社区,利用AI大模型开源开放促使开发人员相互交流,加速技术迭代升级。支持一批基础较好的基础模型开发企业和AI开源社区发展壮大,形成世界级模型衍生群和领先级开源社区,提升我国AI全球影响力。试点探索科学研究中AI开源生态贡献考核,比如在国家自然科学基金人工智能类项目中,将AI开源生态贡献值纳入立项标准或考核指标,吸引更多科研人员参与AI开源开发和AI4S落地应用。
第四,坚持人才为本,加大AI人才培养引进和开发。推动实施“科教融汇”战略,锚定AI人才培育目标,制定人才培养计划,尽快培育一大批AI相关理论与技能人才。支持有条件的地区或高校建立AI4S学院,支持校企联合培养跨学科人才和AI复合型人才,加快推动人才互认协调工作,强化人才需求与供给匹配。加强国际一流科研环境建设,建立高端人才引进机制,吸引AI相关国际专家、一流学者来华访问或工作,吸引留学生回国从事相关研究等。
地址:中国 北京市海淀区玉渊潭南路8号 邮编(ZIP):100038
电话(Tel):86-10-58884543 咨询:webmaster@casted.org.cn 新闻与信息:xxxz@casted.org.cn
版权所有 中国科学技术发展战略研究院 备案号/经营许可证备号:京ICP备10036465号-11
技术支持:中研网