【编者按】数字化的出现,为人类社会带来了巨大的变革。城市数字化转型成为提升城市竞争力的重要手段。2020年12月,上海市委、市政府印发了《关于全面推进上海城市数字化转型的意见》,提出“到2025年,上海全面推进城市数字化转型取得显著成效,国际数字之都建设形成基本框架;到2035年,成为具有世界影响力的国际数字之都”。
当下,上海城市数字化转型进展如何?已经取得了哪些成果,又经历着怎样的挑战。在上海市城市数字化转型工作领导小组办公室的指导下,由上海市经济和信息化委员会组织,澎湃科技推出“数都上海:上海国际数字之都建设深度调研”系列报道,聚焦数字基建、数字制造、数字农业、数字医疗、数字金融、数字出行、数字教育等10大领域,全方位展现上海在城市生产、生活不同场景中的数字化转型。
·“以前我们解析一个晶体结构,首先要做蛋白质表达、纯化、结晶,前期的准备工作很复杂,一个博士生在博士期间,能做出一个(晶体结构)就能在很好的期刊发表文章了。但如果让人工智能来做这件事,过去几年才能完成的事情,现在一天甚至一小时就能完成。而且它的成本很低。”
·“开放共享是科学研究活动的基本特征之一。很多人把科学研究和技术转化混为一谈,对科学研究活动的规则却不甚明了。”
“随着多组学的出现和基因测序技术的发展,近年来,生物医学大数据的量级达到了EB级(Exabytes,10的18次方),这意味着在科学史上,生物医学成为继天文学和物理学之后,第三个进入数据密集型研究范式的学科。” 中国科学院院士、中国科学院分子植物科学卓越创新中心赵国屏教授向澎湃科技介绍说。
“在表型组学的研究中,数据是基础。”复旦大学人类表型组研究院数据信息管理平台主任徐志鹏向澎湃科技表示,“而在新一代信息技术的加持下,可以预见,表型组研究将会大大加速。”
基于多模态和多任务深度学习方法构建,人工智能大模型“风乌”首次实现在高分辨率上对核心大气变量进行超过10天的有效预报,“过去全球中期天气预报的有效性每10年才提高1天,这次我们仅用了几个月的时间便提高了一天多,初步体现了人工智能与科研结合的巨大潜力。” 上海人工智能实验室领军科学家欧阳万里说。
人工智能技术的发展促使科研领域掀起一场新的变革,它不仅大幅提高了传统科研的效率,同时有力拓展了科研的领域,“数字科研”正在改写历史。
数据驱动的科研是表型组学研究的重要方式
生物表型可以分为宏观表型和微观表型,宏观表型包括影像学表征、体貌特征、疾病病征、健康状态、环境适应能力等;微观表型包括转录、蛋白质、代谢物、细胞、免疫、微生物等。
“哪怕是在基因型基本相同的同卵双胞胎个体之间,也有表型上的个体差异,这是因为作息习惯、生活环境等导致的表型差异。” 徐志鹏介绍,表型组学正是研究环境、基因与表型之间的相互作用关系学科。
2003年4月,人类基因组计划的完成使生物数据的量级进入了一个全新的时代。2015年5月,在“国际人类表型组研究”香山科学会议上,复旦大学校长、中国科学院院士金力等中外科学家共同提议发起了国际人类表型组计划,该计划于2018年在上海启动。人类表型组计划的发起人之一、美国四院院士莱诺·胡德(Leroy E. Hood)曾表示:“我几乎确认,如果人类表型组计划能够持续进行,那么15年后,每个人的各种健康数据将可以通过手机快速生成,并从百万人级的研究成果中确定适配的药物。”
“数据驱动的科研是表型组学研究的重要方式。”徐志鹏日前在接受澎湃科技采访时说。“在表型组学研究之前,每个组学各自有自己的研究方向,相互之间有一定的交叉和融合,但是没有如此大规模的组学之间的交叉融合。因为这些数据维度太高了,很少有科学家精通所有的领域。”徐志鹏介绍,国际人类表型组计划一期收集了1000余名志愿者每人约24000个表型的高维度数据。研究人员要把这些非常高维度的数据进行关联分析,寻找可能的位点(即“信号”),需要大数据的计算或人工智能来做“收敛”,找到可疑的信号,最后回到基础研究,验证结果是否准确。
事实上,早在大语言模型成为公众热点之前,生物学家已经在使用人工智能明星公司DeepMind开发的AlphaFold来进行蛋白质预测等工作。上海国际人类表型组研究院数字健康研究所执行所长丁国徽研究员形容AlphaFold的便捷程度如同AI翻译书稿,“以前我们解析一个晶体结构,首先要做蛋白质表达、纯化、结晶,前期的准备工作很复杂,一个博士生在博士期间,能做出一个(晶体结构)就能在很好的期刊发表文章了。但如果让人工智能来做这件事,过去几年才能完成的事情,现在一天甚至一小时就能完成。而且它的成本很低。”他表示,人工智能对生命科学研究产生巨大影响的一个特征是,它正擅长处理高维度的生物数据。
徐志鹏觉得,今天的大数据和人工智能与30年前的计算机十分相似,在教育界,计算机是一门公共课程,未来大数据和人工智能也将是这样一种需要普及的工具。
人工智能促使科研范式变化
人工智能技术不仅提高了类似表型组这样需要运用大量数据的科研领域的效率,也使得传统科研领域的研究效率有了质的飞跃。
2023年4月初,上海人工智能实验室联合中国科学技术大学、上海交通大学、南京信息工程大学、中国科学院大气物理研究所及上海中心气象台发布全球中期天气预报大模型“风乌”,首次实现在高分辨率上对核心大气变量进行超过10天的有效预报,并在80%的评估指标上超越DeepMind发布的气象模型GraphCast。在预报精度方面,这项研究的主要负责人上海人工智能实验室青年科学家白磊曾在接受媒体采访时介绍,相比GraphCast,“风乌”的10天预报误差降低10.87%,而相比于传统的物理模型,其误差降低了19.4%。
白磊于2022年7月加入上海人工智能实验室,专注于用人工智能方法对地球科学进行研究(AI for Earth)。谈到为何会选择气象研究方向时,他说:“气象是一个有着重大价值且适合人工智能来探索的领域,AI的方法是由数据驱动的,气象领域有海量公开的数据。”
“过去,全球中期天气预报的有效性每10年才能提高1天,但我们仅在几个月的时间里,便将有效性提高了1天多,这初步体现了人工智能与科研结合的巨大潜力。”欧阳万里介绍,以往天气预报使用的是传统的物理方法,通过求解一个公式来预测气象的变化,随着时间的增加,需要考虑的影响因素会越来越多,相应的计算量也会越来越大。过去天气预报的有效性每十年才能提高一天,需要建立在科学家对物理因素的理解更深入,从而通过更大的计算量建立更好物理模型的基础之上。
而基于多模态和多任务深度学习方法构建的人工智能大模型“风乌”,其工作方式不是求解方程,而是建立一个模拟复杂过程的函数,这个过程类似于模拟人脑,研究人员把数据“喂”进“盒子”,“盒子”输出未来的数据。相比传统的物理方法,人工智能的方法能够调整的参数更多,欧阳万里解释,可以把调整参数的过程比喻成“拉开关”,传统的物理方法可能只能拉10个开关,而人工智能可以拉100万个开关,这些开关有它自己的涵义,在机器学习完之前,人们并不确定它的作用。
参数越多,最终呈现的结果越准确,“气象预测是一个高度复杂,乃至混沌的领域,准确建模并不容易。比方说,传统的物理方法找到了10个开关,科学家们一直在寻找未知的开关,而人工智能本身就具有100万个开关的潜力,只要有足够的数据,这100万个开关就可以学习得越来越准确。”欧阳万里说。
风乌预测“杜苏芮”路径与实际路径对比。图片来源:上海人工智能实验室
跨界合作是推动“风乌”项目取得初步成果的一个重要因素。 “人工智能研究的学者在理解气象问题时,需要补充非常多专业知识”,白磊透露,“我们和南信大、上海市气象局等多家单位合作,他们提供了很多气象背景以及模型评估等专业知识,解决了我们当时面临的难题。”
据欧阳万里介绍,上海人工智能实验室AI for Science团队除从事“风乌”项目研究,还关注地震、材料、工业设计、生物等与国计民生密切相关的科研问题,并进行了布局。
所有的问题最终都会导向数据
“风乌”项目在推进过程中,也遇到一些挑战。“所有的问题最终都会导向数据。”白磊告诉澎湃科技,“当你想建模整个地球系统的数据,不再是建模一个区域和一两个变量,而且是全球高分辨率多种大气变量,比如我们用的数据集完整的超过1个PB(Petabytes,10的15次方),即便下载带宽是100兆,也需要3年。此外如何获得更高分辨率的数据也是一个难题。”
数据密集型范式下的科研,数据成为了核心。 “只要数据量足够大,一定可以带来很多我们以前认识不到的东西。”赵国屏说,“现在生物医学大数据的问题是,总量达到了EB级别,但如果做某一方面的研究,数据仍然不够。”
人工智能领域也面临同样的情境。“ChatGPT对某一个领域最初的学习,一般需要几万条精心准备的数据,看似不多,但是在生物医学领域,即便是一个酶,要拿到成千上万条标准化的高质量数据真的不容易。”赵国屏说。
据赵国屏介绍,和气象等领域的数据相比,生物医学大数据更加复杂,具有“高维度”、“多尺度”的特征,从分子层次到大分子层次,从亚细胞结构到细胞结构,从组织到器官,从个体到生态,每个层次的数据性质都不同。因此,必须抓住研究型数据。
赵国屏的团队成员之一、中国科学院上海营养与健康研究所生物医学大数据中心副主任张国庆向澎湃科技介绍,生物医学大数据的来源可分为五大类:第一类是经过精心设计,纯粹实验室产出的小规模数据,第二类是系统生物学数据,例如系统性的采集数十个人或动物或细胞的生命组学数据,第三类是转化医学数据,即在动物和细胞层次上开展,以改善人类疾病为目的的研究数据,第四类是精准医学数据,例如罕见病筛查、遗传病筛查数据,第五类是真实世界数据,即医院里日常采集的数据,如体检数据等。这五大类的数据从设计程度或质量上来看,呈现来源越来越复杂、质量越来越参差不齐的特点。
“涉及人的数据,真实性、完整性都成问题。”赵国屏告诉澎湃科技,“医学上有‘望、闻、问、切’,‘问’是非常重要的数据来源,但医生不知道病人说的是真话还是假话,是故意说假话还是无意说假话。”
“国家已经将数据定义为新的生产要素。数据就像矿藏一样,如果随便挖,不知道分矿、选矿,从资源使用的角度看,其实也是一种浪费。”徐志鹏表示,“数据治理是一个不显山不露水的工作,往往做幕后英雄,但它属于数字经济的底层建设,需要比较大的投入。”
2016年底,赵国屏团队正式开始转向数据治理体系研究。“将数据治理好之后,可以提供给科研人员。”赵国屏说,刚开始做数据治理的时候,他其实没有明确的思路,但有一点是明确的,建数据中心的目的是用数据,而不是存数据。与上海市胸科医院的合作让团队看到了数据治理的现实价值。
“医院每天都会产生数千人的数据,有国产仪器和进口仪器产出的,也有患者自述的,质量参差不齐。仪器产出的数据结构化程度很高,但是医患沟通过程中形成的病史数据,以及医生判读的诊断治疗等数据,目前仍然以非结构化数据为主,以大段文本的形式呈现。”张国庆说,多年以前,医院的数据治理是人工治理,即由医生或做临床研究的人摘抄,以自然语言处理为代表的技术的发展,使得机器可以部分代替手工。
此前,上海市胸科医院已经建立过一些专病数据库,但并非以科研应用为导向,数据的可用性无法直接达到临床科研的要求。当医生需要数据进行临床研究时,仍然需要委托医院信息处或者自行处理数据,效率低下。经过赵国屏团队的数据治理后,临床科研团队可以节省30%-70%的数据处理时间。走完医院的审批流程后,医生在2-3天内就可以获得数据。“未来我们希望能够实现实时完成,这也是我们下一步改进的方向。”张国庆说。
其实,市场上并不缺乏有能力搭建信息系统的企业,过去医院和信息企业之间的合作也并不少。但企业以利润为导向,信息系统搭建完毕并验收完成,双方的合作就结束了,后续应用的好坏并没有作为企业搭建系统的考核指标。“我们搭建数据治理体系的目标是支撑医生开展临床研究。”张国庆强调。最近他们正在尝试自然语言处理加大模型的组合。
要想实现这一目标,张国庆还需要解决不少难题,首当其冲的是人才匮乏,他在采访中表示,“我们需要有一定生物或医学背景的人工智能专业人才,但现在很多计算机领域的人才不愿意从事专业领域,尤其不愿意从事和生命医学等回报周期较长的专业领域,他们更愿意从事消费娱乐或金融等领域,在这些领域里,成果的产出更加迅速。”第二个难题是缺乏统一的数据标准规范、规范化集成的技术手段等。例如,他们需要一一识别医院中哪些数据是需要治理的。最后,数据采集的基础性工作仍然缺乏合理有效的评价机制,导致数据质量良莠不齐。
数据开放有需求却难实现
张国庆告诉澎湃科技,医学数据存在的一个大问题是“数据孤岛”现象非常严重,有的医院有上百种信息系统,有上百个软件来管理医院就诊过程中形成的数据,例如常见的电子病历系统、手术麻醉系统、护理系统等。一些高等级的医院的信息系统虽然实现了数据互联互通,但是互联互通的精细程度参差不齐。张国庆团队发现,上海市医院信息化程度很高,很多医院搭建了数据集成平台,但集成的范围并没有达到全覆盖,而且集成的重点偏向医院的管理。
以上海市胸科医院为例,目前该医院建立的科研信息系统仍然只供医院自身科研使用,上海市胸科医院肿瘤科主任陆舜坦言,将来它是否可以向社会开放,为生物医药研发提供帮助,需要根据国家相关法律法规的细则来实施,譬如使用方需要通过中国人类遗传资源管理办公室的批件来申请,上海市胸科医院才能提供相关遗传信息的检索。
张国庆认为,在数据治理领域,需要政府的补位。据张国庆介绍,国家卫生健康委员会组建了中国卫生信息与健康医疗大数据学会,下设5个国家级健康医疗大数据中心,其中有几个已经实现了区域的健康医疗数据集中管理。但由于投入过大,收益却不明显,这项工作止步于此。
相比之下,英国的健康数据研究所(HDR UK)是一个各方协调出色的例子。HDR UK是一个由政府资助机构、工程师协会、大学研究所和医院多方共同参与的大型项目,共建立了9个数据库,由医院来运营。“其中很重要的一点是,工程师、科研人员、政府资助机构、管理部门都参与其中,沟通协调机制很完善。近年来,国内在这方面也做了很多工作,但高层组织协调上并没有达到实质性的组合,内在的纽带并没有常态化地运行起来。”张国庆说。
对数据开放的呼吁几乎是科研界的一致诉求。上海科学技术情报研究所副研究员薛菁华和正高级工程师陈广玉曾撰文指出,2019年和2021年,经济合作与发展组织(OECD)以及联合国教科文组织(UNESCO)相继在各自的政策文本中表达了“开放科学是科学研究新范式”的类似观点。开放科学旨在实现人人皆可公开使用、获取和重复使用科学知识,增进科学合作和信息共享,并向科学界以外的社会行为者开放科学知识的创造、评估和传播进程。
丁国徽研究员也表示,“开放共享是科学研究活动的基本特征之一。很多人把科学研究和技术转化混为一谈,对科学研究活动的规则却不甚明了。”其实从上个世纪八十年代以来,世界各国就开始了基因数据开放和共享的实践。40余年来,包括中国在内的多个国家相继建立了生物样本和基因数据库,且不同程度向全球科研人员开放。