• 首页 >  人工智能 >  AI产业
  • 中国人工智能学会:2024中国人工智能系列白皮书-人工智能驱动的生命科学(177页).pdf

    定制报告-个性化定制-按需专项定制研究报告

    行业报告、薪酬报告

    联系:400-6363-638

  • 《中国人工智能学会:2024中国人工智能系列白皮书-人工智能驱动的生命科学(177页).pdf》由会员分享,可在线阅读,更多相关《中国人工智能学会:2024中国人工智能系列白皮书-人工智能驱动的生命科学(177页).pdf(177页珍藏版)》请在薪酬报告网上搜索。

    1、 中国人工智能系列白皮书中国人工智能系列白皮书 人工智能驱动的生命科学人工智能驱动的生命科学 中国人工智能学会中国人工智能学会 二二二四年七月二四年七月 中国人工智能系列白皮书 中国人工智能系列白皮书编委会中国人工智能系列白皮书编委会 主 任:戴琼海 执行主任:王国胤 副 主 任:陈 杰 何 友 刘成林 刘 宏 孙富春 王恩东 王文博 赵春江 周志华 郑庆华 委 员:班晓娟 曹 鹏 陈 纯 陈松灿 邓伟文 董振江 杜军平 付宜利 古天龙 桂卫华 何 清 胡国平 黄河燕 季向阳 贾英民 焦李成 李 斌 刘 民 刘庆峰 刘增良 鲁华祥 马华东 苗夺谦 潘 纲 朴松昊 钱 锋 乔俊飞 孙长银 孙茂松

    2、 陶建华 王卫宁 王熙照 王 轩 王蕴红 吾守尔斯拉木 吴晓蓓 杨放春 于 剑 岳 东 张小川 张学工 张 毅 章 毅 周国栋 周鸿祎 周建设 周 杰 祝烈煌 庄越挺 中国人工智能系列白皮书中国人工智能系列白皮书-人工智能驱动的生命科学人工智能驱动的生命科学编写组编写组 张世华 张学工 陈盛泉 李婷婷 刘红蕾 刘振栋 刘治平 王太峰 张 岳 郑旭彬 中国人工智能系列白皮书 1 目 录 第 1 章 单细胞转录组预训练基础模型.1 1.1 单细胞基础模型概述.1 1.2 单细胞基础模型构建.2 1.2.1 大规模单细胞数据集.2 1.2.2 单细胞数据编码嵌入表示.3 1.2.3 预训练任务建模.

    3、5 1.3 单细胞基础模型应用.8 1.3.1 基因嵌入表示和细胞嵌入表示.8 1.3.2 单细胞类型注释.10 1.3.3 单细胞数据生成.10 1.3.4 推断调控网络.11 1.3.5 空间组学应用.11 1.3.6 其他任务.11 1.4 展望.12 参考文献.13 第 2 章 人工智能赋能细胞异质性刻画.17 2.1 概述.17 2.2 基于无监督学习的细胞异质性刻画.18 2.2.1 基于无监督机器学习的细胞异质性刻画方法.18 2.2.2 基于无监督深度学习的细胞异质性刻画方法.20 2.3 基于弱监督学习的细胞异质性刻画.22 2.3.1 刻画转录组数据细胞异质性的弱监督学习方

    4、法.24 2.3.2 刻画表观组数据细胞异质性的弱监督学习方法.24 2.3.3 刻画空间转录组细胞异质性的弱监督学习方法.25 2.4 基于有监督学习的细胞异质性刻画.25 中国人工智能系列白皮书 2 2.4.1 基于细胞间相似度的有监督学习方法.26 2.4.2 基于机器学习的有监督学习方法.27 2.4.3 基于深度学习的有监督学习方法.28 参考文献.31 第 3 章 人工智能赋能疾病诊疗.39 3.1 引言.39 3.2 关键技术和应用.40 3.2.1 机器学习与深度学习.40 3.2.2 自然语言处理技术.41 3.2.3 医疗图像分析技术.42 3.2.4 知识图谱与数据整合技

    5、术.43 3.2.5 生命科学领域的基础模型.44 3.3 展望.47 参考文献.49 第 4 章 人工智能助力医疗文本处理.54 4.1 医疗大数据简介及分类.54 4.2 医疗文本自然语言处理.55 4.3 文本表示学习.56 4.4 知识图谱.58 4.5 大语言模型在医疗文本中的应用.60 参考文献.62 第 5 章 人工智能助力 RNA 结构预测.67 5.1 背景.67 5.2 研究现状.77 5.3 机器学习与深度学习.83 5.3.1 卷积神经网络.83 5.3.2 三维卷积神经网络.87 中国人工智能系列白皮书 3 5.3.3 基于 ResNet 的三维卷积神经网络.88 参

    6、考文献.91 第 6 章 人工智能识别组学生物标志物.101 6.1 背景.101 6.2 常见的单组学方法.101 6.2.1 过滤式.102 6.2.2 包裹式.102 6.2.3 嵌入式.103 6.3 从网络中发展生物标志物.103 6.4 单组学研究的局限性.105 6.5 多组学的研究的优势.105 6.6 多组学数据的整合策略.106 6.6.1 前融合.107 6.6.2 中融合.109 6.6.3 后融合.110 6.7 临床中的应用.112 6.8 总结.113 参考文献.114 第 7 章 蛋白质语言大模型的前沿探索和展望.118 7.1 从通用语言大模型到蛋白质语言大模

    7、型.118 7.2 蛋白质语言大模型的前沿探索与尝试.119 7.2.1 数据的来源和整理.119 7.2.2 训练范式.120 7.2.3 蛋白质语言模型的 Scaling Law.122 7.2.4 语言模型应用落地.124 7.3 对于蛋白质语言模型以及 AI 进行蛋白质设计的展望.125 7.3.1 多模态融合的蛋白质预训练.125 中国人工智能系列白皮书 4 7.3.2 对数据的期待.127 7.3.3 语言模型与 AI 蛋白质设计的思路.127 参考文献.129 第 8 章 人工智能基因调控.132 8.1 基因调控概述.132 8.2 基序检测的人工智能算法.133 8.3 基因

    8、调控网络构建的人工智能算法.135 参考文献.140 第 9 章 人工智能赋能多组学融合.148 9.1 人工智能与多组学融合概述.148 9.2 多组学测序技术.151 9.2.1 单细胞基因组学.152 9.2.2 单细胞转录组学.152 9.2.3 单细胞表观遗传学.153 9.2.4 单细胞蛋白质组学.153 9.2.5 单细胞多组学.154 9.3 转录组学与表观遗传学数据融合.154 9.3.1 基于深度神经网络方法.154 9.3.2 基于矩阵分解方法.157 9.3.3 基于图/网络方法.158 9.4 转录组学与蛋白质组学数据融合.160 9.4.1 基于神经网络方法.160

    9、 9.4.2 基于矩阵分解方法.161 9.4.3 基于贝叶斯统计学方法.162 9.4.4 基于图/网络方法.162 9.5 转录组学、蛋白组学与表观遗传学数据融合.163 9.5.1 基于神经网络方法.163 中国人工智能系列白皮书 5 9.5.2 基于矩阵分解方法.164 9.5.3 基于图/网络方法.164 参考文献.166 中国人工智能系列白皮书 1 第 1 章 单细胞转录组预训练基础模型 1.1 单细胞基础模型概述 近年来,随着高通量单细胞测序技术的发展和普及,生物信息学领域内产生了以单细胞转录组为代表的数以亿计的单细胞数据,涵盖了上千种细胞类型、覆盖了不同的发育过程和细胞状态。国

    10、际上兴起的细胞图谱计划对这些海量单细胞数据进行了收集和组装,形成了HCA1、hECA2、CZ-cellxgene3等千万级别的大规模细胞图谱,扩展了单细胞组学数据的体量和多样性,为研究单细胞特性提供了宝贵的资源。而随着数据量的快速增长和数据异质性的提高,人们愈发意识到传统的单细胞算法难以有效捕捉大规模单细胞数据集中的生物规律和信息,这促使研究人员开始开发基于预训练人工智能的计算方法,通过构建单细胞转录组的基础模型学习大规模数据中蕴含的规律。基础模型是一种在广泛数据上训练的机器学习模型,旨在通过大规模自监督学习进行训练,赋予其有效地适应广泛下游任务的能力。单细胞转录组数据中蕴含着丰富的生物学信息

    11、,构建单细胞转录组的基础模型能够学习基因表达中的调控规律,并将其与细胞类型识别、药物响应预测等多种下游任务建立关联,具有广阔的应用前景和价值。在自然语言、计算机视觉和语音处理等领域的基础模型构建中,Transformer 模型4已然成为了各种基础模型的骨干网络架构。Transformer 模型具有超群的长序列处理能力和扩展性,能够充分利用大规模数据并捕捉其中的数据特征,这使得 Transformer 模型在构建单细胞组学基础模型的过程中可以发挥关键作用。目前,通过 Transformer 模型构建单细胞基础模型这一研究方向正处于早期探索阶段512,已有的预训练模型包括:scBERT、Genef

    12、ormer、scGPT、scFoundation、tGPT、GeneCompass 和 scMulan等。本章对已有的单细胞基础模型方法进行总结和归纳,分别对单细胞基础模型建模中的数据集、细胞表征、预训练任务建模、细胞和基中国人工智能系列白皮书 2 因嵌入、下游任务等内容进行概述,并对未来研究方向进行展望。1.2 单细胞基础模型构建 通过 Transformer 模型构建单细胞基础模型的过程主要涉及数据预处理、数据编码和预训练任务构造三个步骤。单细胞基础模型的训练使用大规模单细胞数据集,并对数据特征维度等信息进行统一处理。数据编码过程主要包括对单细胞转录组数据的基因及其表达量进行编码;预训练过

    13、程则涉及预训练任务的构建和 Transformer 架构选择。经过编码的基因和表达量被输入 Transformer 中,经过自注意力机制进行长序列运算提取互作信息,并生成基因表征,进一步通过预训练任务的预测头进行自监督训练。1.2.1 大规模单细胞数据集大规模单细胞数据集 目前的单细胞基础模型以基因为基本标识,以一个细胞为一个对象,在预训练阶段需要庞大的细胞数量以提供丰富的细胞多样性。高通量测序技术的飞速发展带来了大量的单细胞数据,hECA2、CZ-cellxgene3和 DISCO13等细胞图谱收集了千万级别的单细胞数据,涵盖了几百个数据集、百余种细胞类型、各年龄段的捐献者。这些细胞图谱不仅

    14、仅收集了数据集,还进行了一定的跨数据集统一处理。这样的数据规模和多样性,能够支持模型捕捉数据中的基因关系和分布特征。除了单细胞数据的收集之外,上述数据集还提供了丰富的元信息,包括细胞类型、所属器官、捐献者信息等。其中,hECA 对不同来源数据集中的元信息进行了系统的整理,使元信息字段在不同数据集中保持一致,例如,保证不同器官中相同细胞类型的细胞名称一致。这使得这些内容能够在基因表达之外,给模型提供更为宏观的信息;同时,这也需要模型进行专门设计进行兼容。上述单细胞图谱都对不同来源的数据的基因列表进行了统一,使得图谱中所有细胞共享相同的基因列表。根据不同模型的设计,会通中国人工智能系列白皮书 3

    15、过算法选取高变基因或使用完整基因。对基因表达矩阵的处理包括标准化和对数变换等步骤,旨在降低表达量中极端数据的影响,并使得特征范围可比。1.2.2 单细胞数据编码嵌入表示单细胞数据编码嵌入表示 由于 Transformer 主要用于处理序列化的数据,而单细胞数据是表格类型的数据,因此需要将数据进行转化,从而能够支持Transformer 模型进行处理。单细胞转录组基础模型通常将基因视为单词,细胞中的所有基因表达视为一个句子。由于每个基因天然是独立的单位,所以无需像自然语言处理那样对句子进行分词操作。而又由于与自然语言的词汇不同,在每一个单细胞的句子里,每个基因不仅由一个词汇(gene symbo

    16、l)来表示,它还有对应的表达值。因此,需要对输入的基因名称和表达值分别进行编码,转为 Transformer 能够接收的格式。可以将基因和表达值分别使用不同的编码方式到相同维度的嵌入空间,然后通过相同位置编码逐元素求和得到最终输入Transformer 模型的嵌入。目前对基因名称和对应的表达值存在不同的利用和编码方式。1.2.2.1 基因名称的编码嵌入表示 为了让 Transformer 能够区分每一个输入的基因,需要对不同基因赋予不同的编码嵌入。大多数单细胞基础模型采用了自然语言处理中对 token 的编码方式,即通过 one-hot 编码和投影神经网络将词汇表中的每一个基因投影到一个高维嵌

    17、入空间。这使得每一个基因都通过编码成为相同维度的嵌入向量。这个投影过程具有可学习的参数,会随着 Transformer 的训练而进行更新,从而一定程度上能够捕捉基因之间的关系。除了从数据中直接学习投影嵌入表示,GeneCompass11还通过引入外部知识,对基因赋予了其他的编码嵌入,包括启动子嵌入、共表达嵌入、基因族嵌入和基因调控网络嵌入。其中,启动子嵌入是使用中国人工智能系列白皮书 4 基因转录起始位点附近的碱基序列微调 DNABERT 模型14,并获取其对应的隐层表示来获得的。共表达嵌入、基因族嵌入和基因调控网络嵌入是通过 gene2vec 方法15获取的嵌入表示,即先将具有相似属性的基因

    18、构建基因对,再训练 gene2vec 模型使得相似基因可以获得相近的嵌入表示。这些编码具有相同的嵌入维度,从而经过聚合之后输入到 Transformer 模型之中。1.2.2.2 基因表达值编码嵌入表示 基因表达值一方面可以用于给基因排序,通过位置编码的形式间接地提供表达水平的信息,另一方面也可以直接进行编码作为输入。本节介绍三种主要的表达值编码方式,可以将基因表达值的信息通过编码,叠加到基因编码上,作为 Transformer 的输入,包括排序编码、连续值投影编码和离散类别编码。排序编码:根据基因表达量的高低可以对细胞中表达的基因由高到低排序,从而形成一个基因序列。由于 Transforme

    19、r 对位置不敏感,可以通过跟自然语言中类似的位置编码对基因序列的位置进行编号,形成包含了表达量高低信息的位置编码。目前的 Geneformer 模型8采用了这种排序编码的方式。它的好处在于抹去了原始表达信息,从而更好地适应原始的 Transformer 架构,但随之而来的缺点是无法从排序后的序列中恢复原始表达。连续值投影编码:经过标准化和对数变换等处理流程之后得到的基因表达量通常是一个连续的数值,为了将其映射到与基因编码相同的编码空间,需要对表达值进行投影。这个过程采用神经网络来完成,得到与基因编码相同维度的嵌入。这种编码形式理论上可以不经损失地使用原始的连续表达值,但是由于原空间维度过高,可

    20、能影响模型对有效信息的捕捉能力。scFoundation6 和 GeneCompass 模型中使用了连续值投影的编码。离散类别编码:将编码空间离散化有助于模型的学习更为稳定,中国人工智能系列白皮书 5 也与基因编码的方式保持一致。因此,可以先将连续值进行离散化,得到诸多表达量区间,然后将表达量区间通过与基因编码相似的离散投影网络,将表达量投影到高维嵌入空间。离散类别编码也有多种实现方式,如 scMulan5通过动态分桶法,以每个细胞中表达值最高的基因为基准,划分多个区间;scGPT 7通过分位数的方式来划分区间;BioFormers9提出可以通过非线性地对高表达、超高表达、低表达的基因采用不同

    21、的区间划分。1.2.2.3 其他元素的编码 除了基因和表达值,其他元信息和特殊字符也可以被编码到Transformer 之中。例如,scMulan 将以文本形式存在的细胞元信息以独立字符的方式进行编码,使得模型可以捕捉基因表达与元信息之间的关系,并且通过将不同的下游任务进行编码,使得模型能够通过接收不同的任务提示词来执行不同的功能。此外,包括批次信号、CLS、扰动信息等元素,也被应用于模型编码之中。这些特殊字符的编码可以给模型赋予额外的信息。1.2.3 预训练任务建模预训练任务建模 通过构建自监督学习任务的方式训练 Transformer 模型可以充分利用庞大的单细胞数据,从中学习调控规律和生

    22、物信息并应用于丰富的下游任务,从而在没有特定任务注释的情况下提高模型的泛化能力。这一自监督学习的范式已经在自然语言、计算机视觉等领域的基础模型构建过程中得到了广泛的印证。在单细胞基础模型中,采用的预训练任务主要分为类似于 BERT模型16使用的掩码预测(MLM)任务和类似于 GPT 模型17使用的因果逐个生成(CLM)任务。1.2.3.1 基于 MLM 的预训练 MLM 是一种常见的自监督预训练方法,在自然语言处理中应用的典型代表为 BERT 及其变体16,1820,目前的单细胞基础模型中国人工智能系列白皮书 6 scBERT12、Geneformer、scGPT 和 scFoundation

    23、 等,采取的是这种预训练任务。具体而言,在单细胞的 MLM 任务中,某些基因表达量的值会被随机屏蔽(施加 Mask),然后模型通过自监督训练来预测这些被屏蔽的基因的基因表达水平。scFoundation 在这一基础上,还引入了恢复测序深度这一任务,进一步学习基因表达水平的信息。MLM 任务可以让模型学习到基因表达数据的分布和结构,同时还能捕捉到基因之间的潜在关系。图图 1-1 scFoundation 的建模方式的建模方式 MLM 的预训练任务会选择使用 Transformer 的 Encoder 架构,它允许输入的所有元素通过双向的 Attention 机制获取全局信息,并得到每一个元素的高

    24、维嵌入表示。在预训练阶段,被屏蔽位置的元素的高维嵌入会被用于预测表达量,计算均方误差等损失,进行反向传播和梯度下降进行 Transformer 的参数更新。通过MLM预训练后的基础模型捕捉到输入数据中的复杂结构和依赖关系,这对于理解单细胞组学数据中的基因表达模式和细胞状态具有重要作用。不过这一任务对屏蔽方式较为敏感,如何选择最佳的屏蔽策略,如屏蔽比例、屏蔽内容等,需要进行专门的测试和设计,不同的策略可能会对模型的训练产生显著影响。中国人工智能系列白皮书 7 1.2.3.2 基于 CLM 的预训练 目前,在自然语言处理领域最先进的大语言模型如 GPT 系列、Llama 系列17,2123等均采用

    25、 CLM 方式构建生成式预训练任务。CLM的任务是给定输入序列,预测下一个元素,在推理过程中可以通过生成完成任务。由于单细胞基因表达并没有天然的顺序,不同基础模型给出了各自的预训练任务构建方式。tGPT10通过基因表达量的高低构造了基因的顺序,将预训练任务定义为给定某个位置之前的基因排序,预测下一个位置的基因,期望通过高表达基因逐渐预测所有低表达的基因。scMulan 利用了注意力机制对位置不敏感的特点,没有对基因排序,而是通过随机打乱细胞中的基因顺序消除基因的排序,然后将预训练任务定义为给定某个位置之前的基因,预测细胞里其余基因和表达值,期望通过一部分基因预测其他基因。此外,scMulan

    26、还加入了诸多元信息,如细胞类型、器官名、捐献者年龄、性别等。这些元信息可以作为输入序列的一部分,也可以作为预测对象。这使得在模型在预训练过程中构建了微观基因表达与宏观元信息之间的联系。通过设置诸多任务提示词,scMulan 可以在不同的下游任务中生成与之对应的内容,从而使用相同的预训练范式,能够同时进行多任务的预训练。图图 1-2 scMulan 对基因表达和元信息的使用范式对基因表达和元信息的使用范式 中国人工智能系列白皮书 8 CLM 的预训练任务使用 Transformer 的解码器来进行训练。解码器通过特殊的因果注意力机制,使得每一个输入元素只能与它本身和它之前的元素产生注意力。在模型

    27、训练过程中,模型的一次前向和反向计算将会同时对所有输入元素进行训练,在单细胞转录组上的训练效率更高。需要注意的是,CLM 方法得到的模型作为生成式模型,并不能显式地获取每一个输入基因经过 Transformer 之后的表征,其获取细胞表征的方式也有待进一步研究。1.3 单细胞基础模型应用 在自监督预训练完成后,单细胞基础模型可被应用于多种下游任务,这充分展现了单细胞基础模型的可扩展性和通用性。目前的单细胞基础模型大多数通过在不同任务上进行微调执行对应任务,scMulan5由于在预训练阶段使用了部分元信息,可以在相关任务上无需微调执行多种下游任务。单细胞基础模型的应用主要包括:细胞嵌入表示、细胞

    28、类型注释、单细胞数据生成、推断调控网络和空间组学应用等。1.3.1 基因嵌入表示和细胞嵌入表示基因嵌入表示和细胞嵌入表示 目前的单细胞基础模型,在经过预训练后都可以输出具有生物学含义的细胞嵌入表示。不同于输入 Transformer 之前对基因的嵌入表示,此处的嵌入表示是数据经过训练好的 Transformer 得到的。由于单细胞基础模型面对测试数据集具有良好的泛化能力,从而对新数据的细胞嵌入也可以保留基因之间和细胞之间的关系,具有较好的鲁棒性。细胞嵌入表示可以通过对所有基因嵌入平均的方式得到。1.3.1.1 基因嵌入表示 基因的嵌入表示可以分为数据无关的嵌入和数据相关的嵌入表示。中国人工智能

    29、系列白皮书 9 应用于单细胞数据的 Transformer 在输入基因数据时,首先会生成某种维度的基因编码,如 1.2.2 节所述。这种基因编码通常在预训练过程中作为模型参数的一部分而进行更新。这类基因编码是模型参数的一部分,可以看做是与数据无关的基因嵌入。数据相关的基因嵌入表示是将数据输入模型,然后从模型输出得到。一般而言这样的表示是从 Transformer 的最后一层输出层获取的,而在 Geneformer 模型中,使用的是 Transformer 输出的倒数第二层表示8。通过比较这些嵌入表示在不同细胞间的相似性得分,例如余弦相似性,可以为基因之间的共表达等关系提供新的见解。1.3.1.

    30、2 细胞嵌入表示 低维空间中单个细胞的高质量表示是单细胞各种下游分析的关键组成部分。其中至关重要的是保存生物差异,如细胞类型和细胞状态,同时最大限度地减少技术混淆,如数据集之间的批次效应。在整合来自多个研究、组织甚至生物体的数据时,去除批次效应和相关协变量是极具挑战性的。Transformer 通过预训练任务在未知批次的情况下为细胞提供了一个有效嵌入表示,并且可以证明该表示对某些批处理效果稳健。基于 Transformer 的细胞嵌入表示在许多方面与其他技术有所不同。基于变分自编码器的流行模型,如 scVI24和 scArches25,或最近提出的 SCimilarity11等模型明确地学习低

    31、维嵌入。Transformer 仅通过常用的自监督预训练任务并不显示产生低维的细胞嵌入,而是通过汇集单个细胞的 Transformer 输出的基因嵌入来实现细胞嵌入。例如将 Transformer 的每一个基因嵌入表示求均值得到细胞的嵌入表示,或者通过在输入中引入特殊的细胞标记,如 CLS,该标记的嵌入表示可以代表细胞的嵌入表示。此外,Transformer 输入标记的灵活性便于使用多模态特征进行细胞表示,例如 scGPT7可以将跨组学数据进行匹配和马赛克整合。中国人工智能系列白皮书 10 单细胞基础模型提取的细胞嵌入表示在多种下游任务表现更优异,被证实良好地去除批次效应的同时保留了生物差异。

    32、1.3.2 单细胞类型注释单细胞类型注释 许多单细胞基础模型被设计用于单细胞类型注释这一下游任务,这也是评估单细胞基础模型的一个通用任务。单细胞基础模型已经显示出通过自监督预训练可以提高它们的细胞注释能力。具体而言,在单细胞类型注释任务中,使用者可以将预训练得到的单细胞嵌入表示进行微调,从而实现对细胞类型注释。例如Geneformer8、scFoundation26等大多数模型都是通过微调实现细胞类型注释。而 scMulan5可以不经过微调实现细胞类型注释。由于细胞类型也是元信息的一部分,scMulan 得益于将细胞的元信息作为自回归学习的一部分这种特殊设计,可以无需微调直接进行细胞类型注释。

    33、Transformer 在泛化到未见数据集方面表现出了巨大的潜力,这对利用具有统一注释的参考单细胞数据图谱来注释新数据集至关重要。1.3.3 单细胞数据生成单细胞数据生成 单细胞数据生成包括基因扰动数据生成、跨模态数据预测和基于元信息条件生成等。经过自监督预训练的单细胞基础模型可以通过模拟单个输入基因的扰动,在扰动条件下的预测其他的基因表达。例如,基因敲除或降低表达,或在细胞暴露于小分子等扰动条件下实现单细胞数据生成,这有利于进行虚拟药物试验从而实现药物的快速筛选等。跨模态预测是使用已知的模态来预测缺失的模态,例如 scMoFormer 27和 scTranslator28利用基因组学数据预测

    34、蛋白组学数据。此外,生成性 Transformer 有可能直接模拟数据。例如,scMulan 使用指定的元信息条件作为输入,不需要任何组学特征即可生成单细胞数据,该模型可以用于在获取匹配对照组织具有挑战性的情况下进行对照组数据集的生成,并在一定程度上可以通过输入基因扰动在零样本条件下生成扰动后的细胞,进行虚拟扰动实验。中国人工智能系列白皮书 11 1.3.4 推断调控网络推断调控网络 单细胞预训练基础模型可以用于推断基因之间的相互作用和调控网络。细胞和基因组学特征标记之间的注意力分数可以用来识别细胞类型标记基因、与特定细胞表型相关的基因,以及与生物过程相关的基因,如发育调节因子,以及与特定细胞

    35、表型相关的基因。例如,Geneformer8和 GeneCompass11等模型通过分析基因嵌入之间的注意力分数来推断基因调控网络。在传统方法中,识别与特定条件相关的组学特征,或者这些特征之间的相互作用,通常是通过特征与条件之间的相关性或通过分析特征嵌入的相似性来得出的。Transformer 引入了一种新颖的方法,即通过不同组学标记之间的注意力机制来学习多模态相互作用,生成可学习的特征关系。例如,结合 ATAC 和 RNA 数据可能揭示基于共结合转录因子的表达和染色质可及性的上下文特定的转录因子调控。1.3.5 空间组学应用空间组学应用 单细胞基础模型在空间组学应用中也显示出了潜力。scGP

    36、T 7、SpaFormer29和 CellPLM30直接应用于空间组学数据,在空间转录组基因表达插补任务上展示了有效结果。目前 SpaFormer 和 CellPLM 进行了空间信息的设计,将其整合到模型输入中,使用位置编码来编码细胞的空间坐标。空间转录组学的迅速发展以及 Transformer 在其他领域解析空间坐标的能力使得这些技术的整合成为一个有前景的新领域。1.3.6 其他任务其他任务 单细胞基础模型由于各自的模型细节和侧重不同,设计了很多具有特色的下游任务,如单细胞药物响应预测、基因剂量敏感性预测实验等。例如,scFoundation 和 GeneCompass 可以结合 GEARs

    37、 等基因扰 动 预 测 模 型,用 于 预 测 基 因 扰 动 的 影 响,Geneformer 和GeneCompass 可以执行基因剂量敏感性预测任务,scFoundation 可以中国人工智能系列白皮书 12 增强输入数据的测序深度、并可在 bulk 数据上应用。1.4 展望 目前在单细胞转录组数据上预训练得到的基础模型在零样本和微调场景下产生了优异的表现。如何结合单细胞多模态数据,如空间转录组、染色质开放性等信息构建基础模型,将是未来研究的一个重要方向。此外,对于单细胞基础模型中的涌现现象有待进一步探索。在应用方面,未来需要探索如何通过单细胞基础模型,实现疾病靶点发现和快速药物筛选,从

    38、而帮助更好解决更多的生命健康难题。中国人工智能系列白皮书 13 参考文献 1 Science Forum:The Human Cell Atlas|eLife n.d.https:/elifesciences.org/articles/27041(accessed April 18,2024).2 Chen S,Luo Y,Gao H,Li F,Chen Y,Li J,et al.hECA:The cell-centric assembly of a cell atlas.iScience 2022;25:104318.https:/doi.org/10.1016/j.isci.2022.10

    39、4318.3 Program CS-CB,Abdulla S,Aevermann B,Assis P,Badajoz S,Bell SM,et al.CZ CELL GENE Discover:A single-cell data platform for scalable exploration,analysis and modeling of aggregated data 2023:2023.10.30.563174.https:/doi.org/10.1101/2023.10.30.563174.4 Vaswani A,Shazeer N,Parmar N,Uszkoreit J,Jo

    40、nes L,Gomez AN,et al.Attention Is All You Need.Advances in Neural Information Processing Systems 2017;30.5 Bian H,Chen Y,Dong X,Li C,Hao M,Chen S,et al.scMulan:a multitask generative pre-trained language model for single-cell analysis 2024:2024.01.25.577152.https:/doi.org/10.1101/2024.01.25.577152.6

    41、 Hao M,Gong J,Zeng X,Liu C,Guo Y,Cheng X,et al.Large Scale Foundation Model on Single-cell Transcriptomics 2023:2023.05.29.542705.https:/doi.org/10.1101/2023.05.29.542705.7 Cui H,Wang C,Maan H,Pang K,Luo F,Wang B.scGPT:Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative

    42、AI 2023:2023.04.30.538439.https:/doi.org/10.1101/2023.04.30.538439.8 Theodoris CV,Xiao L,Chopra A,Chaffin MD,Al Sayed ZR,Hill MC,et al.Transfer learning enables predictions in network biology.Nature 2023:19.https:/doi.org/10.1038/s41586-023-06139-9.9 Amara-Belgadi S,Li O,Zhang DY,Gopinath A.Bioforme

    43、rs:A 中国人工智能系列白皮书 14 Scalable Framework for Exploring Biostates Using Transformers 2023:2023.11.29.569320.https:/doi.org/10.1101/2023.11.29.569320.10 Shen H,Liu J,Hu J,Shen X,Zhang C,Wu D,et al.Generative pretraining from large-scale transcriptomes for single-cell deciphering.iScience 2023;26.https:/

    44、doi.org/10.1016/j.isci.2023.106536.11 Yang X,Liu G,Feng G,Bu D,Wang P,Jiang J,et al.GeneCompass:Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model.Bioinformatics;2023.https:/doi.org/10.1101/2023.09.26.559542.12 Yang F,Wang W,Wang F,Fang Y,Tang D,H

    45、uang J,et al.scBERT as a Large-Scale Pretrained Deep Language Model for Cell Type Annotation of Single-Cell RNA-seq Data.Nature Machine Intelligence 2022;4:85266.13 Li M,Zhang X,Ang KS,Ling J,Sethi R,Lee NYS,et al.DISCO:a database of Deeply Integrated human Single-Cell Omics data.Nucleic Acids Resea

    46、rch 2021:gkab1020.https:/doi.org/10.1093/nar/gkab1020.14 Ji Y,Zhou Z,Liu H,Davuluri RV.DNABERT:pre-trained Bidirectional Encoder Representations from Transformers model for DNA-language in genome.Bioinformatics 2021;37:211220.https:/doi.org/10.1093/bioinformatics/btab083.15 Du J,Jia P,Dai Y,Tao C,Zh

    47、ao Z,Zhi D.Gene2vec:distributed representation of genes based on co-expression.BMC Genomics 2019;20:82.https:/doi.org/10.1186/s12864-018-5370-x.16 Devlin J,Chang M-W,Lee K,Toutanova K.Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv Preprint arXiv:181004805 2018.

    48、17 Radford A,Wu J,Child R,Luan D,Amodei D,Sutskever I.中国人工智能系列白皮书 15 Language Models are Unsupervised Multitask Learners n.d.18 Liu Y,Ott M,Goyal N,Du J,Joshi M,Chen D,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach 2019.https:/doi.org/10.48550/arXiv.1907.11692.19 Lan Z,Chen M,Goodman S

    49、,Gimpel K,Sharma P,Soricut R.ALBERT:A Lite BERT for Self-supervised Learning of Language Representations 2020.20 Joshi M,Chen D,Liu Y,Weld DS,Zettlemoyer L,Levy O.SpanBERT:Improving Pre-training by Representing and Predicting Spans.Transactions of the Association for Computational Linguistics 2020;8

    50、:6477.https:/doi.org/10.1162/tacl_a_00300.21 Brown T,Mann B,Ryder N,Subbiah M,Kaplan JD,Dhariwal P,et al.Language Models are Few-Shot Learners.Advances in Neural Information Processing Systems,vol.33,Curran Associates,Inc.;2020,p.1877901.22 Touvron H,Lavril T,Izacard G,Martinet X,Lachaux M-A,Lacroix

    51、 T,et al.Llama:Open and Efficient Foundation Language Models.arXiv Preprint arXiv:230213971 2023.23 Touvron H,Martin L,Stone K,Albert P,Almahairi A,Babaei Y,et al.Llama 2:Open Foundation and Fine-Tuned Chat Models.arXiv Preprint arXiv:230709288 2023.24 Lopez R,Regier J,Cole MB,Jordan MI,Yosef N.Deep

    52、 generative modeling for single-cell transcriptomics.Nature Methods 2018;15:10538.https:/doi.org/10.1038/s41592-018-0229-2.25 Lotfollahi M,Naghipourfar M,Luecken MD,Khajavi M,B ttner M,Wagenstetter M,et al.Mapping single-cell data to reference atlases by transfer learning.Nat Biotechnol 2022;40:1213

    53、0.中国人工智能系列白皮书 16 https:/doi.org/10.1038/s41587-021-01001-7.26 Hao M,Gong J,Zeng X,Liu C,Guo Y,Cheng X,et al.Large Scale Foundation Model on Single-cell Transcriptomics 2023:2023.05.29.542705.https:/doi.org/10.1101/2023.05.29.542705.27 Heimberg G,Kuo T,DePianto D,Heigl T,Diamant N,Salem O,et al.Scala

    54、ble querying of human cell atlases via a foundational model reveals commonalities across fibrosis-associated macrophages 2023:2023.07.18.549537.https:/doi.org/10.1101/2023.07.18.549537.28 Liu L,Li W,Wong K-C,Yang F,Yao J.A pre-trained large generative model for translating single-cell transcriptome

    55、to proteome 2023:2023.07.04.547619.https:/doi.org/10.1101/2023.07.04.547619.29 Wen H,Tang W,Jin W,Ding J,Liu R,Dai X,et al.Single Cells Are Spatial Tokens:Transformers for Spatial Transcriptomic Data Imputation 2024.https:/doi.org/10.48550/arXiv.2302.03038.30 Wen H,Tang W,Dai X,Ding J,Jin W,Xie Y,et

    56、 al.CellPLM:Pre-training of Cell Language Model Beyond Single Cells 2023:2023.10.03.560734.https:/doi.org/10.1101/2023.10.03.560734.中国人工智能系列白皮书 17 第 2 章 人工智能赋能细胞异质性刻画 2.1 概述 传统的基因组学研究通常只能提供细胞群体的信息,而单细胞测序技术的出现使得研究人员可以更加深入地了解细胞群体内部的细胞异质性,揭示不同细胞之间的转录表达模式、表型特征以及功能状态的差异,从而理解细胞群体中不同亚型的分布、相互作用以及在生理和病理过程中的作

    57、用。同时,随着测序技术的不断发展,包括单细胞转录组测序、单细胞表观组测序、单细胞蛋白质组测序等在内的不同组学单细胞测序技术的应用,也使得我们可以同时获得细胞多层次、多维度的数据,进一步丰富了对细胞异质性的理解。尽管各类单细胞测序技术的发展为细胞异质性的刻画提供了强有力的工具,推动了细胞生物学领域的发展和深入研究,但单细胞测序数据的分析仍面临特征维度高、数据噪声大、稀疏程度高、批次效应强和技术差异大等多种挑战,如何有效地整合多源单细胞数据,准确地刻画细胞异质性,从而精准地辨识细胞类型并解析其基因调控规律,是亟待解决的关键科学问题。随着人工智能技术的迅速发展,如何结合计算机算法与测序技术,更好地挖

    58、掘细胞异质性信息,是当今的重要研究热点之一。人工智能技术可以有效地应用于大规模生命组学数据的处理和分析,目前,针对细胞异质性刻画问题,研究人员提出了多个人工智能算法,这些方法涉及数据处理与分析的多个阶段:降噪和数据清洗:人工智能方法可以应用在数据预处理环节,对数据进行降噪、校正和清洗,提高数据的质量和可靠性;特征提取和降维:人工智能方法可以对数据进行特征提取和降维,挖掘数据中重要的模式和结构,减少高维度数据带来的问题;聚类和分类:人工智能方法可以应用在细胞类型的识别和分类中,中国人工智能系列白皮书 18 帮助发现并定义不同的细胞类型,揭示细胞类型的特异性模式和机制;数据整合和跨样本分析:人工智

    59、能方法可以整合不同来源的数据,消除批次效应和技术差异,实现跨样本的一致性分析和结果解释;多组学联合析:人工智能方法可以将基因组学、转录组学、表观基因组学、蛋白质组学等多种不同组学的数据整合到一个框架中,提供更加全面且多维度的细胞信息。以上人工智能方法按照对数据的需求程度,可以分为无监督学习、弱监督学习和有监督学习这三种主要类型,我们将依次介绍这三类方法的任务特点、数据需求、设计思路和代表性工作。2.2 基于无监督学习的细胞异质性刻画 在许多实际应用中,获取带标注的数据通常代价高昂或不可行。无监督学习是一种不依赖标注数据,直接利用无标注的数据进行学习的人工智能方法,在没有数据标签的情况下分析和识

    60、别数据中的模式。无监督学习的目标通常是识别数据中的结构、关系或者数据的内在分布特性。在对单细胞各类组学数据进行下游分析之前,研究人员常常使用无监督学习方法进行数据预处理,比如特征提取和降维,以得到能够良好地表征细胞异质性的低维嵌入表示,从而用于进行后续各种下游分析。本节我们将探讨基于无监督学习的细胞异质性刻画方法(图 2-1),概述具有代表性的模型原理及此类方法中的代表性工作。2.2.1 基于无监督机器学习的细胞异质性刻画方法基于无监督机器学习的细胞异质性刻画方法 常用于细胞异质性刻画的传统机器学习方法包括主成分分析(Principal Component Analysis,PCA)、奇异值分

    61、解(Singular Value Decomposition,SVD)、非 负 矩 阵 分 解(Non-negative Matrix Factorization,NMF)等降维方法,K-均值聚类(K-means Clustering)、K-中心点聚类(K-medoids clustering)、层次聚类(Hierarchical 中国人工智能系列白皮书 19 Clustering)等聚类方法,以及基于贝叶斯框架的统计方法等。本节我们将重点关注上述人工智能方法在刻画细胞异质性方面的应用。图图 2-1 基于无监督学习的细胞异质性刻画方法基于无监督学习的细胞异质性刻画方法 PCA 是最为广泛使用的

    62、降维方法之一1。基于 PCA 刻画细胞异质性的代表方法有 SC3,它首先对单细胞转录组数据的表达矩阵过滤基因和标准化,然后用欧几里得距离、皮尔逊系数和斯皮尔曼系数来分别度量细胞间的距离或相似性,再使用 PCA 或通过计算相关图拉普拉斯的特征向量来转换所有三种距离矩阵,得到转换过的 6 种距离矩阵,然后分别选取特征值最高的前个特征向量得到6 组低维表示,用于细胞聚类2。基于 PCA 得到单细胞数据低维表示的方法还有用于整合单细胞多组学数据的计算方法 Seurat v53,适用于单细胞转录组数据的聚类方法 pcaReduce4,拟时序分析方法 TSCAN5、Monocle36,以及适用于单细胞染色

    63、质开放性数据(Single-cell chromatin accessibility sequencing,scCAS)的计算方法 STREAM7、ChromSCape8和 EpiScanpy9等方法。SVD 是一种广泛使用的基于矩阵分解的方法,同样可以用于对单细胞数据进行降维。代表性方法包括用于填补单细胞转录组数据的中国人工智能系列白皮书 20 ALRA10,用于分析 scCAS 数据的 ArchR11和 Signac12,以及用于整合单细胞多组学数据的 MultiMAP13等方法。此外,基于矩阵分解的机器学习方法还包括非负矩阵分解。在PCA 和 SVD 中,原始的矩阵被近似分解为低秩的 ,

    64、分解出的两个因子矩阵和中往往含有负值元素。尽管从计算的角度来看,分解矩阵中的负值是允许的,但负值元素通常缺乏实际意义,难以进行模型解释。NMF约束了原始矩阵和分解矩阵和的非负性,其分解出的因子矩阵易于与细胞的类型及其表达模式对应起来。基于非负矩阵分解的代表性细胞异质性刻画方法包括用于单细胞多组学联合分析的 LIGER14、MOFA15和 MOFA+16,用于对单细胞转录组数据细胞类型识别的NMFLRR17,用于填补scCAS数据的scOpen18,以及用于增强 scCAS 数据的 scCASE19等方法。而传统无监督机器学习中的聚类方法,如 K-means、K-medoids和层次聚类,是用于

    65、识别细胞类型和状态,从而深入描述细胞间异质性的常用方法。例如,SC3 对上述6 组低维表示分别进行 K-means聚类,得到6 组聚类结果,再对每组聚类结果计算相似性矩阵,对所有的相似性矩阵取均值得到一致性矩阵,再对其使用层次聚类以得到最终的聚类结果2。使用无监督聚类方法来刻画细胞间异质性从而辨识细胞类型的代表方法还有适用于单细胞转录组数据的 SIMLR20、SAME-clustering21,对 scCAS 数据进行聚类的 scABC22。传统的无监督学习方法还可以通过整合贝叶斯框架,提高模型对数据潜在结构的推断能力,此类代表性方法有 cisTopic23和 Melissa24。cisTop

    66、ic 基于贝叶斯框架学习 scCAS 数据的低维嵌入,而 Melissa 则是通过概率图模型对单细胞 DNA 甲基化数据进行聚类和填补。2.2.2 基于无监督深度学习的细胞异质性刻画方法基于无监督深度学习的细胞异质性刻画方法 深度学习方法相较于传统机器学习方法的优势在于其能够通过多层次的非线性变换自动学习数据的复杂表示,这使得深度学习在处中国人工智能系列白皮书 21 理高维数据、图像识别、语音识别和自然语言处理等领域表现出色。深度学习能够自动提取和学习有用的特征,无需人工设计或选择特征,减少了对专业知识的依赖。本节我们将探讨基于无监督深度学习的细胞异质性刻画方法,重点关注基于神经网络(Neur

    67、al Network,NN)、自编码器(Autoencoder,AE)及变分自编码器(Variational Autoencoder,VAE)、生成对抗网络(Generative Adversarial Network,GAN)、图神经网络(Graph Neural Network,GNN),以及深度聚类(Deep Clustering,DC)的方法。基于常用的深度神经网络 NN,scVI 聚合单细胞转录组数据中相似细胞和基因的信息,并近似观察到基因表达值的分布25。而scBasset则基于卷积神经网络对 scCAS 数据的染色质开放峰区域对应的 DNA序列进行建模,得到了高质量的 scCAS

    68、 数据低维嵌入表示,刻画细胞表观异质性26。自编码器 AE 是一种通过神经网络进行数据编码和解码的模型,目的是学习数据的隐空间表示。变分自编码器 VAE 是自编码器的一种变体,对数据的隐空间分布进行约束,结合概率生成模型来模拟数据的生成,其中编码器学习数据分布的参数,解码器从这些分布中抽样生成数据。例如,scDHA 利用非负内核自动编码器和堆叠贝叶斯自动编码器实现单细胞转录组数据降维27;scVAE 基于 VAE 估计单细胞转录组数据预期基因表达水平和每个细胞的嵌入表示28;而基于VAE 的方法也被广泛用于学习 scCAS 数据低维嵌入表示,包括BAVARIA29、SCALE30、SCALEX

    69、31、uniPort32和 PeakVI33等。生成对抗网络 GAN 通常由两个神经网络共同组成,一个是生成器(Generator),另一个是判别器(Discriminator)。生成器的目标是生成类似于真实数据的内容,而判别器的目标是判断给定的内容是否来自真实数据。这两个网络在互相竞争的过程中逐渐提高了生成器的生成能力,使得生成的内容更接近真实数据,而判别器则不断提高识中国人工智能系列白皮书 22 别真伪的能力。例如,DR-A 基于对抗变分自编码器的框架(生成对抗网络的一种变体),对单细胞转录组数据进行降维以刻画细胞异质性34;AGImpute 构建自编码器与生成对抗网络相结合的混合深度学习

    70、模型来估算已识别的丢失事件,以填补基因表达矩阵35;scDEC针对 scCAS 数据构建耦合生成对抗网络,学习细胞嵌入表示的同时辨识细胞类型29。相较于传统神经网络,图神经网络 GNN 能有效处理图结构数据,通过节点与其邻居之间的信息传递捕获图的拓扑关系,这使得 GNN在节点分类、图分类和链接预测等任务中表现出色。例如,scGGAN通过图卷积网络学习基因与基因的关系,并通过生成对抗网络学习全局单细胞转录组数据分布以对其进行填补,从而更好地刻画细胞异质性36;scGNN37和 scGNN 2.038分别基于图自编码器和图注意力自编码器对单细胞转录组的基因表达矩阵进行填补;DeepTFni 则针对

    71、scCAS 数据基于变分图自编码器来推断转录因子调控网络39。进一步地,深度聚类 DC 方法通过结合深度学习和聚类算法,采用端到端的训练过程来优化细胞的嵌入表示和聚类质量,其基本思路是使用深度神经网络来提取和学习数据的特征,并结合常用的聚类技术进行聚类。深度聚类能够提升传统聚类方法在复杂数据集上的表现,已被成功用于单细胞组学数据的细胞异质性刻画和细胞类型辨识,例如 scDeepCluster40、DESC41和 scDAC42等。2.3 基于弱监督学习的细胞异质性刻画 尽管无监督学习方法在细胞异质性刻画任务上表现出了良好的效果,但由于传统的无监督学习方法受限于所研究的目标数据本身,仍缺乏足够的

    72、精度。为此,许多现有的方法在刻画细胞异质性的过程中引入了弱监督学习策略,充分利用外部参考数据进行模型训练,以更多的有价值信息作为模型的参考,从而达到更准确的细胞异质性刻中国人工智能系列白皮书 23 画结果。现有的弱监督细胞异质性刻画方法能够有效利用多种不同类型的数据作为参考(图 2-2)。首先,最常见的是利用 Bulk(细胞群)测序数据作为参考,与单细胞测序技术相比,Bulk 数据可能会丢失个体细胞的异质性信息,因为它提供的是细胞群体的整体平均信号。尽管如此,Bulk 数据仍能提供主要细胞类型的异质性信息以指导模型进行细胞异质性刻画。例如,Buenrostro 等人利用 Bulk 转录组数据和

    73、Bulk 染色质开放性数据来验证单细胞测序结果可靠性,挖掘细胞整体基因表达变化并实现了细胞群体生物学过程分析43。通过将 Bulk数据与单细胞数据相结合,能够提供更全面、多尺度的细胞分析视角,为深入理解细胞发育和功能提供更多线索和支持。其次,随着测序技术的发展和公共数据库的积累,公开数据库中已有海量单细胞数据。尽管不同实验条件下得到的不同数据集可能存在系统性差异,但是相同类型的细胞中仍存在一定的相似性。许多现有的方法能够结合其他单细胞数据集作为参考,以实现联合弱监督分析。最后,除测序数据外,多种已知的细胞类型特异性先验知识(如 Marker 基因信息)也可用于弱监督学习。图图 2-2 基于弱监

    74、督学习的细胞异质性刻画方法基于弱监督学习的细胞异质性刻画方法 中国人工智能系列白皮书 24 2.3.1 刻画转录组数据细胞异质性的弱监督学习方法刻画转录组数据细胞异质性的弱监督学习方法 在转录组方面,Li 等人开发了参考成分分析(RCA)方法,并刻画了人类结直肠肿瘤的细胞异质性44。RCA 从 BioGPS45下载了来自 Human U133A/GNF1H 基因图谱和原代细胞图谱的原始 Bulk 转录组数据作为参考数据,将单细胞转录组数据投影到由现有 Bulk 数据创建的全局参考面板上,并获取投影空间中的归一化坐标。结果表明,参考数据引导的聚类有较高的精度,能够有效降低数据中的技术差异和批次效

    75、应对下游分析的影响,而随着可用参考数据集的规模和多样性的扩大,参考数据引导的 RCA 的分辨率也将不断提高。CellAssign是一种统计框架,可将单细胞转录组数据中的细胞分配给已知细胞类型46。CellAssign 通过计算每个细胞到细胞类型(由一组标记基因定义)或“新类”的概率来自动执行注释过程。这种唯一识别细胞类型的标记基因组合可以利用文献和数据库的专业知识建立,也可以直接从PanglaoDB47等资源中获取。scINRB 则是在数据填补过程中引入了Bulk RNA-seq 数据作为参考,即使在高缺失率和高维度的情况下,scINRB 也能准确填补缺失的基因表达值,改善细胞可视化、聚类和轨

    76、迹推断等下游分析效果48。2.3.2 刻画表观组数据细胞异质性的弱监督学习方法刻画表观组数据细胞异质性的弱监督学习方法 在表观组方面,Ji 等人开发了基于 scCAS 数据的顺式调节元件活性预测模型 SCATE49。SCATE 基于人和小鼠两个物种构建了参考Bulk DNase-seq 数据库,该数据库由来自 ENCODE50项目生成的不同细胞类型的归一化 DNase-seq 样本组成。通过使用公开可用的Bulk 数据,模型可以从中捕获稀疏的单细胞数据所无法捕获的宝贵信息。对于不同参考数据的需求,作者提供了接口,使得用户可以灵活地将自己的 Bulk 或伪 Bulk 数据扩充到已有的数据库中,以

    77、获取更精确的参考数据。Chen 等人开发的 RA3 是一种基于概率生成模型的scCAS 数据分析方法51。RA3 可以使用 Bulk ATAC-seq 数据、Bulk 中国人工智能系列白皮书 25 DNase-seq 数据和伪 Bulk 数据作为参考,实现对目标数据的整合分析。对于某些细胞群,特别是对于冷冻或固定组织中的细胞,可能很难获得 Bulk 测序样本,为此,RA3 提供了多种策略用于整合相同类型/聚类簇的单细胞数据来构建伪 Bulk 参考数据,这意味着其他单细胞数据集也可以有效地用于弱监督学习任务。2.3.3 刻画空间转录组细胞异质性的弱监督学习方法刻画空间转录组细胞异质性的弱监督学习

    78、方法 在空间转录组方面,同样发展了多种弱监督学习方法以刻画细胞的空间域异质性。例如,stPlus 是一种基于参考数据的方法,它利用单细胞转录组数据中的信息来增强空间转录组学52。stPlus 的输入是目标空间转录组数据和参考单细胞转录组数据,这些参考数据往往与空间数据相匹配或来自相似的组织。stPlus 可以充分利用参考数据中所有基因的整体信息,而不只局限于与空间转录组数据共享的基因。而 Li 等人开发的 PAST 方法是一种基于变分图卷积自编码器的空间转录组数据处理框架53。模型允许使用者从与目标空间转录组数据来自同一组织的外部空间转录组数据、相似组织的外部空间转录组数据、相似组织的外部单细

    79、胞转录组数据,或目标空间转录组数据本身作为自先验,四个方面来构建参考数据。结合参考数据,PAST 能够准确地刻画细胞的空间域异质性,有效促进空间模式域识别、空间轨迹推断等下游分析。2.4 基于有监督学习的细胞异质性刻画 有监督的细胞异质性刻画是一种利用已知细胞标注信息指导模型识别和区分细胞类型或状态的方法。在此过程中,模型通过从带有细胞类型注释的数据集中学习特征,建立区分各种细胞类型的决策规则。相比于无监督和弱监督学习,有监督学习在刻画细胞异质性上展现出独特优势。首先,有监督学习利用细胞标注信息学习细胞类型的特异性模式,提供更为准确的细胞分类。其次,有监督学习在面对大中国人工智能系列白皮书 2

    80、6 量高维数据时,往往能够找到更加鲁棒的特征表示。目前,基于有监督学习的细胞异质性刻画方法主要分为三大类:基于细胞间相似度的细胞异质性刻画、基于机器学习的细胞异质性刻画以及基于深度学习的细胞异质性刻画(图 2-3)。图图 2-3 基于有监督学习的细胞异质性刻画方法基于有监督学习的细胞异质性刻画方法 2.4.1 基于细胞间相似度的有监督学习方法基于细胞间相似度的有监督学习方法 基于细胞间相似度的细胞异质性刻画本质上依赖于一个核心原则:属于相同类型的不同细胞在基因表达或表观修饰模式等方面具有显著的相似性。为了实现此类方法,首先需要有一个带细胞类型标注信息的数据集作为参考集。针对待标注数据集中的每一

    81、个细胞,通过皮尔逊相关系数、斯皮尔曼秩相关系数及余弦相似度等常用度量计算该细胞与参考数据集内各细胞之间的相似度。最终,每一细胞将被注释为参考集中与其最为相似的细胞所属的细胞类型。目前,已有多种基于细胞间相似度的单细胞转录组数据注释方法。SingleR 通过选择高变基因,并计算待预测细胞与参考集中各个细胞类型的斯皮尔曼相关系数来实现对未知类型的细胞的标注54。CHETAH 算法则通过对参考集构建一个层次化分类树,实现对未标中国人工智能系列白皮书 27 注细胞的精确分类55。该过程首先基于参考单细胞转录组数据建立分类树,明确不同细胞类型之间的层次关系。随后,算法逐一处理输入细胞,通过遍历分类树,根

    82、据细胞的高变基因表达谱与参考集各个细胞类型的高变基因表达谱的相似度进行分类。如果一个细胞在分类过程中的任何阶段未能通过设定的阈值,其分类过程将终止,该细胞将被标记为未分配(位于树顶部)或中间状态(发生在分类树的内部)。通过这一方法,CHETAH 能够在维持高精确度的同时,有效避免对未知或未在参考数据中出现的细胞类型进行错误分类。不同于其他方法基于某个细胞和参考细胞表达谱的相似性这一原理,Cell-ID 使用的是另外一种思路:将某个细胞的特征基因集与表征细胞类型的参考基因集做富集分析,当在某个细胞类型的标记基因集上显著富集时,就将此细胞定义为该细胞类型56。然而,对于单细胞表观组数据而言,其维度

    83、更高、稀疏度更大,直接基于细胞间相似度进行细胞异质性刻画和细胞类型注释变得更加困难。因此,研究人员提出了 AtacAnnoR,旨在通过综合利用 scCAS 数据和单细胞转录组数据,精准地为待标注细胞分配细胞类型标签57。在第一轮注释中,AtacAnnoR 首先识别出细胞类型特异性的全局和邻近标记基因,通过计算待标注细胞与各参考细胞类型的基因表达之间的 Kendalls tau 系数,识别出每个待标注细胞的候选细胞类型标签。第二轮注释中,通过清理和重新分配候选种子细胞的标签,使用加权 k-最近邻(WKNN)算法进一步精确注释细胞类型。2.4.2 基于机器学习的有监督学习方法基于机器学习的有监督学

    84、习方法 然而,基于细胞间相似度的细胞异质性分析方法在处理高维数据时面临挑战,它们往往无法充分考虑变量间的非线性关系,也不具备自动提取复杂特征的能力。相对而言,基于机器学习的方法能够有效处理更为复杂的数据结构,不局限于线性关系,能够识别和学习到细胞异质性的深层次模式,从而构建出更加精准的细胞分类模型。中国人工智能系列白皮书 28 目前,已有多种基于机器学习的单细胞转录组数据细胞类型注释方法。例如,scmap 将待标注数据映射到参考数据集所在隐空间上,并利用 K 近邻算法实现细胞类型的注释58。scPred 则采用奇异值分解来识别具有高预测能力的基因,并使用这些基因训练支持向量机以分类细胞59。G

    85、arnett 利用单细胞转录组数据和预定义的细胞类型特异性标记基因来训练基于广义线性模型的分类器,从而注释细胞类型60。SciBet 通过 E-test 选取对分类重要的基因,并基于这些基因的平均表达值建立每个细胞类型的多项式模型61。在细胞类型分配过程中,SciBet 比较待标注细胞的基因表达谱和不同细胞类型模型的似然函数,以确定最匹配的细胞类型。devCellPy 则引入了 LayerObject 类来组织数据结构,使算法能学习数据集的注释层次,并在该层次结构中为每层训练一个 XGBoost 预测模型,这样可以自动地在正确的层次分支上对细胞亚型进行分类,从而精准地注释细胞类型62。2.4.

    86、3 基于深度学习的有监督学习方法基于深度学习的有监督学习方法 尽管传统机器学习方法在单细胞数据的异质性刻画中取得了一定的成效,但这些机器学习模型通常需要手动选择特征,并且往往对高维数据和噪声敏感。相较于传统机器学习方法,基于深度学习的方法在表征细胞异质性时存在明显优势。深度学习方法通过自动特征学习减少了对先验知识的依赖,并且能从原始数据中直接提取复杂和非线性的特征,因此更适合处理高维与复杂的单细胞数据。近年来,多个基于深度学习的单细胞转录组数据细胞异质性刻画方法相继发表。SuperCT 是第一个不依赖无监督聚类的单细胞转录组数据的深度学习细胞类型辨识方法,它基于全连接神经网络构建模型,并使用二

    87、进制信号表示基因表达水平来进行模型训练63。相较于SuperCT 完全依赖于神经网络,Cell BLAST 额外引入了参考数据,通过采用一个基于神经网络的生成模型,实现了一种高度先进的单细胞转录组数据细胞异质性刻画方法64。该方法利用参考单细胞转录组中国人工智能系列白皮书 29 数据,自适应地学习从高维转录组空间到低维细胞嵌入空间的非线性映射,将待标注细胞映射到与参考细胞相同的低维空间中。接着,Cell BLAST 依赖于低维空间内的后验分布来精确地注释细胞类型。scDeepSort 则是一个基于加权图神经网络框架的预训练细胞类型注释方法65,模型由三个部分组成:用于存储图节点的嵌入层、学习图

    88、结构信息的加权图聚合层和最终输出细胞类型预测结果的线性分类层。通过在多个单细胞转录组数据中进行预训练,scDeepSort 能够实现稳健的细胞类型预测。scBERT 同样是一个预训练模型,受自然语言处理领域的 BERT(Bidirectional Encoder Representation from Transformers)模型的启发,scBERT 将这一基于 Transformer 的双向编码器表示模型应用于单细胞转录组数据66。通过在大量未标记的单细胞转录组数据上进行预训练,scBERT 获得了基因间交互作用的理解,然后将其转移到未训练和用户特定的单细胞转录组数据的细胞类型注释任务上进

    89、行监督微调,实现了稳健且准确的细胞类型注释。TOSICA 是一个基于 Transformer 的多头自注意力深度学习模型,能够使用生物学上的可解释对象(如通路或调控网络)进行可解释的细胞异质性刻画和细胞类型注释67。在单细胞表观遗传组学方面,也有许多基于深度学习刻画细胞异质性的有监督方法。其中,EpiAnno 是针对 scCAS 数据提出的第一个细胞类型自动注释方法,是一个基于贝叶斯神经网络的概率生成模型,在 scCAS 数据的注释上有卓越性能68。RAINBOW 基于对比学习框架构建模型并融入参考数据,可以有效刻画细胞异质性并准确识别数据集中的新细胞类型69。CASCADE 则在全连接神经网

    90、络的基础上引入了仿真策略和基于 Masked Autoencoder 的去噪策略,在连续和不平衡的 scCAS 数据上的注释性能显著优于已有方法70。不同于上述方法,Cellcano 是一个两轮的有监督学习算法,它首先在参考数据集上训练多层感知机,并预测目标数据中的细胞类型,然后从预测结果中中国人工智能系列白皮书 30 选择一些被认为预测良好的目标细胞(称为锚点)组成新的训练集,使用这一带有伪标签的新训练集对知识蒸馏模型进行训练,以对剩余非锚点细胞进行注释,从而缓解了训练数据和目标数据之间的分布偏移问题71。中国人工智能系列白皮书 31 参考文献 1 Wold,S.,Esbensen,K.&G

    91、eladi,P.Principal component analysis.Chemometrics and Intelligent Laboratory Systems,1987,2(1-3):37-52.2 Kiselev,V.Y.,Kirschner,K.,Schaub,M.T.et al.SC3:Consensus clustering of single-cell RNA-seq data.Nature Methods,2017,14(5):483-486.3 Hao,Y.,Stuart,T.,Kowalski,M.H.et al.Dictionary learning for int

    92、egrative,multimodal and scalable single-cell analysis.Nature Biotechnology,2024,42(2):293-304.4 urauskiene,J.&Yau,C.pcaReduce:Hierarchical clustering of single cell transcriptional profiles.BMC Bioinformatics,2016,17(1):1-11.5 Ji,Z.&Ji,H.TSCAN:Pseudo-time reconstruction and evaluation in single-cell

    93、 RNA-seq analysis.Nucleic Acids Research,2016,44(13):e117.6 Cao,J.,Spielmann,M.,Qiu,X.et al.The single-cell transcriptional landscape of mammalian organogenesis.Nature,2019,566(7745):496-502.7 Chen,H.,Albergante,L.,Hsu,J.Y.et al.Single-cell trajectories reconstruction,exploration and mapping of omic

    94、s data with STREAM.Nature Communications,2019,10(1):1-14.8 Prompsy,P.,Kirchmeier,P.,Marsolier,J.et al.Interactive analysis of single-cell epigenomic landscapes with ChromSCape.Nature Communications,2020,11(1):5702.9 Danese,A.,Richter,M.L.,Chaichoompu,K.et al.EpiScanpy:integrated single-cell epigenom

    95、ic analysis.Nature Communications,2021,12(1):5228.10 Linderman,G.C.,Zhao,J.,Roulis,M.et al.Zero-preserving 中国人工智能系列白皮书 32 imputation of single-cell RNA-seq data.Nature Communications,2022,13(1):192.11 Granja,J.M.,Corces,M.R.,Pierce,S.E.et al.ArchR is a scalable software package for integrative singl

    96、e-cell chromatin accessibility analysis.Nature Genetics,2021,53(3):403-411.12 Stuart,T.,Srivastava,A.,Madad,S.et al.Single-cell chromatin state analysis with Signac.Nature Methods,2021,18(11):1333-1341.13 Jain,M.S.,Polanski,K.,Conde,C.D.et al.MultiMAP:dimensionality reduction and integration of mult

    97、imodal data.Genome Biology,2021,22(1):1-26.14 Welch,J.D.,Kozareva,V.,Ferreira,A.et al.Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity.Cell,2019,177(7):1873-1887.e1817.15 Argelaguet,R.,Velten,B.,Arnol,D.et al.Multi-Omics Factor Analysisa framework for unsuper

    98、vised integration of multi-omics data sets.Molecular Systems Biology,2018,14(6):e8124.16 Argelaguet,R.,Arnol,D.,Bredikhin,D.et al.MOFA+:A statistical framework for comprehensive integration of multi-modal single-cell data.Genome Biology,2020,21(1):1-17.17 Zhang,W.,Xue,X.,Zheng,X.et al.NMFLRR:Cluster

    99、ing scRNA-Seq Data by Integrating Nonnegative Matrix Factorization with Low Rank Representation.IEEE Journal of Biomedical and Health Informatics,2022,26(3):1394-1405.18 Li,Z.,Kuppe,C.,Ziegler,S.et al.Chromatin-accessibility estimation from single-cell ATAC-seq data with scOpen.Nature Communications

    100、,2021,12(1):6386.19 Tang,S.,Cui,X.,Wang,R.et al.scCASE:accurate and 中国人工智能系列白皮书 33 interpretable enhancement for single-cell chromatin accessibility sequencing data.Nature Communications,2024,15(1):1629.20 Wang,B.,Zhu,J.,Pierson,E.et al.Visualization and analysis of single-cell rna-seq data by kerne

    101、l-based similarity learning.Nature Methods,2017,14(4):414-416.21 Huh,R.,Yang,Y.,Jiang,Y.et al.SAME-clustering:Single-cell Aggregated Clustering via Mixture Model Ensemble.Nucleic Acids Research,2020,48(1):86-95.22 Zamanighomi,M.,Lin,Z.,Daley,T.et al.Unsupervised clustering and epigenetic classificat

    102、ion of single cells.Nature Communications,2018,9(1):2410.23 Bravo Gonzlez-Blas,C.,Minnoye,L.,Papasokrati,D.et al.cisTopic:cis-regulatory topic modeling on single-cell ATAC-seq data.Nature Methods,2019,16(5):397-400.24 Kapourani,C.A.&Sanguinetti,G.Melissa:Bayesian clustering and imputation of single-

    103、cell methylomes.Genome Biology,2019,20(1):61.25 Lopez,R.,Regier,J.,Cole,M.B.et al.Deep generative modeling for single-cell transcriptomics.Nature Methods,2018,15(12):1053-1058.26 Yuan,H.&Kelley,D.R.scBasset:sequence-based modeling of single-cell ATAC-seq using convolutional neural networks.Nature Me

    104、thods,2022,19(9):1088-1096.27 Tran,D.,Nguyen,H.,Tran,B.et al.Fast and precise single-cell data analysis using a hierarchical autoencoder.Nature Communications,2021,12(1):1029.28 Grnbech,C.H.,Vording,M.F.,Timshel,P.N.et al.ScVAE:中国人工智能系列白皮书 34 Variational auto-encoders for single-cell gene expression

    105、 data.Bioinformatics,2020,36(16):4415-4422.29 Liu,Q.,Chen,S.,Jiang,R.et al.Simultaneous deep generative modelling and clustering of single-cell genomic data.Nature Machine Intelligence,2021,3(6):536-544.30 Xiong,L.,Xu,K.,Tian,K.et al.SCALE method for single-cell ATAC-seq analysis via latent feature

    106、extraction.Nature Communications,2019,10(1):2410.31 Xiong,L.,Tian,K.,Li,Y.et al.Online single-cell data integration through projecting heterogeneous datasets into a common cell-embedding space.Nature Communications,2022,13(1):6118.32 Cao,K.,Gong,Q.,Hong,Y.et al.A unified computational framework for

    107、single-cell data integration with optimal transport.Nature Communications,2022,13(1):7419.33 Ashuach,T.,Reidenbach,D.A.,Gayoso,A.et al.PeakVI:A deep generative model for single-cell chromatin accessibility analysis.Cell Reports Methods,2022,2(3):34 Lin,E.,Mukherjee,S.&Kannan,S.A deep adversarial var

    108、iational autoencoder model for dimensionality reduction in single-cell RNA sequencing analysis.BMC Bioinformatics,2020,21(1):1-11.35 Zhu,X.,Meng,S.,Li,G.et al.AGImpute:imputation of scRNA-seq data based on a hybrid GAN with dropouts identification.Bioinformatics,2024,40(2):btae068.36 Huang,Z.,Wang,J

    109、.,Lu,X.et al.scGGAN:single-cell RNA-seq imputation by graph-based generative adversarial network.Briefings in Bioinformatics,2023,24(2):bbad040.37 Wang,J.,Ma,A.,Chang,Y.et al.scGNN is a novel graph neural 中国人工智能系列白皮书 35 network framework for single-cell RNA-Seq analyses.Nature Communications,2021,12

    110、(1):1882.38 Gu,H.,Cheng,H.,Ma,A.et al.scGNN 2.0:a graph neural network tool for imputation and clustering of single-cell RNA-Seq data.Bioinformatics(Oxford,England),2022,38(23):5322-5325.39 Li,H.,Sun,Y.,Hong,H.et al.Inferring transcription factor regulatory networks from single-cell ATAC-seq data ba

    111、sed on graph neural networks.Nature Machine Intelligence,2022,4(4):389-400.40 Tian,T.,Wan,J.,Song,Q.et al.Clustering single-cell RNA-seq data with a model-based deep learning approach.Nature Machine Intelligence,2019,1(4):191-198.41 Li,X.,Wang,K.,Lyu,Y.et al.Deep learning enables accurate clustering

    112、 with batch effect removal in single-cell RNA-seq analysis.Nature Communications,2020,11(1):2338.42 An,S.,Shi,J.,Liu,R.et al.scDAC:deep adaptive clustering of single-cell transcriptomic data with coupled autoencoder and dirichlet process mixture model.Bioinformatics,2024,btae198.43 Buenrostro,J.D.,C

    113、orces,M.R.,Lareau,C.A.et al.Integrated Single-Cell Analysis Maps the Continuous Regulatory Landscape of Human Hematopoietic Differentiation.Cell,2018,173(6):1535-1548.e1516.44 Li,H.,Courtois,E.T.,Sengupta,D.et al.Reference component analysis of single-cell transcriptomes elucidates cellular heteroge

    114、neity in human colorectal tumors.Nature Genetics,2017,49(5):708-718.45 Wu,C.,Orozco,C.,Boyer,J.et al.BioGPS:An extensible and customizable portal for querying and organizing gene annotation resources.Genome Biology,2009,10(11):1-8.中国人工智能系列白皮书 36 46 Zhang,A.W.,OFlanagan,C.,Chavez,E.A.et al.Probabilis

    115、tic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling.Nature Methods,2019,16(10):1007-1015.47 Franzn,O.,Gan,L.M.&Bjrkegren,J.L.M.PanglaoDB:A web server for exploration of mouse and human single-cell RNA sequencing data.Database,2019,2019(1):baz046.48 Kang,Y.,Zhang,H.&G

    116、uan,J.scINRB:single-cell gene expression imputation with network regularization and bulk RNA-seq data.Briefings in Bioinformatics,2024,25(3):bbae148.49 Ji,Z.,Zhou,W.,Hou,W.et al.Single-cell ATAC-seq signal extraction and enhancement with SCATE.Genome Biology,2020,21(1):1-36.50 Luo,Y.,Hitz,B.C.,Gabda

    117、nk,I.et al.New developments on the Encyclopedia of DNA Elements(ENCODE)data portal.Nucleic Acids Research,2020,48(D1):D882-D889.51 Chen,S.,Yan,G.,Zhang,W.et al.RA3 is a reference-guided approach for epigenetic characterization of single cells.Nature Communications,2021,12(1):2177.52 Shengquan,C.,Boh

    118、eng,Z.,Xiaoyang,C.et al.StPlus:A reference-based method for the accurate enhancement of spatial transcriptomics.Bioinformatics,2021,37(Supplement_1):I299-I307.53 Li,Z.,Chen,X.,Zhang,X.et al.Latent feature extraction with a prior-based self-attention framework for spatial transcriptomics.Genome Resea

    119、rch,2023,33(10):1757-1773.54 Aran,D.,Looney,A.P.,Liu,L.et al.Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage.Nature Immunology,2019,20(2):163-172.中国人工智能系列白皮书 37 55 de Kanter,J.K.,Lijnzaad,P.,Candelli,T.et al.CHETAH:a selective,hierarchical cell t

    120、ype identification method for single-cell RNA sequencing.Nucleic Acids Research,2019,47(16):E95.56 Cortal,A.,Martignetti,L.,Six,E.et al.Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID.Nature Biotechnology,2021,39(9):1095-1102.57 Tian,L.,Xie,Y.,Xie,Z.et a

    121、l.AtacAnnoR:a reference-based annotation tool for single cell ATAC-seq data.Briefings in Bioinformatics,2023,24(5):bbad268.58 Kiselev,V.Y.,Yiu,A.&Hemberg,M.Scmap:Projection of single-cell RNA-seq data across data sets.Nature Methods,2018,15(5):359-362.59 Alquicira-Hernandez,J.,Sathe,A.,Ji,H.P.et al.

    122、ScPred:Accurate supervised method for cell-type classification from single-cell RNA-seq data.Genome Biology,2019,20(1):1-17.60 Pliner,H.A.,Shendure,J.&Trapnell,C.Supervised classification enables rapid annotation of cell atlases.Nature Methods,2019,16(10):983-986.61 Li,C.,Liu,B.,Kang,B.et al.SciBet

    123、as a portable and fast single cell type identifier.Nature Communications,2020,11(1):1818.62 Galdos,F.X.,Xu,S.,Goodyer,W.R.et al.devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data.Nature Communications,2022,13(1):5271.63 X

    124、ie,P.,Gao,M.,Wang,C.et al.SuperCT:A supervised-learning framework for enhanced characterization of single-cell transcriptomic profiles.Nucleic Acids Research,2019,47(8):e48-e48.中国人工智能系列白皮书 38 64 Cao,Z.J.,Wei,L.,Lu,S.et al.Searching large-scale scRNA-seq databases via unbiased cell embedding with Cel

    125、l BLAST.Nature Communications,2020,11(1):3458.65 Shao,X.,Yang,H.,Zhuang,X.et al.ScDeepSort:A pre-trained cell-type annotation method for single-cell transcriptomics using deep learning with a weighted graph neural network.Nucleic Acids Research,2021,49(21):E122.66 Yang,F.,Wang,W.,Wang,F.et al.scBERT

    126、 as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data.Nature Machine Intelligence,2022,4(10):852-866.67 Chen,J.,Xu,H.,Tao,W.et al.Transformer for one stop interpretable cell type annotation.Nature Communications,2023,14(1):223.68 Chen,X.,Chen,S.,Song,S

    127、.et al.Cell type annotation of single-cell chromatin accessibility data via supervised Bayesian embedding.Nature Machine Intelligence,2022,4(2):116-126.69 Li,S.,Tang,S.,Wang,Y.et al.Accurate cell type annotation for single-cell chromatin accessibility data via contrastive learning and reference guid

    128、ance.Quantitative Biology,2024,12(1):85-99.70 Jia,Y.,Li,S.,Jiang,R.et al.Accurate Annotation for Differentiating and Imbalanced Cell Types in Single-cell Chromatin Accessibility Data.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2024,1-11.71 Ma,W.,Lu,J.&Wu,H.Cellcano:supervised c

    129、ell type identification for single cell ATAC-seq data.Nature Communications,2023,14(1):1864.中国人工智能系列白皮书 39 第 3 章 人工智能赋能疾病诊疗 3.1 引言 随着全球人口的增长和老龄化趋势的加剧,医疗资源的短缺和医疗成本的上升成为各国面临的重大挑战。根据世界卫生组织(World Health Organization,WHO)的数据,预计到 2030 年,全球将有六分之一的人口超过 60 岁,这将对医疗系统的可持续性和效率带来巨大压力1。与此同时,复杂疾病如癌症、心血管疾病等的发病率不断上升

    130、,迫切要求医疗服务向更加精准和个性化的方向发展。如图 3-1 所示,传统的医疗模式已经难以满足日益增长的健康需求,特别是在大数据时代,传统的手工处理和分析方法已经无法有效处理海量的医疗数据。因此,医疗行业迫切需要新的技术和方法来提升诊疗效率和效果,同时降低成本,更好地满足人们对健康管理的需求。人工智能(Artificial Intelligence,AI)凭借其强大的数据处理和分析能力,在医疗领域展现出巨大的潜力。AI 技术能够从多种数据源中提取、分析和利用信息,为医生和医疗机构提供决策支持和个性化治疗方案。研究表明,AI 在癌症早期诊断、药物研发、病理图像分析等领域取得了显著进展,为医疗行业

    131、带来新的希望和机遇2。图图 3-1 传统医疗模式与人工智能赋能医疗模式的比较传统医疗模式与人工智能赋能医疗模式的比较(图片(图片引引自自 )中国人工智能系列白皮书 40 3.2 关键技术和应用 3.2.1 机器学习与深度学习机器学习与深度学习 机器学习(Machine Learning,ML)是人工智能的核心技术之一,通过算法和模型从数据中学习规律和模式,从而进行预测和决策。传统机器学习算法有许多形式,大多数被设计用于处理表格数据,其中每个数据点都有一组明确的特征(例如,病人的年龄或基因突变状态),用于预测标签3。如图 3-2 所示,其中一种常见的算法称为随机森林(Random Forest,

    132、RF),它由一组决策树组成,每棵树基于训练数据构建,对输入特征进行一系列二进制决策,最终预测数据点的标签。另一个算法是支持向量机(Support Vector Machines,SVM),它在由输入特征定义的坐标系中学习一条直线(或多维空间中的超平面),将数据点分成两类。回归模型则通过学习输入特征的线性组合来预测连续标签(例如,线性回归(Linear Regression)或二元标签(例如,逻辑回归(Logistic Regression)。在医疗领域,机器学习可以应用于疾病预测、患者风险评估和个性化治疗方案的制定4。例如,一些基于机器学习的模型可以分析海量的临床数据和生物标志物,辅助医生精确

    133、预测患者患病风险,从而促进早期干预5-7。图图 2 常见的机器学习模型(改编自常见的机器学习模型(改编自8)中国人工智能系列白皮书 41 随着图形处理单元(Graphics Processing Unit,GPU)的广泛应用和性能提升,深度学习(Deep Learning,DL)作为机器学习的一个重要分支,已经在许多预测任务中逐步取代传统机器学习方法。DL 模型的核心组件是神经网络,它由一个或多个层次的单元组成,这些单元称为神经元,它们计算输入的加权和,然后应用非线性函数,生成一种称为嵌入(Embedding)的输入表示,最终用于预测输出。与传统机器学习模型相比,DL 模型具有更强的灵活性,并

    134、减少了对特征工程的依赖,因此它们擅长处理复杂的大数据和更广泛的非结构化数据类型,包括图像、文本和语音等8。然而,DL 模型通常需要更多的训练数据,这使得传统的机器学习模型在数据资源受限或处理表格数据的任务中仍然发挥着不可或缺的作用。为了处理非表格数据,神经网络的架构(例如,神经元或层次或神经元之间的连接数)被修改以适应所需的数据类型。如图 3-2 所示,卷积神经网络(Convolutional Neural Networks,CNN)主要用于提取图像特征。图神经网络(Graph Neural Networks,GNN)处理图数据,例如细胞-细胞相互作用图9或者药物分子结构10。递归神经网络(R

    135、ecurrent Neural Networks,RNN)和 Transformer 网络则分析顺序数据,例如遗传序列或图像序列。这些模型类别中的每个都有许多特定的模型架构,例如基于 CNN 的ResNet11或 U-Net12以及基于 RNN 的 LSTM13或 GRU14。综上所述,深度学习技术的快速发展和应用,正在为人工智能赋能疾病诊疗领域带来前所未有的机遇和挑战。3.2.2 自然语言处理技术自然语言处理技术 自然语言处理(Natural Language Processing,NLP)技术使计算机能够理解、处理和生成自然语言文本。在生物医学领域,NLP 的应用尤为广泛,特别是在处理电子

    136、健康记录(Electronic Health Record,EHR)、医学文献和生物医学文本数据的分析中。例如,BioBERT15和 BlueBERT16模型都是基于 BERT17架构,专门为大规模生物医学中国人工智能系列白皮书 42 数据的预训练而设计。BioBERT 在命名实体识别(Named Entity Recognition,NER)、关系提取和问答系统等多种生物医学 NLP 任务中展现了显著的性能提升。BlueBERT 则通过在生物医学文献和临床记录的混合数据上进行训练,进一步强化了其处理临床和生物医学文本任务中的能力。此外,基于 GPT19架构的 BioGPT18专注于生物医学文

    137、本生成和理解。通过在广泛的生物医学语料库上的预训练,BioGPT 在生成相关领域文本和解答生物医学问题上表现出色。NLP技术的应用使得医疗机构能够高效地从庞大复杂的医疗文本中自动提取关键信息,为临床决策和个性化治疗方案的制定提供重要支持20。3.2.3 医疗图像分析技术医疗图像分析技术 医疗图像分析技术借助深度学习算法实现了对医学影像的自动化分析和解读。在基于图像的癌症预测任务中,典型的机器学习工作流程如图 3-3 所示。这些算法能够精准识别各类医学影像(如 X 线摄影(X-ray)、超声影像(Ultrasound)、计算机断层成像(Computed Tomography,CT)、磁共振成像(

    138、Magnetic resonance imaging,MRI)以及正电子发射计算机断层显像(Positron Emission Tomography,PET)等)中的病变特征和异常,辅助医生进行更精确的诊断和治疗规划21。图图 3-3 基于图像的癌症预测任务的通用机器学习模型工作流程(改编自基于图像的癌症预测任务的通用机器学习模型工作流程(改编自8)在这些技术中,深度学习模型的设计对医疗图像分割任务尤为重要。以U-Net为代表经典的CNN模型专为生物医学图像分割而设计,展现了极高的适用性和准确性。U-Net 以独特的 U 形结构而著称,该结构利用下采样路径捕捉图像的全局上下文信息,并通过上采样

    139、路径中国人工智能系列白皮书 43 实现细节的精细分割。U-Net 通过跳跃连接技术,将下采样路径中的特征图与上采样路径中的特征图融合,以保留高分辨率的特征信息12。例如,在肺部 CT 扫描中,U-Net 可以有效识别和分割出肺结节,为早期肺癌诊断提供支持22。与 U-Net 类似,V-Net 采用对称的编码器-解码器结构,其中编码器通过卷积和下采样提取图像特征,而解码器则通过反卷积和上采样生成分割结果。V-Net 特别使用 Dice 损失函数进行优化,使其在处理不平衡数据集时具有独特优势23。例如,在前列腺 MRI 图像中,V-Net 能够精确分割前列腺边界和内部结构24。此外,nnU-Net

    140、25和 Attention U-Net26在 U-Net 基础上分别引入了自适应模块和注意力机制。nnU-Net 通过自动化配置简化了参数调整过程,在多种任务中均展现出优秀的分割性能。在 BraTS2021 挑战中,nnU-Net 以卓越的脑肿瘤分割性能脱颖而出27。而 Attention U-Net 能够动态调整特征图的权重,专注于关键图像区域,进一步提高了分割的精度度。总体而言,基于深度学习的医疗图像分析系统在乳腺癌28-29、肺癌30-31等众多疾病的早期筛查中已经取得了显著进展,为疾病的精准诊断和治疗开辟了新路径。3.2.4 知识图谱与数据整合技术知识图谱与数据整合技术 知识图谱是一种

    141、高效的结构化知识表示方法,能够精确捕捉并整合广泛的医学知识,从而帮助医生更好地理解疾病的复杂性和治疗选项。这种技术通过整合多源数据,包括基因组学数据、临床记录数据、病理报告数据等,将这些信息关联起来形成全面的疾病模型。例如,知识图谱可以将患者的遗传信息和临床症状相结合,揭示特定基因变异与疾病之间的关联,为个性化医疗提供科学依据,并指导制定针对性的治疗方案。此外,知识图谱在智能化医疗决策中扮演着关键角色。它利用自动化推理和先进的推荐系统,根据最新的医学研究和临床实践指南,为医生提供及时的、基于证据的诊疗建议。这种智能化支持不仅优化了治疗流程,还显著提升了医疗服务的整体质量32-33。除此中国人工

    142、智能系列白皮书 44 之外,如图 3-4 所示,知识图谱在医学研究和药物开发领域同样发挥着不可或缺的作用。通过对海量文献和临床试验数据的深入分析,知识图谱有助于识别新的疾病相关性、潜在的药物靶点以及创新的治疗策略。这种分析能力极大地加速了新药研发的进程,为医学界带来了前所未有的研究动力和创新潜力34。图图 3-4 基于知识图谱的药物发现预测流程(改编自基于知识图谱的药物发现预测流程(改编自35)3.2.5 生命科学领域的基础模型生命科学领域的基础模型 生命科学领域大模型通常结合了多种生物医学数据(如基因组学、转录组学、蛋白质组学等),利用机器学习和深度学习技术进行综合分析。然而,与图像和文本数

    143、据相比,解码生命“语言”是一项更为复杂的任务,这一过程需要依赖大量生物学数据来建立数据间的联系。特别是在研究罕见疾病或在难以直接获取组织样本的情况下,这一任务的复杂性进一步增加。中国人工智能系列白皮书 45 迁移学习(Transfer Learning)为这一挑战提供了解决路径。通过在大规模通用数据集上预训练深度学习模型,并将其针对特定任务的有限数据进行微调,迁移学习策略使模型能够快速适应新的任务并支持多样化的下游应用。此外,基础模型(Foundation Models)已经在自然语言处理领域和计算机视觉领域取得了重大进展,并证明了其跨领域的适用性。如图 3-5 和图 3-6 所示,这些模型在

    144、蛋白质设计领域和单细胞转录组学领域显示出巨大发展潜力,为我们深入理解生命复杂性提供了全新视角和强有力的工具。图图 3-5 蛋白质蛋白质设计领域相关设计领域相关模型的发展历程模型的发展历程 图图 3-6 单细胞单细胞转录组学领域相关转录组学领域相关模型的发展历程模型的发展历程 在蛋白质结构预测领域,DeepMind 开发的 AlphaFold 模型36通中国人工智能系列白皮书 46 过在大量已知蛋白质结构数据上的训练,利用深度学习技术显著提升了蛋白质三维结构预测的准确性。这一突破为理解蛋白质功能、药物设计和疾病机制提供了重要的工具。此外,AlphaFold37在罕见疾病研究中也展现了卓越的能力,

    145、通过预测与疾病相关的蛋白质结构,揭示了潜在的治疗靶点。例如,在遗传性疾病如囊性纤维化和亨廷顿舞蹈症的研究中,AlphaFold 的应用为揭示疾病的分子机制和寻找有效的药物候选分子提供了全新的视角。这种技术的进步不仅大幅提高了研究效率,还显著减少了传统实验方法的高昂成本,为全球生物医学研究带来了深远的影响。在单细胞转录组学领域,一系列单细胞转录组大模型如Geneformer38、scGPT39、scFoundation40、GeneCompass41等相继出现,预示着人工智能在生物医学领域的广泛应用和深远影响。这些模型通过在大规模的细胞转录组学数据上的预训练,具备强大的数据理解和处理能力,并在多

    146、种生物医学任务中实现出色的性能。例如,Geneformer 在有限患者数据的疾病建模中,成功识别出了心肌病的候选治疗靶点,加速研究人员发现关键网络调控因子和潜在治疗靶点。这一发现对于心脏病患者的精准诊断和个性化治疗至关重要,标志着AI 技术在疾病预防和治疗中的潜力。scFoundation 结合了 xTrimoGene架构和测序深度感知任务(Read-depth-aware,RDA),为细胞扰动响应预测、药物靶点发现等领域带来了创新的工具和方法,探索并推动了单细胞领域基础模型的边界(图 3-7)。这些模型的出现和应用标志着人工智能技术在生物医学研究中的日益成熟,为未来的科学探索和临床实践开辟了

    147、新的可能性。中国人工智能系列白皮书 47 图图 3-7 scFoundation 模型的部分下游应用(摘自模型的部分下游应用(摘自40)3.3 展望 尽管人工智能在医疗领域展现出巨大的潜力,但仍面临诸多挑战。首先,生物医学数据质量和隐私保护是亟需解决的核心问题。医疗数据涉及患者的敏感信息,任何数据泄露都可能导致严重的后果。因此,医疗机构在数据收集、存储和处理过程中必须严格遵守相关法律法规,如 GDPR(通用数据保护条例)和 HIPAA(健康保险携带与责任法案),并加强数据安全措施,确保患者隐私得到保护。其次,人工智能模型的可解释性和在不同环境下的适应能力也限制了其在临床实践中的广泛应用。尽管

    148、AI 在数据分析和预测方面展现了卓越的性能,但其“黑箱”特性使得医生和患者难以理解其决策过程。医生和患者需要对 AI 模型的诊断结果和治疗建议有充分的信任,而这种信任的建立依赖于对 AI 决策依据的透明化和可解释性。因此,提高 AI 模型的可解释性,采用如 LIME(局部可解释模型)和 SHAP(Shapley 值)等技术,提高模型的透明度,是当前研究的一个重要方向。此外,AI 模型的适应能力也是一个关键问题,医疗环境的多样性和患者个体差异要求 AI 系统能够灵活适应不同的临床情境,这对AI 模型的普适性和可靠性提出了更高的要求。尽管如此,这些挑战背后也潜藏着巨大的机遇。人工智能可以通中国人工

    149、智能系列白皮书 48 过个性化治疗和预测,结合个体的基因组数据、生活方式特征和疾病历史,为每位患者量身定制最有效的治疗方案。这种精准医疗不仅可以提高治疗效果,还能减少不必要的治疗,降低医疗成本,同时帮助患者获得更好的治疗体验。同时,结合图像识别和自然语言处理技术,人工智能能够帮助医生在疾病的早期阶段进行迅速而准确的诊断。例如,通过智能影像分析,AI 可以帮助检测乳腺癌、肺癌等疾病的早期症状,提高早期筛查的效率和准确性,从而显著改善治疗效果和患者生存率。此外,通过远程医疗服务和智能化的健康管理系统,人工智能还能极大地扩展医疗服务的覆盖范围,从而打破时间和地域的限制,为偏远地区的患者提供高质量的医

    150、疗服务。这一技术不仅能够改善基层医疗服务的质量,还能够通过数据的集成和智能化管理,提高全球医疗资源的利用效率。通过这些努力,我们有望在未来完成跨学科的合作和技术整合,促进生物医学数据的整合和共享,推动新技术的创新和应用实现更加智能化和个性化的医疗健康服务,为全球范围内的患者带来更好的健康成果和生活质量。中国人工智能系列白皮书 49 参考文献 1 Wilmoth J R,Bas D,Mukherjee S,et al.World social report 2023:Leaving no one behind in an ageing worldM.UN,2023.2 Murali N,Siva

    151、kumaran N.Artificial intelligence in healthcarea reviewJ.2018.3 Boehm K M,Khosravi P,Vanguri R,et al.Harnessing multimodal data integration to advance precision oncologyJ.Nature Reviews Cancer,2022,22(2):114-126.4 Hosny A,Parmar C,Quackenbush J,et al.Artificial intelligence in radiologyJ.Nature Revi

    152、ews Cancer,2018,18(8):500-510.5 Janssen B V,Verhoef S,Wesdorp N J,et al.Imaging-based machine-learning models to predict clinical outcomes and identify biomarkers in pancreatic cancer:a scoping reviewJ.Annals of surgery,2022,275(3):560-567.6 Jin T,Nguyen N D,Talos F,et al.ECMarker:interpretable mach

    153、ine learning model identifies gene expression biomarkers predicting clinical outcomes and reveals molecular mechanisms of human disease in early stagesJ.Bioinformatics,2021,37(8):1115-1124.7 Jiang Y Z,Ma D,Jin X,et al.Integrated multiomic profiling of breast cancer in the Chinese population reveals

    154、patient stratification and therapeutic vulnerabilitiesJ.Nature Cancer,2024,5(4):673-690.8 Swanson K,Wu E,Zhang A,et al.From patterns to patients:Advances in clinical machine learning for cancer diagnosis,prognosis,and treatmentJ.Cell,2023,186(8):1772-1791.9 Armingol E,Baghdassarian H M,Lewis N E.The

    155、 diversification of methods for studying cellcell interactions and communicationJ.Nature Reviews Genetics,2024,25(6):381-400.中国人工智能系列白皮书 50 10 Xiong J,Xiong Z,Chen K,et al.Graph neural networks for automated de novo drug designJ.Drug discovery today,2021,26(6):1382-1393.11 He K,Zhang X,Ren S,et al.D

    156、eep residual learning for image recognitionC/Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.12 Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks for biomedical image segmentationC/Medical image computing and computer-assisted interventionMICCAI 2

    157、015:18th international conference,Munich,Germany,October 5-9,2015,proceedings,part III 18.Springer International Publishing,2015:234-241.13 Hochreiter S,Schmidhuber J.Long short-term memoryJ.Neural computation,1997,9(8):1735-1780.14 Cho K,Van Merrinboer B,Gulcehre C,et al.Learning phrase representat

    158、ions using RNN encoder-decoder for statistical machine translationJ.arXiv preprint arXiv:1406.1078,2014.15 Lee J,Yoon W,Kim S,et al.BioBERT:a pre-trained biomedical language representation model for biomedical text miningJ.Bioinformatics,2020,36(4):1234-1240.16 Peng Y,Yan S,Lu Z.Transfer learning in

    159、 biomedical natural language processing:an evaluation of BERT and ELMo on ten benchmarking datasetsJ.arXiv preprint arXiv:1906.05474,2019.17 Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understandingJ.arXiv preprint arXiv:1810.04805,2018.18 Luo R,S

    160、un L,Xia Y,et al.BioGPT:generative pre-trained transformer for biomedical text generation and miningJ.Briefings in 中国人工智能系列白皮书 51 bioinformatics,2022,23(6):bbac409.19 Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-trainingJ.2018.20 Hossain E,Rana R,Higgins

    161、 N,et al.Natural language processing in electronic health records in relation to healthcare decision-making:a systematic reviewJ.Computers in biology and medicine,2023,155:106649.21 Zhou T,Dong Y,Huo B,et al.U-Net and its applications in medical image segmentation:a reviewJ.Journal of Image and Grap

    162、hics,2021,26(9):2058-2077.22 钟思华,郭兴明,郑伊能.改进 U-Net 网络的肺结节分割方法J.Journal of Computer Engineering&Applications,2020,56(17).23 Milletari F,Navab N,Ahmadi S A.V-net:Fully convolutional neural networks for volumetric medical image segmentationC/2016 fourth international conference on 3D vision(3DV).Ieee,20

    163、16:565-571.24 Aldoj N,Biavati F,Michallek F,et al.Automatic prostate and prostate zones segmentation of magnetic resonance images using DenseNet-like U-netJ.Scientific reports,2020,10(1):14315.25 Isensee F,Jaeger P F,Kohl S A A,et al.nnU-Net:a self-configuring method for deep learning-based biomedic

    164、al image segmentationJ.Nature methods,2021,18(2):203-211.26 Oktay O,Schlemper J,Folgoc L L,et al.Attention u-net:Learning where to look for the pancreasJ.arXiv preprint arXiv:1804.03999,2018.27 Luu H M,Park S H.Extending nn-UNet for brain tumor 中国人工智能系列白皮书 52 segmentationC/International MICCAI brain

    165、lesion workshop.Cham:Springer International Publishing,2021:173-186.28 王一凡,刘静,马金刚,等.深度学习在乳腺癌影像学检查中的应用进展J.Journal of Frontiers of Computer Science&Technology,2024,18(2).29 王彤,何萍,苏畅,等.计算机辅助多模态融合超声诊断乳腺良恶性肿瘤J.中国医学影像技术,2021,37(8):1210-3.30 Alshmrani G M M,Ni Q,Jiang R,et al.A deep learning architecture f

    166、or multi-class lung diseases classification using chest X-ray(CXR)imagesJ.Alexandria Engineering Journal,2023,64:923-935.31 Hroub N A,Alsannaa A N,Alowaifeer M,et al.Explainable deep learning diagnostic system for prediction of lung disease from medical imagesJ.Computers in Biology and Medicine,2024

    167、,170:108012.32 Chandak P,Huang K,Zitnik M.Building a knowledge graph to enable precision medicineJ.Scientific Data,2023,10(1):67.33 Peng C,Xia F,Naseriparsa M,et al.Knowledge graphs:Opportunities and challengesJ.Artificial Intelligence Review,2023,56(11):13071-13102.34 Bonner S,Barrett I P,Ye C,et a

    168、l.A review of biomedical datasets relating to drug discovery:a knowledge graph perspectiveJ.Briefings in Bioinformatics,2022,23(6):bbac404.35 Zeng X,Tu X,Liu Y,et al.Toward better drug discovery with knowledge graphJ.Current opinion in structural biology,2022,72:114-126.36 Jumper J,Evans R,Pritzel A

    169、,et al.Highly accurate protein 中国人工智能系列白皮书 53 structure prediction with AlphaFoldJ.nature,2021,596(7873):583-589.37 Huang B,Kong L,Wang C,et al.Protein structure prediction:challenges,advances,and the shift of research paradigmsJ.Genomics,Proteomics&Bioinformatics,2023,21(5):913-925.38 Theodoris C V

    170、,Xiao L,Chopra A,et al.Transfer learning enables predictions in network biologyJ.Nature,2023,618(7965):616-624.39 Cui H,Wang C,Maan H,et al.scGPT:toward building a foundation model for single-cell multi-omics using generative AIJ.Nature Methods,2024:1-11.40 Hao M,Gong J,Zeng X,et al.Large-scale foun

    171、dation model on single-cell transcriptomicsJ.Nature Methods,2024:1-11.41 Yang X,Liu G,Feng G,et al.Genecompass:Deciphering universal gene regulatory mechanisms with knowledge-informed cross-species foundation modelJ.bioRxiv,2023:2023.09.26.559542中国人工智能系列白皮书 54 第 4 章 人工智能助力医疗文本处理 4.1 医疗大数据简介及分类 医疗大数据

    172、是指在与人类健康相关的活动中产生的与生命健康和医疗相关的数据。随着医疗信息技术的快速发展,医疗数据的生成速度和数量呈指数级增长。从数据的来源来说,可以分为临床大数据、健康大数据、生物大数据、运营大数据等。医疗大数据的形式常见的有 3 种:分类数据、序列数据、连续数据。分类数据比如病人的性别,是否使用某种治疗等,这类数据没有内在排序。序列数据是有明确排序的数据,比如血压值、血糖值等,除了排序性,这些数据之间可能还有距离,例如一个人过去 3 天的血压值,每一天就是等距。连续数据不仅是有序的,数据的自变量也是连续的,比如年龄、血压、体重等。从数据格式上,医疗数据通常可以分为结构化数据和非结构化数据两

    173、类,它们在医疗信息管理中都扮演着重要角色。结构化数据是指可以直接存储和处理的数据,通常以表格或数据库的形式存在,具有明确定义的字段和格式,例如,患者基本信息、实验室检查数据等。非结构化数据则是指没有固定格式或字段,难以通过传统的数据库或表格进行处理和分析的数据类型。例如,电子病历、影像数据等。这些非结构化数据包含了丰富的临床信息,但要想进行系统化的分析和利用,需要借助自然语言处理(NLP)、图像分析等技术来提取和理解其中的内容。医疗大数据不仅为医疗决策和研究提供了宝贵资源,同时也带来了数据处理和分析上的挑战。近年来,移动互联网、大数据、云计算等多项技术与各类医疗领域大数据不断跨界融合,相关的新

    174、技术应用于医疗行业的各个环节中,并且国家也出台了多项扶持政策。人工智能(AI)作为一种强大的技术工具,正在改变医疗大数据处理的方式中国人工智能系列白皮书 55 和效率。4.2 医疗文本自然语言处理 影像学报告、电子病历、出院小结等都为重要的医疗健康大数据资源,不仅是医疗实践中的核心文档,也是连接医疗保健各个方面的桥梁。在国家推行使用电子病历和电子影像学报告的背景下,这些医疗文本中丰富的信息资源可以服务于临床实践、临床研究等1,2。但是目前大部分医疗文本为非结构化数据,给临床研究带来了困难。随着电子医疗文本的普及和医疗大数据时代的到来,将人工智能方法应用于非结构化医疗文本的自然语言处理问题,已成

    175、为当前的研究热点。自然语言处理是从医疗文本中提取有用信息的关键技术。基于自然语言处理的医疗文本处理流程主要有句子边界识别、分词、共指消解、词性标记、句法分析、实体识别等。由于临床信息的复杂性和灵活性,影像学报告、电子病历、出院小结等医疗文本以自由文本(Free Text)的方式来记录,多为非结构化。通过自然语言处理,这些非结构化的医疗文本被转化为包含重要医学信息的结构化数据,后续可进行的病人聚类、临床辅助诊疗等研究分析3,4。在美国,临床医学领域的自然语言处理研究可追溯到 20 世纪 60年代,早期研究在有限的电子医疗文本中验证了可行性。自 20 世纪80 年代以来,大量医学领域的知识库逐渐建

    176、立起来。例如 SNOMED CT 是被广泛应用的临床医学术语知识库之一5,UMLS(The Unified Medical Language System)是一体化的医学信息系统,它通过建立超级词表来统一医学术语概念,集成了 150 多种常用医学术语知识库6。随后,又出现了大量的临床医学自然语言系统,代表性的有 MedLEE、MetaMap、cTAKES、MedEx、KnowledgeMap 等。这些医学自然语言系统覆盖了医学信息抽取、医疗文本分类、医疗决策支持、信息管理、医疗信息问答、知识挖掘等诸多应用领域。与之相比,国内相关的医中国人工智能系列白皮书 56 学自然语言系统和知识库较为缺乏,

    177、限制了中文医疗文本自然语言处理研究的发展。近年来,专业领域中文自然语言处理需求越来越大,而中文医学专业领域的语料资源较少。不同于以字母为基础的语言,中文是以字符为基础,学习算法目前也更受限制,中文知识库也较为受限。近年来,逐步出现针对于中文医疗文本的自然语言处理方法。4.3 文本表示学习 文本表示学习是指将实际的文本内容转变成更易于计算机识别的信息,即对文本进行形式化处理,它依靠着高维空间向低维空间的转换,以将词来表示成一个低维的稠密实值向量7,进而表达文本词语的语义。常用方法有布尔模型、向量空间模型、概率模型等。这些向量随后可用于构建矩阵、拓扑结构或图数据,从而探索医疗实体和临床事件之间的复

    178、杂关系。使用向量空间模型方法需要对文本先进行分词,此时文本可看作一系列词的组合,之后对每个词加一个对应的权值,最初权值表示为 0 或 1,即当文本中出现该词,则值为 1,否则为 0,这种方法后续逐渐被更精确的词频代替。常用文本向量化方法有 BOW(词库、Bag of Words)模型、Mikolov 等人设计的 Word2Vec模型8、以及 Quoc Le 等人提出的段落向量(Paragraph vector)法等9。BOW 方法中的 TF-IDF 向量表示法得到了广泛应用。TF-IDF 方法评估一个字词对于文件集或语料库中其中一个文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加

    179、,但同时会随着它在语料库中出现的频率成反比下降。将文本表示为 TF-IDF 向量后,向量间的cos角就可以用来测量文本间的相似度。针对TF-IDF方法,还有基于文本频率、信息增益、互信息、卡方检验的降维方法。然而,这类 BOW 方法存在一些不足:忽略了词的顺序以及词之间的语义联系,导致不同文本有可能会有同样的向量表示;实际问题中会计算出中国人工智能系列白皮书 57 较高的向量维数,给后续机器学习中带来维数灾难。自 Word2Vec 到 Glove 再到 ELMO,词分布嵌入类模型由于其出色的词表示能力,可以在低维空间中高效的计算词的语义信息和词之间的语义联系,被广泛应用于医学文本的处理之中。根

    180、据模型的技术和应用场景,词分布嵌入类模型可以分为以下几类。各类方法的简介和举例如下:1.基于统计和分布假设的方法 通过统计分析词在文本中的共现关系来生成嵌入,常见方法为LSA(Latent Semantic Analysis),LDA(Latent Dirichlet Allocation),PMI(Pointwise Mutual Information)。2.基于上下文窗口的词嵌入模型 通过训练一个浅层神经网络来生成固定维度的词向量,常见方法为 Word2Vec,GloVe(Global Vectors for Word Representation),FastText 等。3.基于上下文

    181、动态生成的词嵌入模型 例 如:ELMo(Embeddings from Language Models),CoVe(Contextualized Word Vectors)4.基于 Transformer 的预训练语言模型 这类模型是上下文嵌入的高级演化,通过大规模预训练得到更强的 语 义 表 达 能 力,例 如BERT(Bidirectional Encoder Representations from Transformers),GPT(Generative Pre-trained Transformer),T5(Text-to-Text Transfer Transformer)等。5.

    182、专为多模态或知识注入设计的词嵌入模型 例如,融入知识图谱信息的 ERNIE(Enhanced Representation through kNowledge Integration),用于多模态任务,结合文本和图像对比学习的 CLIP(Contrastive LanguageImage Pretraining)。在医学文本的表示学习领域,Transformer10架构有效地解决了在中国人工智能系列白皮书 58 句子中捕获长距离依赖性的挑战,增强了模型理解上下文之间关系的能力。通过多头注意力机制学习到的上下文化词表示,以及在大规模语料库上的无监督预训练。基于 Transformer,如 BER

    183、T11,在文本表示学习任务中表现出了非常有前景的性能。然而,开放的医疗问题仍然具有挑战性,因为这些方法缺乏领域医疗知识来提升语义理解能力12。为了解决这个问题,一些工作13-15尝试将内部知识或外部知识整合到类似 BERT 的模型中。内部医疗知识主要包括语法知识、句法结构知识和语义知识等12。弱监督方法可以整合内部知识,然后设计基于知识的任务来学习文本中的医疗知识。例如,ERNIE16通过注释和掩码预训练数据中的短语和实体,融入了隐式的内部句法和语义知识。ERNIE-Health17使用医疗实体掩码算法来学习术语和其他医疗实体知识。CorefBERT18使用问答匹配任务来学习疾病描述与医生专业

    184、治疗之间的对应关系,从而获得了医疗实体知识之间的内在联系。与内部知识相比,外部医疗知识包含了医疗知识图谱、医疗领域特定数据和预训练数据的额外注释。根据格式的不同,它也可以分为结构化知识和非结构化知识。例如,BERT-MK19将医疗知识图谱中的子图视为一个整体,并对齐医疗文本以保留更多的结构信息。与结构化知识相比,非结构化知识(如医疗领域的数据)更加完整,但噪声也更多。K-ADAPTER20通过不同的适配器融入了医疗非结构化知识来学习词汇知识和语言知识。在生物医学文本训练的模型 BioBERT 基础上,UMLSBERT21利用 UMLS 去增强临床领域的知识表示,结果表明模型能更好的理解和表示医

    185、学文本中的语义信息。对于上述所有工作,知识都隐式地存储在其模型参数中。从知识增强方法中学习到的文本表示已经展示了其表达能力,并对下游任务的性能提升做出了贡献。4.4 知识图谱 知识图谱是在自然语言处理的基础上发展而来,这个概念是谷歌中国人工智能系列白皮书 59 在 2012 年提出的,当时主要是为了将传统的基于关键字搜索的模型向基于语义的搜索升级。知识图谱本质上是一种揭示实体之间关系的语义网络,其节点代表实体(entity)或者概念(concept),边代表实体/概念之间的语义关系。相比于传统的机器学习算法,知识图谱能够从语义层面以结构化的形式表示知识,通过知识表示和推理,给人工智能系统提供可

    186、处理的先验知识,让其具有解决复杂任务的能力。随着智能信息处理技术,尤其是深度学习技术不断发展,知识图谱已广泛应用于智能搜索、智能问答、个性化推荐等领域。中文文本的知识图谱工作近年来在公开评测、领域扩展及上述的跨语料迁移方面也都取得了一些进展。目前知识图谱也已经广泛应用于医疗领域22,23。医学知识图谱是在人工构建的专业知识库基础上,通过算法以及人工审核的方式不断扩充实体及关系来构建的,包括疾病、症状、药品、手术、非手术治疗等医学概念与多种医学关系。医学知识图谱的构建主要包括知识抽取、知识融合、知识应用等。医学知识图谱是疾病智能辅助决策工具的基石,使得计算机理解并做出智能的决策24,25。医学知

    187、识图谱在多项医学决策支持上都取得了成功的应用,例如预测药物点相互作用26、罕见病知识图谱辅助诊断模型27,28等。中文医疗知识图谱领域近年来得到了业界广泛关注,目前在工业界主要有百度-灵医智惠、中国平安-平安好医生、阿里健康-医知鹿、腾讯-觅影等医学知识图谱,在学术界主要有CMeKG(Chinese Medical Knowledge Graph,http:/ 等。CMeKG 是基于大规模医学文本数据,利用文本挖掘技术研发的中文医学知识图谱。CMeKG 的构建参考了 MeSH、ICD、SNOMED 等权威的国际医学标准以及大规模多源异构的临床指南、诊疗规范等文本信息。CMeKG涵盖疾病的临床症

    188、状、发病部位、药物治疗等 30 余种常见实体类型,100 余万概念关系及属性三元组。“生物医学信息学本体系统”BIOS中国人工智能系列白皮书 60 目前为全球最大开放生物医学知识图谱,BIOS 是首个完全由机器学习算法生成的大型开放生物医学知识图谱,其术语发现、语义分析、概念生成、关系发现、跨语言对齐完全由模型自动实现。对比美国开发几十年的“一体化医学语言系统”UMLS,BIOS 在短短几年的时间里,体量达到了 UMLS 的数倍,不仅扭转了中文领域缺乏大型开放生物医学知识图谱的困难局面,更充分证明了人工智能的巨大潜力。近年来,深度学习技术,尤其是图神经网络的发展,极大地推动了时序知识图谱的研究

    189、。常用的研究思路有以下两种:将动态图按照时间划分为每个时刻的图,然后进行处理,随着时间发展,每个时刻图中的边和节点可以变化;把时间 T 之前的所有边构造成一个图。常用算法中,DySAT 使用自注意力机制学习不同时刻的动态图表示29;EvolveGCN 思路便是对每个时刻 T 的图谱用 GCN 进行建模学习,用RNN 去演化每个时刻 GCN 模型的参数30;TGAT 模型在处理时序知识图谱时,期望学习到邻域的时间拓扑信息,学习节点特征和时间之间的相互作用,将节点的嵌入表示看作为时间的函数31。dyngraph2vec 使用全连接层和递归层学习动态图嵌入的方法,并构建了动态模型库32。当前,已经有

    190、一些研究针对临床病历数据的时序知识图谱展开,Shang 等人33以患者疾病和药物为节点,考虑患者就诊期间的时序性,构建了一个患者的时序图模型,并在患者药物推荐上取得了良好的结果。4.5 大语言模型在医疗文本中的应用 近年来,大语言模型在文本理解与生成方面展现出了卓越的能力,为文本分类、信息抽取等任务提供了新的解决方案。在医学领域,结合大数据技术和大语言模型的应用具有巨大的潜力和价值34。大语言模型通常采用 Transformer 架构,通过对大规模语料库进行自监督的预训练,学习文本的语法、语义和逻辑等特征,从而捕捉文本间复杂中国人工智能系列白皮书 61 的关系。通过对特定任务数据进行微调,适应

    191、不同的下游应用。GPT-4、PalM35和 LLaMA 等国际上的模型,以及国内的 ChatGLM、文心一言、通义千问、讯飞星火等,显示了大型语言模型在解决通用语言问题(如文本分类、问答、文档总结和文本生成等)方面的成功应用。此外,谷歌医疗团队最近发表了最新版本的医疗大模型 Med-PalM36,专注于医疗文本理解和信息抽取。BiomedGPT37是一个专为生物医学领域涉及的多模态通用基础模型,通过预训练和微调多种生物医学数据库,能够处理多样化的生物医学任务。相对于传统的自然语言处理方法,大语言模型在电子病历信息抽取和结构化方面有着显著优势。电子病历通常包含大量的上下文信息、诊断过程和治疗方案

    192、等,传统方法常常难以充分考虑这些信息,而大语言模型能够更好地理解文本的语境和上下文信息,更准确地结构化这些复杂的信息。此外,大语言模型具备强大的泛化能力。能够处理各种类型和风格的医学文本,无需事先定义复杂的规则或特征工程。这种灵活性使得模型能够适应不同医疗实践中的各种数据格式和语言风格。目前,大语言模型在电子病历信息抽取领域,尤其是中文电子病历方面的研究还在发展中,在支持临床决策和国际医疗数据标准化等应用中展示出巨大的潜力38-40。目前已有一些成功的应用,例如,山山海医疗大模型可应用于门诊病历报告生成、手术记录撰写、商保管理;支付宝医疗大模型可应用于医疗问答、病历结构化和检索等。未来,它将为

    193、医疗信息管理和个性化医疗提供更为先进和有效的解决方案。中国人工智能系列白皮书 62 参考文献 1 Giddings R,Joseph A,Callender T,et al.Factors influencing clinician and patient interaction with machine learning-based risk prediction models:a systematic review.Lancet Digit Health.2024;6(2):e131-e144.2 Montgomery-Csoban T,Kavanagh K,Murray P,et al.

    194、Machine learning-enabled maternal risk assessment for women with pre-eclampsia(the PIERS-ML model):a modelling study.Lancet Digit Health.2024;6(4):e238-e250.3 Wang J,Zheng N,Wan H,et al.Deep learning models for thyroid nodules diagnosis of fine-needle aspiration biopsy:a retrospective,prospective,mu

    195、lticentre study in China.Lancet Digit Health.2024;6(7):e458-e469.4 Daniel R,Jones H,Gregory JW.Predicting type 1 diabetes in children using electronic health records in primary care in the UK_ development and validation of a machine-learning algorithm.Lancet Digit Health.2024;6:e386-95 5 Lee D,de Ke

    196、izer N,Lau F,Cornet R.Literature review of SNOMED CT use.Journal of the American Medical Informatics Association:JAMIA.2014;21(e1):e11-19.6 Bodenreider O.The Unified Medical Language System(UMLS):integrating biomedical terminology.Nucleic acids research.2004;32(Database issue):D267-270 7 LOCKE S,BAS

    197、HALL A,AL-ADELY S,et al.Natural language processing in medicine:A reviewJ.Trends in Anaesthesia and Critical Care,2021.https:/doi.org/10.1016/j.tacc.2021.100233 8 Mikolov T,Chen K,Corrado G,Dean J.Efficient estimation of word 中国人工智能系列白皮书 63 representations in vector space.2013 arXiv preprint arXiv:1

    198、3013781.9 Le QV,Mikolov T.Distributed Representations of Sentences and Documents;2014.pp.1188-1196.10 VASWANI A,SHAZEER N,PARMAR N,et al.Attention is All you Need.Neural Information Processing Systems,2017.https:/doi.org/10.5555/3295222.3295349 11 DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of

    199、Deep Bidirectional Transformers for Language Understanding.Proceedings of the 2019 Conference of the North,2019.https:/doi.org/10.18653/v1/N19-1423 12 Biawas Som S.Role of chat gpt in public health.Annals of biomedical engineering 51.5(2023):868-869.13 Lewis,Mike,et al.Bart:Denoising sequence-to-seq

    200、uence pre-training for natural language generation,translation,and comprehension.2019 arXiv preprint arXiv:1910.13461.14 Touvron,Hugo,et al.Llama 2:Open foundation and fine-tuned chat models.2023 arXiv preprint arXiv:2307.09288.15 HAN X,ZHANG Z,DING N,et al.Pre-Trained Models:Past,Present and Future

    201、.AI Open,2021.https:/doi.org/10.1016/j.aiopen.2021.100080 16 McIntosh,Timothy R.,et al.A culturally senstive test to evaluate nuanced gpt hallucination,IEEE Transactions on Artificial Intelligence(2023)17 CHEN Q,ZHU X,LING Z H,et al.Neural Natural Language Inference Models Enhanced with External Kno

    202、wledge.Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2018.https:/doi.org/中国人工智能系列白皮书 64 10.18653/v1/P18-1041 18 MICHALOPOULOS G,WANG Y,KAKA H,et al.UmlsBERT:Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the Unifi

    203、ed Medical Language System MetathesaurusC/OL.Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Online.2021.19 SHARMA S,SANTRA B,JANA A,et al.Incorporating Domain Knowledge into Medical NLI using Knowledge Gra

    204、phs.Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),2019.https:/doi.org/10.18653/v1/D19-1540 20 LI Y,WEI B,LIU Y,et al.Incorporating knowledge into neural network for text r

    205、epresentation.Expert Systems with Applications,2018.https:/doi.org/10.1016/j.eswa.2018.06.029 21 SUN Y,SHUOHUAN W,YUKUN L,et al.ERNIE:Enhanced Representation through Knowledge IntegrationJ.Cornell University-arXiv,2019.https:/doi.org/10.18653/v1/D19-1003 22 Murali L,Gopakumar G,Viswanathan DM,Nedung

    206、adi P.Towards electronic health record-based medical knowledge graph construction,completion,and applications:A literature study.J Biomed Inform.2023;143:104403.23 Karthik Soman,Charlotte A.Nelson,Gabriel Cerono,Sergio E.Baranzini.Time-aware Embeddings of Clinical Data using a Knowledge Graph.Pac Sy

    207、mp Biocomput.2023(28):97-108.24 Li T,Xiong Y,Wang X,Chen Q,Tang B.Document-level medical 中国人工智能系列白皮书 65 relation extraction via edge-oriented graph neural network based on document structure and external knowledge.BMC Medical Informatics and Decision Making.2021,21(Suppl 7):368.25 Zhu Y,Che C,Jin B,

    208、Zhang N,Su C,Wang F.Knowledge-driven drug repurposing using a comprehensive drug knowledge graph.Health Informatics Journal.2020,26(4):2737-2750.26 Zhao D,Wang J,Sang S,Lin H,Wen J,Yang C.Relation path feature embedding based convolutional neural network method for drug discovery.BMC Medical Informa

    209、tics and Decision Making.2019,19(Suppl 2):59.27 Latorre-Pellicer A,Ascaso A,Trujillano L,Gil-Salvador M,Arnedo M,Lucia-Campos C,et al.Evaluating Face2Gene as a Tool to Identify Cornelia de Lange Syndrome by Facial Phenotypes.Int J Mol Sci.2020,21(3):1042.28 Kohler S,Carmody L,Vasilevsky N,Jacobsen J

    210、OB,Danis D,Gourdine JP,et al.Expansion of the Human Phenotype Ontology(HPO)knowledge base and resources.Nucleic Acids Res.2019,47(D1):D1018-D1027.29 Sankar,A.,Wu,Y.,Gou,L.,Zhang,W.,Yang,H.DySAT:Deep Neural Representation Learning on Dynamic Graphs via Self-Attention Networks.WSDM 20:The Thirteenth A

    211、CM International Conference on Web Search and Data Mining.ACM 2020.30 SHANG C,TANG Y,HUANG J,et al.End-to-End Structure-Aware Convolutional Networks for Knowledge Base CompletionJ/OL.Proceedings of the AAAI Conference on Artificial Intelligence,2019:3060-3067.31 Pareja,A.,Domeniconi,G.,Chen,J.,Ma,T.

    212、,Leiserson,C.中国人工智能系列白皮书 66 Evolvegcn:evolving graph convolutional networks for dynamic graphs.Proceedings of the AAAI Conference on Artificial Intelligence,2020.32 Xu,D.,Ruan,C.,Korpeoglu,E.,Kumar,S.,Achan,K.Inductive representation learning on temporal graphs.ICLR,2020.33 Goyal P,Ch Hetri S R,Cane

    213、do A.dyngraph2vec:Capturing network dynamics using dynamic graph representation learning.Knowledge-Based Systems,2019,187.34 Murali L,Gopakumar G,Viswanathan DM,Nedungadi P.Towards electronic health record-based medical knowledge graph construction,completion,and applications:A literature study.J Bi

    214、omed Inform.2023.143:104403.35 Zhang,K.,Zhou,R.,Adhikarla,E.et al.A generalist visionlanguage foundation model for diverse biomedical tasks.Nat Med.2024.30,31293141 36 PALM:Chowdhery,A.et al.PaLM:scaling language modeling with pathways.2022 Preprint at 10.48550/arXiv.2204.02311.37 Singhal K,Azizi S,

    215、Tu T,et al.Large language models encode clinical knowledge.Nature.2023.620(7972):172-180.38 de Hond A,Leeuwenberg T,Bartels R,et al.From text to treatment:the crucial role of validation for generative large language models in health care.Lancet Digit Health.2024.6(7):e441-e443.中国人工智能系列白皮书 67 第 5 章 人

    216、工智能助力 RNA 结构预测 5.1 背景 RNA 的研究被科学家称为永无止境的前沿。生命在于各种蛋白质,没有 RNA 就没有蛋白质。RNA 结构预测是相比于蛋白质结构预测来说是件更加困难的事情,RNA 的研究永无止境。RNA 种类繁多、功能多样、不稳定,结构决定功能。许多烈性病毒就是 RNA 病毒,如肆虐全球的新冠病毒,就是 RNA 病毒。RNA 的结构预测公认比蛋白质结构预测更加困难。主要表现在以下几个方面:其一,RNA 可能随环境不同而存在多个稳定的不同结构态,其二,共进化信息有效提升了蛋白质结构预测精度,但对 RNA 结构预测帮助很小。其三,实验公布的 RNA 结构数量远小于蛋白质结构

    217、数量。尽管经过几十年的艰苦努力,相比预测蛋白质的三维结构,预测 RNA 三维结构仍然是一个非常巨大的挑战。截至 2023 年 12 月,PDB 数据库中拥有超过 189000 个生物大分子结构可用,含有 RNA 的结构仅占总结构数的 0.86%,其中,包括与其他分子复合的 RNA 结构。PDB 每年新发布的 RNA 结构数量(深色)及数据库中累计的 RNA 结构数量,RNA 结构数量增长缓慢。这表明 RNA 三级结构测定的效率极其低下,RNA 结构数量还远不能满足研究人员对结构和功能探索的需求。Science 封面:新型封面:新型 AI 技术有望破解技术有望破解 RNA 结构预测难题。结构预测

    218、难题。RNA 三级结构预测的主要困难在于其构象采样和打分函数的构建。对于构象采样的问题,Rosetta 框架的出现为 RNA 构象采样提供了新的思路,在 Rosetta 框架下基于枚举采样和随机抽样方案的 RNA三级结构预测算法有效地提高了构象采样能力。而对于打分函数而言,机器学习相关方法克服了传统打分函数打分不准确的弊端,基于三维卷积神经网络的 RNA 结构打分函数不仅提高了结构打分的质量,还在一定程度上提高了 RNA 三级结构预测的精度。中国人工智能系列白皮书 68 人类基因组计划的实施使得大量生物分子序列、结构及功能的相关数据呈几何倍数增长的趋势出现。生物信息学是一个跨多学科的研究领域,

    219、该领域主要基于生物计算方法来对大量的生物大分子数据进行分析,旨在发现其中隐藏的生物模式及相关信息,此外,通过对相关信息的进一步分析可以促进对生物运行机制的研究。生物信息学和高通量测序技术的快速发展显著地提高了我们探索人类微生物组的能力,并为各种疾病的研究提供了理论基础和解决方案。在近期的研究报告中,专家和学者利用生物信息学方法研究了肿瘤突变、乳腺癌、宫颈癌、鼻咽癌、Ig A 肾病等疾病,并从基因水平对这些疾病进行了更深入的研究。生物信息学的本质就是处理大量的生物数据,并从中获得想要的信息。蛋白质、多糖及核糖是生命系统中必不可少的生物大分子,生物大分子的结构预测仍然是生物信息学领域的一项重大挑战

    220、,特别是RNA 三级结构的预测。RNA 是一种由核糖核苷酸组成的多功能生物大分子。RNA 在疾病分析领域发挥着重要作用,如研究口腔鳞状细胞癌需要了解 microRNAs,而研究食管癌需要先研究 lncRNAs,这表明对 RNA 的研究将为疾病研究提供坚实的理论基础。此外,对 RNA结构的探索是研究活细胞中低丰度 pre-mRNA 与 RNA-蛋白质相互作用的基础,此项研究能够帮助研究人员进一步理解细胞生命活动中RNA 的功能,这使得 RNA 的相关研究成为一大热点。RNA 在生物体内有多种功能,其主要功能是将存储在 DNA 里面的遗传信息转化为蛋白质,并引导蛋白质分子的合成。RNA 的功能逐渐

    221、受到关注,在最近的研究中,研究人员发现了 RNA 的一些新功能,有些部分 DNA 分子片段转录成 mRNA,进一步翻译成蛋白质,而另一部分 DNA 分子片段只转录成 RNA,不能进一步翻译,无法翻译成蛋白质大分子的 RNA 是非编码 RNA(non-coding RNA)。非编码RNA 能够控制蛋白质合成、调节转录过程并进行翻译,除此之外非中国人工智能系列白皮书 69 编码 RNA 还具有一些更加复杂的生物学功能,如剂量补偿、染色质调控、基因组印记、核组织及基于代谢物浓度变化来进行基因表达调控等。总部位于美国马萨诸塞州剑桥市的克雷数学研究所(Clay Mathematics Institute

    222、,CMI),在 2000 年提出了世界 7 大数学难题,而 NP 完全问题1(non-deterministic polynomial complete problem)是世界 7 大数学难题之一,近似算法是处理 NP 完全问题(NP 难问题)的一种本质方法。新型冠状病毒是 RNA 病毒,冠状病毒(coronavirus,CoV)的 RNA 结构通常包含 H 型假结(pseudoknot),包含假结的 RNA 结构预测问题是 NP 完全问题1。有关 RNA 的研究已经多年被 Science 列入世界主要科技进展,1986 年,Science 上刊发了诺贝尔奖获得者Dulbecco2关于人类基因

    223、组测序的有关论文,相关论文的发表极大地推动了20世纪人类基因组计划(Human Genome Project,HGP)的实施,也催生了生物信息学/计算生物学学科的发展。从 2019 年底开始在全球肆虐的新型冠状病毒(COVID-19)给人类带来了巨大灾难,新型冠状病毒属于RNA病毒,RNA多为单链结构,该结构不稳定、易变异,这为疫苗的研制增加了难度。冠状病毒是有包膜的正股单链 RNA 病毒,直径为 80120nm,约由 3 万个碱基组成,其遗传物质是已知 RNA 病毒中最大的。目前已经发现至少 7 种致病性冠状病毒,其中,严重急性呼吸综合征冠状病毒(severe acute respirato

    224、ry syndrome coronavirus,SARS-CoV)、中东呼吸综合征冠状病毒(Middle East respiratory syndrome coronavirus,MERS-CoV)曾在人群中大范围传播流行,证明了冠状病毒在动物间、人与人之间传播的可能性。研究表明,蝙蝠身上能携带超过 100 多种病毒,是许多高致病性病毒的天然宿主,对人类社会造成巨大威胁的 SARS-CoV 正是来自中华菊头蝠。2019 年发现的 SARS-CoV-2 就属于蝙蝠 SARS 中国人工智能系列白皮书 70 冠状病毒和中东呼吸综合征冠状病毒的病毒群。遗传物质决定生命体的性状,结构决定功能,冠状病毒

    225、拥有目前几乎已知所有 RNA 病毒中最长的 RNA 碱基序列,RNA 结构预测问题来源于 RNA 编码的秘密,也来源于病毒疫苗药物研制的困难性。用实验来测定指数级的数量庞大的 RNA 结构代价太大,不现实也不可能。除 RNA 的一级结构能用实验的方法来测定测序外,RNA 二级结构、三级结构甚至四级结构,用实验的方法测定十分困难,因而用计算方法与复杂性理论来分析预测 RNA 结构成为不可缺少的选择。结构决定功能,想要探究 RNA 的功能,特别是 RNA 有些复杂的生物学功能,就必须要先了解 RNA 的结构。目前国内外的 RNA三级结构测定方法主要有两种。第一种方法是利用 X 射线、核磁共振及冷冻

    226、电镜等实验测定方法,采用实验的方法测得的结果比较精确且可靠,但是构象数量随着 RNA 长度的增加呈指数增长,导致成本太高,也不可能穷举。第二种算法是基于生物计算的结构预测方法,当前的 RNA 三级结构预测算法主要有基于知识挖掘的预测方法和基于物理的预测方法。基于知识挖掘的三级结构预测方法依赖已知的RNA 模板数据库,基于物理的预测方法减少了对数据库的依赖,但是仍存在结构建模精度不够高的问题,无法满足当前的结构预测需要。因此针对这个现状,需要对现有方法进行改进创新。由于 RNA 分子和蛋白质具有不同的折叠方式,所以将蛋白质的研究方法应用到 RNA 的研究中得到的结果不佳。在蛋白质领域,存在一个假

    227、设,假设大分子的原生构象具有最低自由能,并且自由能函数近似为氢键、范德瓦耳斯力、静电力和溶剂化项之和。本书针对现有技术的缺陷,假设大分子原生构象具有最低自由能,但不同的 RNA分子的三级结构中,根据碱基相互作用的不同类型,分配不同的权值,通过线性加和后得到相应自由能。此外,针对单线程构象能力受限制问题,可以采用并行机制,同时对建模结果进行了多重判断,得到一中国人工智能系列白皮书 71 个专门用于 RNA 三级结构预测的算法逐步蒙特卡罗(Monte Carlo,MC)并行化算法3。21 世纪初,随着由中国和美国、英国、法国、德国、日本科学家共同参与的人类基因组计划的全部完成,人类进入后基因时代人

    228、类细胞图谱计划时代。根据基因表达的分子信息,对所有人类细胞种类进行定义,而 RNA 在细胞中的转录和表达起着非常重要的作用。近年来,全球有关 RNA 的研究,特别是冠状病毒 RNA 的研究,引起了全球众多学者的极大关注。RNA 是单链折叠结构,RNA 在遗传信息从 DNA 表达为蛋白质的过程中起转录作用。RNA 结构预测,特别是 RNA 三级结构预测甚至四级结构预测是当今学术界研究的热点,但普遍存在预测准确度不高、特异性和敏感性不理想、预测算法时空复杂度高等问题。冠状病毒的 RNA 结构往往包含 H 型假结,包含假结的 RNA 结构预测问题被证明是 NP 完全问题,而作为世界 7 大数学难题之

    229、一的 NP 完全问题的研究给我们带来了极大的困难。为了获取RNA结构功能信息,获知生物分子的生物学功能,寻找非编码RNA基因,利用机器学习、深度学习、层次聚类、蒙特卡罗方法等人工智能的典型技术,结合 RNA 病毒结构特性,特别是现在全球大流行的新型冠状病毒结构,结合最大 k-补割、稠密 k-子图问题等典型的 NP难的问题,以及困难性未知的最小结构熵问题,有望解决 RNA 结构预测算法与复杂性中存在的世界前沿问题,探索生命起源和进化,揭开 RNA 编码秘密,为研究冠状 RNA 病毒机理和靶向核酸药物研制提供理论和技术指导。不同于 DNA 的双螺旋结构,RNA 是单链结构,RNA 碱基序列中包含

    230、A、C、G、U 四种碱基。由于碱基是平面结构,其边缘的氢原子供/受体可近似地划分为三个配对边:Watson-Crick(W)边,Hoogsteen(H)边,以及 Sugar(S)边。配对边影响 RNA 折叠结构的稳定性,稳定性也可以用碱基配对所需要的自由能量来衡量,并且自由能中国人工智能系列白皮书 72 量越小,RNA 结构越稳定。RNA 能量模型包括结构单元间的近邻相互作用模型、独立结构单元模型等。最邻近邻居模型可以看作一种独立结构单元模型的特殊情况,其结构单元中堆叠结构与环结构是由最邻近碱基对决定的,RNA 分子的自由能量主要是堆叠结构和环结构的贡献。环结构对RNA 折叠结构的稳定性有非常

    231、重要的作用,但对环结构的热动力学研究相对较少,其结构的稳定性可以由自由能量参数来衡量4。AU、CG 基对是 RNA 碱基序列中常见的茎环结构,RNA 茎环结构的邻位基对可能有十余种的组合数,预测 RNA 结构的本质是找出 RNA 碱基序列的各位点之间的配对关系。然而 GU 错配现象在 RNA 碱基序列中也经常发现,包含 GU 错配的情况大约有十几种邻位关系的组合。利用寡核苷酸合成技术,我们可以合成大量用于实验的寡核苷酸链,进一步提高了自由能量参数的正确率,Mathews 和 Turner5改进的自由能量参数成为目前普遍采用的参数。许多 RNA 病毒中含有假结结构,如冠状病毒中通常含有 H 型假

    232、结。假结是 RNA 分子中最广泛的三级结构单元,假结的存在使 RNA结构更加复杂化,假结在不同的 RNA 分子中有催化、调节、构造等非常重要的功能,在探索生命科学的现象、规律中具有十分重要的意义6,7。假结是非常复杂和稳定的 RNA 结构,包含假结的 RNA 结构预测是目前 RNA 结构预测研究的难点和关键点。1985 年,Pleij 等成功地预测了几种毒菌 RNA 的假结结构6,Kolk 等在 1998 年予以证实了假结结构的存在性7。有关含假结的 RNA 结构预测算法近似理论与技术的研究是近似算法领域研究中的热点之一。在多项式时间可解的问题得到研究之后,包含假结 RNA 折叠结构预测的 N

    233、P 难问题的近似算法研究成为算法理论设计与分析经典领域中的活跃分支。通过 RNA 结构分析,本书抽象设计出有效的精确确定性算法来预测三级结构甚至四级结构,利用近似算法来求解包含假结的 RNA中国人工智能系列白皮书 73 结构预测这一理论上是被证明的 NP 完全问题,利用近似算法分析设计中提出的新思想、新观点来预测 RNA 结构,提高预测的精度、特异性、敏感性。本书的研究有助于 RNA 结构预测近似算法与复杂性,以及算法不可近似性的发展;也有助于 RNA 结构预测理论在生物医药产业实践中的指导,特别是在加快生物制药、冠状病毒药物研制和疫苗研制进度角度,具有极其重要的意义。生物信息学/计算生物学从

    234、 20 世纪 80 年代开始逐渐形成一门学科,南加利福尼亚大学 Waterman 开创了生物信息学和计算生物学的先河,1981 年,Smith 与 Waterman 提出了著名的序列比对的Smith-Waterman 算法,该算法改进了 Needleman-Wunsch 算法的不足。美国的 Pipas 和McMahon 最先提出如何运用计算机技术预测 RNA 二级结构。1994 年,Walter 和 Turner 对同轴堆叠在 RNA 折叠中的作用进行了研究,研究主要包括嵌套结构,但许多 RNA 结构中还包含非嵌套结构假结,假结破坏了动态规划算法依赖的 RNA 折叠结构的嵌套子结构的性质,假结

    235、还使 RNA 结构预测问题变为 NP 难问题,增加了问题的困难性 8,9。Zuker 等10提出了 Mfold 算法,将动态规划算法引入最邻近邻居热力学模型。Rivas 和 Eddy11提出了关于 RNA二级结构预测的 Pknots 算法,可以预测任意的平面假结和部分非平面假结,但其时间复杂度为 O(n6),空间复杂度为 O(n4),时空复杂度太高,该算法通过限制假结的类型来预测含假结的 RNA 的二级结构,太高的时间复杂度和空间复杂度严重制约了该算法所能计算的问题规模,使带假结的 RNA 结构预测变得异常困难。含假结的 RNA结构预测在国际上受到高度重视,是 RNA 结构预测领域中的典型问题

    236、和热点。关于假结参数可以用非假结参数乘以系数 g(0.83)作为补偿12,这些参数值一部分为理论估计值,另外一部分参数由实验结果计算得到。Nixon 等13对 mRNA 假结结构加以研究,提出移码突变的 mRNA 解决方案。Ieong 等14于 2003 年提出了最大堆叠基对数问中国人工智能系列白皮书 74 题,并成功地设计了该类问题近似性能比为 3 的近似算法。Lyngs15设计了时间复杂度高达 O(n81)的最大堆叠基对数问题的精确算法,该算法难以理解更不实用,同时,Lyngs 提出了最大堆叠数问题,证明该最大堆叠数问题属于NP难问题,并设计了多项式时间近似方案。Ruan 等16和 Ren

    237、 等17也对 RNA 假结进行了研究,分别提出了包含假结的启发式算法和环匹配算法,Huang 和 Ali18对 RNA 假结结构的预测敏感性进行了研究,Han 等19提出了包含假结的 RNA 结构比对算法。20 世纪末,清华大学自动化系李衍达院士和张学工教授在国内率先致力于生物信息学/计算生物学的研究,清华大学自动化系汪小我、李梢也在基因调控分析与建模、复杂疾病计算分析等方面取得了若干研究成果。吉林大学徐鹰长期致力于癌症生物信息学、微生物信息学和结构生物信息学等相关领域的研究,在生物通路与网络的计算方法和模型研究、比较基因组分析、蛋白质结构预测与建模等方面做出了重要的和公认的贡献。中南大学王建

    238、新、李敏利用参数化算法等理论与技术在生物信息计算领域进行了深入系统的研究,在长非编码疾病关联竞争性内源预测等方面取得了具有领先水平的一批理论成果。近年来,国内许多学者开展了 RNA 结构预测的研究,特别是 RNA二级结构预测。中国科学院计算技术研究所徐琳等20提出一种对动态规划矩阵采用分块技术的细粒度并行算法,对面向现场可编程门阵列(field programmable gate array,FPGA)的 RNA 二级结构进行预测,提高了算法效率。陈翔等21根据 RNA 折叠的特点,提出了一种启发式搜索算法来预测带假结的 RNA 二级结构,该算法以 RNA 的茎区为基本单元,采用启发式搜索策略

    239、在茎区的组合空间中搜索自由能最小并且出现频率最高的 RNA 二级结构,该算法能降低搜索 RNA 二级结构的时间复杂度。吉林大学刘元宁等22提出 14 种类型的 RNA 假结结构,并使用一种改进的 RNA 平面结构表示法弧图,利用相容中国人工智能系列白皮书 75 矩阵与迭代矩阵来求出具有全局最大最优能的 RNA 茎区组合。近年来在癌症基因驱动检测、识别 RNA 内源性模块等方面,西安电子科技大学 Li 等23和 Wen 等24取得了丰硕的成果。Yue 等25利用贝叶斯网络结合不同算法来预测小 RNA,提高了预测的敏感性和特异性。2011 年美国罗切斯特大学的 Ellaousov 提出了包含假结的

    240、 RNA 二级结构快速预测算法,该算法的时间复杂度为 O(n2),预测准确度为69.3%,但长度超过 700 的核苷酸的预测精度不理想。2015 年,山东大学李国君联合吉林大学、美国阿肯色州立大学、佐治亚大学等的研究人员共同提出了一种新的 RNA 转录组组装工具 Bridger,其研究成果发表在国际著名学术杂志 Genome Biology 上。Gupta 等26,27在求解Rent-or-Buy 问题时,把博弈论的费用分摊方法应用到近似算法的设计与分析中,成果分别发表在理论计算机科学国际顶会(IEEE Annual Symposium on Foundations of Computer S

    241、cience)和国际著名期刊Journal of the ACM27上。近似算法的不可近似性成为近年来近似算法领域中的一个新的热点28,近似算法及随机算法的去随机化技术为包含假结和冠状病毒的 RNA 结构预测提供了新思路、新方法29,30。若把 RNA 序列碱基(核苷酸)看作图的顶点,两碱基(核苷酸)若配对,则在它们之间画一条线段,若途中线段之间存在交叉,则说明 RNA 结构中存在假结,可以把 RNA 结构优化问题转化为图问题,利用深度学习、近似算法和随机算法理论与技术,设计 NP 难包含假结的 RNA结构预测近似算法,证明问题的可近似性或近似难度。如果一个茎区的形成能使 RNA 结构更稳定,

    242、那么表明该结构更有可能先形成,用自由能来衡量 RNA 结构的稳定性,因而本书提出的预测算法可以采用自由能作为评估和衡量候选茎区的标准,设计相关 RNA 假结结构预测近似算法,相关研究论文可以参考文献31和32。香港大学的Wong等33,34对含复杂假结的 RNA 折叠结构加以研究,设计了效果不错的RNA 结构比对方法,主要来判断 ncRNAs(non-coding RNAs),并且中国人工智能系列白皮书 76 在超过 350 个 ncRNA 家族中进行了实验。2012 年,Wong 等35设计了包含简单假结的 RNA 结构比对算法,其时间复杂度为 O(mn3),并设计了RNA结构比对算法,该算

    243、法能处理假结,时间复杂度为O(mn4)。刘振栋等 36,37提出了含假结的 RNA 结构近似算法及启发式算法。2013 年,麦吉尔大学的 Reinharz 等38利用加权样本和抽样方法设计了加权样本算法,对 RNA 二级结构加以预测,取得了良好的效果。刘振栋等39深入分析了含假结的 RNA 折叠结构内部特性,基于堆叠数最大化和能量最小化原理,提出了含假结的 RNA 结构预测算法。华盛顿大学的 Andronescu 等40,41对具有最邻近邻居的参数的 RNA 折叠结构进行研究,提出了利用 RNA 序列数据库来确定参数值的方法。芝加哥大学的 Babai42针对图同构问题找到了一个拟多项式时间的算

    244、法,该算法可以同时对两个网络系统计算加以优化,使生物计算网络更加简单。2015 年,Keane 等43研究了含包装信号的 HIV2-1 的 RNA折叠结构,对 HIV-1 的研究有独到的见解。2016 年 Kuchark 等44详细阐述了假结在 RNA 折叠结构中的特性,对假结的理解更为深刻。近年来对单细胞的研究如火如荼,2017 年,Gomez-Schiavon 等45对单细胞 RNA 分子中的 BayFish 机理进行详细研究,加深了对单细胞的理解。在对各类疾病进行分析时,与 RNA 的关联性研究必不可少,如研 究 乳 腺 癌 需 要 了 解 microRNAs 的 结 构 与 功 能46

    245、,研 究Autophagy-related lncRNAs 的结构与功能对研究食管癌至关重要 47,这表明对 RNA 的研究可以为疾病研究提供坚实的理论基础。RNA 通常会形成复杂的空间结构,其线性核苷酸序列经过碱基配对组成二级结构,二级结构通过折叠决定其三维空间中的结构48。RNA 的功能取决于其三级结构及与其他分子在细胞中的相互作用,RNA 二级结构已经提供了 RNA 分子的碱基序列蓝图,我们仍然需要进一步探索 中国人工智能系列白皮书 77 RNA 的三级结构49。目前用于 RNA 三级结构采集的生物学实验方法有冷冻电镜法50、核磁共振法51等,但是由于 RNA 三级结构极不稳定,容易受到

    246、环境的影响而发生突变,同时由于基因的进化,很难获取 RNA 的第三级接触信息,所以获取一段连续的、完整的 RNA 片段是非常困难的。因此,需要利用生物信息学的方法和技术,结合已知的生物分子结构及其功能特点,利用计算机技术来预测 RNA 的三级结构52。目前在生物大分子的三级结构预测领域,蛋白质的结构预测方法已经取得显著进展,但是该方法却难以用于预测 RNA 的三级结构,其原因是目前预测蛋白质结构的方法主要利用了相关已知蛋白质的结构,通过机器学习的手段进行训练,提取相关蛋白质的特征,建立数学模型53。但是通过实验测得的 RNA 结构数目远远少于蛋白质,不足以提供大量有效的训练集数据,因此预测蛋白

    247、质结构的方法并不适用于 RNA,需要发展更有效的生物计算方法来进行 RNA 三级结构的预测。5.2 研究现状 近年来,研究人员发现 RNA 具有剂量补偿等复杂的生物学功能,RNA 结构研究引起了广泛重视。然而,RNA 三级结构预测相关研究仍处在起步阶段,与蛋白质结构预测相关研究成效相差甚远。RNA三级结构预测相关研究一直落后于蛋白质结构预测的相关研究,主要有三个原因。第一,与蛋白质结构相比,RNA 分子结构上有更多的自由度,因此 RNA 结构数量更多,结构预测计算量大。第二,非沃森-克里克碱基对是 RNA 分子折叠结构的核心,虽然其数量有限但是却难以识别,这为 RNA 的三级结构预测增加了难度

    248、。第三,RNA 构象空间比蛋白质构象空间要大得多。综合 RNA 与蛋白质的自由度和分子量分析,100nt(核苷酸,nucleotide)的 RNA 三级结构预测与 200中国人工智能系列白皮书 78 300aa(amino acids,氨基酸)蛋白质结构预测的建模难度相当19,20,这足以证明 RNA 三级结构预测的困难性。正是由于 RNA 三级结构预测比蛋白质结构预测更困难,所以 RNA 三级结构预测的相关研究发展缓慢。RNA 分子一般是线状单链结构,然而 RNA 分子的某些区域可自身回折,进行碱基互补配对并形成局部双螺旋结构。RNA 双螺旋中,一般是 A 与 U 配对、G 与 C 配对,但

    249、存在非标准配对,如 G 与 U 错配对。RNA 分子中的双螺旋与 A 型 DNA 双螺旋相似,而非互补区则膨胀形成前面介绍的凸出(bulge)或者环(loop),短的双螺旋区域和环可以形成发夹结构,发夹结构是 RNA 中最普通的二级结构形式,二级结构进一步折叠形成三级结构,RNA 分子只有在具有三级结构时才有活性。RNA 能与蛋白质形成核蛋白复合物,RNA 的四级结构是 RNA 与蛋白质的相互作用形成的,RNA 结构预测是计算生物学与生物信息学的典型问题。致力于发展一种新的 RNA 三级结构预测工具来预测出更多的RNA 三级结构。生物计算领域出现了很多 RNA 三级结构预测算法,典型的 RNA

    250、 三级结构预测算法主要包括两类:一类是基于知识的RNA 三级结构预测算法,另一类是基于物理的 RNA 三级结构预测算法。基于知识的 RNA 三级结构预测算法主要包括 MANIP 算法、ModeRNA 算法、RNABuilder 算法、3dRNA 算法等。ModeRNA 算法和 RNABuilder 算法是基于同源建模的 RNA 三级结构预测算法,通过基于片段的插入方法对没有模板的区域进行建模,并利用力场进行集合优化,获得物理上合理的构象。基于物理的 RNA 三级结构预测算法是根据生物物理的原则,通过搜索 RNA 三级结构的构象空间,寻找自由能最低的构象,采样方法都是动态的,且基于蒙特卡罗算法或

    251、者分子动力学方法进行构象空间搜索采样,典型算法有 FARNA 算法、FARFAR 算法、SWA 算法、中国人工智能系列白皮书 79 SWM 算法等。截至 2023 年 12 月,PDB 数据库中拥有超过 189000 个生物大分子结构可用,含有 RNA 的结构仅占总结构数的 0.86%,其中,包括与其他分子复合的 RNA 结构。PDB 每年新发布的 RNA 结构数量(深色)及数据库中累计的 RNA 结构数量,RNA 结构数量增长缓慢。这表明 RNA 三级结构测定的效率极其低下,RNA 结构数量还远不能满足研究人员对结构和功能探索的需求。图 5-1 为 DNA、RNA 与蛋白质关系的中心法则。图

    252、图 5-1 DNA、RNA 与蛋白质关系的中心法则与蛋白质关系的中心法则 A-U 碱基的 W/W 顺式配对,G-C 碱基的 W/W 顺式配对,以及G-U碱基的W/W顺式配对是RNA标准碱基配对(canonical base pairs)。然而研究发现,目前观察到的 RNA 分子中,标准碱基配对占据了约80%。虽然非标准碱基配对(noncanonical base pairs)仅占 20%,但是对于提高 RNA 三级结构预测精度至关重要,非标准碱基配对的精准预测是 RNA 三级结构预测的重点和难点。RNA 三级结构预测关键有两个方面:一方面,利用构象采样方法生成候选结构;另一方面,利用合适的打分

    253、函数来评估生成的这些候选结构。通常 RNA 三级结构预测算法中采用的评估标准是基于具有最低能量的结构最稳定、最接近原生构象的原理;打分函数的优劣很大程度上会影响 RNA 结构预测结果的好坏,当前已经开发出了一些比较好的打分函数,如 RASP、RNAKB potentia、3dRNAscore 和Rosetta 等打分函数。对于 RNA 结构预测的进一步研究需要从这两个方面进行。此外,RNA 三级结构预测的关键组成还包括分子表示方中国人工智能系列白皮书 80 式和自由度。近年来,研究人员基于生物计算提出了一系列 RNA 三级结构预测算法,包括 ModeRNA54、3dRNA55、FARFAR56

    254、、MANIP57等,这些算法主要基于 RNA 的碱基序列及其二级结构,已在 RNA 的三级结构预测领域取得了一定的进展。此外,Rosetta 的出现也为进一步实现 RNA 三级结构的精确预测创造了可能。Rosetta58是一项用于模拟生物大分子结构的综合性框架模型,作为一套用途广泛、灵活性强的框架,它涵盖了大量有关 RNA 及蛋白质三级结构预测的设计、组装工具与算法,通过对 Rosetta 套件中性能的不断改进,其结构预测效果得到进一步提高,如抗体和抗原建模的对接与设计59,研究人员利用 Rosetta 套件可以有效地预测 RNA 三级结构。RNA 三级结构预测的主要影响因素有自由度、采样方法

    255、、能量函数、分子表示方式。在 Rosetta 框架中,生物计算方法通常受两方面影响。一方面,通过各种抽样方法生成大量候选结构。另一方面,使用一个评估这些候选结构的鉴别器。对于 RNA 或者蛋白质结构预测而言,鉴别器通常是指能量函数60,例如,最近更新的 Rosetta 能量函数61。而低效的采样方法一直是 RNA 高分辨率建模的瓶颈。如果不对构象空间进行有效采样,那么就不可能实现精确的建模和严格的高分辨率能量函数测试。为了提高构象采样能力,Sripakdeevong 等62提出了一种假设,通过每次添加一个残基递归地构建模型,枚举出单个 RNA 数百万种构象,并覆盖所有构建路径。Watkins

    256、等63进一步指出,用随机抽样代替确定性枚举抽样将降低计算成本,提高建模精度。为了进一步降低计算成本,提高建模精度和建模完整度,在采样时采用并行机制,并对建模结果进行进一步判断和处理。2018 年,Liu 等64对包含假结的 RNA 折叠结构加以研究,降低了时间复杂度,改进了预测精度、特异性和敏感性。2019 年,Meng中国人工智能系列白皮书 81 等65针对 RNA 结构预测设计了 RAG-Web 方法,对 RNA 结构有了更深的认识。2020 年,Rivas 等66在研究 RNA 结构时计算了 RNA 碱基序列的变化,阐述了碱基序列的配对规律。2020 年,Menden 等67利用深度学习

    257、技术对 RNA 结构相关的组织表达加以深入分析,其成果发表在 Science 上。2020 年,Liu 等68对 RNA 折叠结构的盆跳图(basin hopping graph,BHG)与障碍树进行深入解析,提出了基于扩展结构的 RNA 预测算法。Guo 等69采用降维技术来研究蛋白质与蛋白质之间,以及 RNA 与蛋白质的关系。2020 年,山东大学 Zheng 和Liu70进行了最大 k-补割问题和稠密 k-子图问题的研究。2021 年,斯坦福大学的 Townshend 等71采用 18 个已知的 RNA 结构设计了一个几何深度学习方法来预测 RNA 结构精确模型,在 blind RNA

    258、预测方面取得了非常好的效果。2021 年,Park 等72对 RNA 介导的 DNA 转座系统和靶向选择的基础结构加以研究,加深了对 RNA 介导功能的理解。2021 年,Niu 等73用深度学习和降维技术来研究 RNA 与蛋白质之间的相互关系。2022 年,Rasmussen 等74在 Nature 上发表了用RNA 结构揭示疾病和健康关系的论文。2021 年 11 月 9 日在南非首次检测到奥密克戎(英文名:Omicron,编号:B.1.1.529)新型冠状病毒变种,对冠状病毒的 RNA 结构研究迫在眉睫。2022 年,Garcia-Beltran等75在 Cell 上提出了基于 mRNA

    259、 COVID-19 的疫苗增强剂对SARS-CoV-2 奥密克戎变种的中和免疫方法,给奥密克戎变种的防治提供了有效途径。2022 年,Liu 等76提出了基于蒙特卡罗策略和原子精度的 RNA 三级结构的预测算法,从原子精度对 RNA 的三级结构进行深入研究。至今为止,RNA 结构中特别是 RNA 冠状病毒的 RNA结构分析预测还存在许多需要研究的问题,期待我们来探索其中的秘密。Liu 等分别在 2018 年、2020 年对 RNA 折叠结构的 BHG 与障碍树进行深入解析,提出了基于扩展结构的 RNA 预测算法。2020 年、中国人工智能系列白皮书 82 2021 年 Liu 等用深度学习和降

    260、维技术来研究蛋白质之间、蛋白质和RNA 之间的相互关系,从而进一步加深了对 RNA 结构的理解,2022年 19 月,Liu 等76-78发表了有关基于蒙特卡罗策略和原子精度的RNA 三级结构的预测算法、细胞组织单细胞 RNA 预测算法、基于组合优化策略的 attC 结合位点预测算法。冠状病毒的 RNA 结构预测NP 完全问题近似算法、近似难度的分析证明等工作具有挑战性,这些挑战性的工作会激发我们极大的研究热情。RNA 结构中特别是 RNA 冠状病毒的 RNA 结构分析预测还存在众多需要研究解决的问题,其中,有些多项式确定性精确算法、绑定蛋白质问题、NP 完全问题近似算法仍有改进的余地79-8

    261、2,如求解含任意假结最大结构数问题是否是 NP 难的,是否存在该问题的最大 k-补割问题近似算法?病毒 RNA 最大茎区问题如何转换为最小结构熵问题?如何提高RNA结构预测近似算法中预测特异性和敏感性?NP难问题的不可近似性的证明也极具挑战性。Artem Nemudryi 等人将 CRISPR 核糖核酸酶的序列特异性 RNA切割与可编程的 RNA 修复相结合,在 RNA 中进行精确的删除和插入,建立了一种重组 RNA 技术直接应用于 RNA 病毒的简易工程83。McCauley 等人发现自然修饰有利于 RNA 的天然折叠,表明共价 RNA修饰可能在生命起源的过程中代谢发挥了关键作用84。202

    262、4年2 月,在科学出版社出版的学术专著中,利用深度学习技术对带权多粒度扫描策略的转录因子结合位点,RNA 结构预测及其复杂性领域加以详细说明85。许多生物分子凝聚体依赖于 RNA 和 RNA 结合蛋白,2024年 3 月的Science Advances发表的论文中,Tebbe 等人提供了一种获取 RNA-蛋白质结构信息的方法,生物分子凝聚物中的配合物可能对生物的整体结构建模至关重要86。2024 年 3 月,Elizabeth Pennis等人在Science发表的论文中利用 RNA 结构特性,可以在动物身上绘制彩色图案,也为探索 RNA 结构机理提出了有趣科学问题87。中国人工智能系列白皮

    263、书 83 RNA 结构决定 RNA 功能、RNA 结构预测算法和人工智能技术的改进,为寻找非编码 RNA 基因,以及为 RNA 病毒和靶向核糖体药物研制提供了新思路、新方法。5.3 机器学习与深度学习 机器学习的核心是设计和分析一些算法,这些算法旨在让机器自动学习数据信息。经典的机器学习方法已经在多个领域取得了巨大的成功,然而语音等数据具有多维度特点,传统的机器学习方法难以对如此高维度的数据进行处理。深度学习(deep learning,DL)的出现为该问题的解决提供了可能。深度神经网络可被视为由多个隐含层组成的神经网络结构模型,属于机器学习的一个分支。调整神经元的连接方式、改变激活函数、增加

    264、网络模型深度等方式可以有效地优化深层神经网络。5.3.1 卷积神经网络卷积神经网络 卷积神经网络(convolutional neural network,CNN)是一种基于视觉感受野机制的具有卷积结构的前馈神经网络,神经元感受野是指视觉神经系统中的视网膜上的一块区域,仅刺激这块区域时才可以激活该神经元,很多感受野交错重叠在一起,最终覆盖整个视线域。卷积神经网络的基本结构单元主要有池化层、卷积层及全连接层,且卷积神经网络具有池化、共享权值及局部感受野等结构特性。与全连接网络相比,卷积神经网络能够进行空间平移、旋转等操作,这样既能保留其数据内部的关联性,还能够有效地减少网络模型中的相关参数,卷积

    265、结构可以有效地降低模型出现过拟合现象的概率。5.3.1.1 最新进展最新进展 近年来,研究人员基于机器学习和深度学习提出了一系列卷积神经网络(CNN)改进算法,算法主要基于 CNN 的基础结构及其特性,已在视觉任务领域取得了一定的进展。此外,FlashInternImage 和 ViT中国人工智能系列白皮书 84 等架构的出现也为进一步实现 CNN 性能提升创造了可能。CNN 性能提升的主要影响因素有网络结构、优化方法、损失函数、模型表示方式。在 FlashInternImage 和 ViT 框架中,深度学习方法通常受两方面影响。一方面,通过各种优化方法改进模型性能。另一方面,使用一个评估这些

    266、模型性能的指标。对于 CNN 或者其他深度学习模型而言,指标通常是指损失函数,例如,最常用的交叉熵损失函数。而低效的优化方法一直是 CNN 性能提升的瓶颈。如果不对模型进行有效优化,那么就不可能实现精确的预测和严格的性能提升。2024 年初提出的一种高效的变形卷积网络 DCNv4,重新思考了动态和稀疏操作在视觉应用中的使用。枚举出单个 CNN 数百万种可能的操作,并覆盖所有构建路径。DCNv4 是一种高效的动态和稀疏操作符,它重新思考了可变形卷积的动态特性,并简化了内存访问,运行速度和性能都有显著提升。相较于前一版本 DCNv3,DCNv4 使用一个线程处理同一组中的多个通道,这些通道共享采样

    267、偏移和聚合权重。这样可以减少内存读取和双线性插值系数计算等工作负载,并且可以合并多个内存访问指令,具体如图 5-2 所示。图图 5-2 DCNv4 相对于相对于 DCNv3 的线程改进的线程改进 配备 FlashInternImage 骨干网络的 DCNv4 不仅提高了运行速度,还改善了各种视觉任务的性能。值得注意的是,DCNv4 还展示了其中国人工智能系列白皮书 85 作为通用操作符的多功能性和有效性。通过将其集成到 ConvNeXt 和ViT 等先进的架构中,DCNv4 进一步提高了吞吐量和准确性。此外,DCNv4 在潜在扩散模型中也有出色的表现,展示了其在增强生成模型方面的潜力。可以用空

    268、间位置选择性地放大或衰减滤波器将降低计算成本以提高模型精度。为了进一步降低计算成本,提高模型精度和完整度,在训练时采用并行机制,并对模型结果进行进一步判断和处理。在卷积之后,通过一个编码器网络将坐标传递,并通过乘法门应用于卷积后的数据,实现了根据空间位置选择性地放大或衰减滤波器的功能,具体流程如图 5-3 所示。图图 5-3 卷积卷积 CoordGate 模块模块 在卷积 CoordGate 模块中,数据 X 和坐标 C 分别通过卷积神经网络(CNN)和多层感知机(MLP)进行处理,然后对得到的张量进行哈达玛乘积(Hadamard product)。这种技术为 CNN 提供了一种新的、高效的计

    269、算空间变化卷积的方法。实验证明,CoordGate 在U-Net中的应用能够在图像去模糊等任务中取得比传统方法更好的效中国人工智能系列白皮书 86 果,为计算机视觉应用提供了更强大和空间感知的解决方案。通过引入了大卷积核可产生三个效果:扩大感受野,增加空间模式的抽象层次,通过增加深度改进模型的一般表示能力。UniRepLKNet 则是一种通用大卷积核 ConvNet 架构。它将 33 卷积添加到小卷积核 ConvNet 中,期望通过扩大感受野、增加空间模式的抽象层次和通过增加深度改进模型的一般表示能力,来提升 CNN 的性能。提出了一种稀疏重参数块(Dilated Reparam Block)

    270、,该块使用非稀疏的小卷积核和多个稀疏的小卷积核层来增强非稀疏的大卷积核层,它的超参数包括大卷积核的大小 K、并行卷积层的大小 k 和膨胀率 r,具体流程如图 5-4 所示。图图 5-4 稀疏重参数块稀疏重参数块 图中包含四个并行层,UniRepLKNet 还引入了一种基于块设计的架构指导原则,既能进行通道间通信又能进行空间聚合的高效结构来增加深度。实验结果显示,经过 ImageNet-22K 预训练后的UniRepLKNet-S 具有很高的准确性,并且运行速度比 RepLKNet-31L快 3 倍。CNN 在基因组学中的应用也日益增多。研究人员利用 CNN 分析基因组序列,识别与特定疾病相关的

    271、突变和调控元件,帮助理解复杂的遗传机制。此外,CNN 还被用于单细胞 RNA 测序数据的分析,帮助识别细胞类型和状态,揭示细胞异质性。在2024 年7 月的 Scientific Reports 发表的研究中,通过整合单细胞 RNA 测序和卷积神经网络,中国人工智能系列白皮书 87 揭示了阿尔茨海默病中小胶质细胞的异质性及其复杂的细胞间相互作用,展示了深度学习在基因组研究中的应用前景88。随着技术的不断进步,卷积神经网络的应用范围将进一步扩大,可能在更多领域带来突破性的成果,尤其是在生物信息学的深层次研究中。5.3.2 三维卷积神经网络三维卷积神经网络 三维卷积神经网络是由二维神经网络改进而来

    272、的。由于二维卷积神经网络不能很好地捕获视频资源中的时空信息,因此产生了三维卷积神经网络。二维卷积的输出为二维特征图,多用于单通道,而在多通道时图像的多通道信息都被压缩了。三维卷积神经网络可以很好地解决该问题,因为其输出仍是三维特征图,能够捕获视频中的空间和时间特征信息。随着机器学习和深度学习方法的发展,卷积神经网络方法开始被广泛地应用。一维卷积神经网络(1D CNN)一般用来学习和处理一维的序列类数据;二维卷积神经网络(2D CNN)通常用于目标监测、自然语言处理及图像处理等领域,典型的 2D CNN 算法有 AlexNet、VGG-Net、GoogLeNet、LeNet-5 等;而三维卷积神

    273、经网络(3D CNN)则广泛应用于医学领域及视频处理领域。近年来,三维卷积神经网络逐渐被应用到了生物大分子结构预测领域。例如,在蛋白质结构预测领域,一种端到端优化的可微模型通过优化全局的几何结构并且不违反局部共价化学的几何三元来耦合局部与全局的蛋白质结构,该模型能够在没有预先获取共同进化数据的条件下预测出新的蛋白质折叠结构。基于神经网络来预测碱基对之间距离的 AlphaFold 算法,通过简单的梯度下降算法实现了无须复杂的采样程序即可生成蛋白质结构。AlphaFold2 仍然是一种基于三维卷积神经网络的蛋白质建模方法,该算法利用多序列比对手段,将有关蛋白质结构的物理和生物学知识整合到深度学习算

    274、法的设计与实现中。三维卷积神经网络在蛋白质结构预测领域的应用提高了蛋白质的中国人工智能系列白皮书 88 结构预测准确度,并且能够在无法明确同源蛋白质结构的条件下进一步研究蛋白质的功能。2024 年 5 月 8 日,Google DeepMind 发布了新一代 AlphaFold3,用于预测蛋白质、DNA、RNA、小分子等的几乎所有生物分子结构和相互作用,AlphaFold3 相较于前版本,能够在与其他分子共同作用时建模蛋白质。在 RNA 结构预测领域,三维卷积神经网络也得到了应用,基于三维卷积神经网络对 RNA 三级结构预测进行评估,即 RNA 3D CNN,该算法使用结构的三维网格表示作为输

    275、入,无须人工提取特征,而是在隐藏层内部直接进行特征处理。3D CNN 的主要优势在于其能够处理三维特征图,直接提取空间和时间信息。这种能力使得它在视频处理、医学影像以及生物信息学等领域表现突出。在视频处理方面,3D CNN 能够同时分析帧之间的变化以及每一帧的细节,增强了运动分析的效果。在蛋白质结构预测领域,3D CNN 的应用也取得了革命性的进展。一种端到端优化的可微模型通过全局几何结构的优化与局部共价化学几何的耦合,能够有效整合局部与全局的蛋白质结构信息。这种方法在没有共同进化数据的情况下,实现了对新蛋白质折叠的预测。Townshend和Eismann提出了一个基于三维卷积神经网络的结构模

    276、型 ARES,该模型不需要任何有关结构模型的相关概念及与评估其准确性相关的假设,具有较强的灵活性。此外,ARES 模型不仅可以针对 RNA 结构预测,还可以应用到其他类型分子系统的结构预测。ARES 模型是一种基于 3D CNN 的结构预测模型,展示了 3D CNN 在生物分子研究中的广泛应用潜力。随着深度学习技术的不断进步,3D CNN 在生物信息学领域的应用将继续扩展,未来的研究可能集中在模型集成、数据增强、多模态学习以及增强模型的可解释性等方向。5.3.3 基于基于 ResNet 的三维卷积神经网络的三维卷积神经网络 残差网络(ResNet)也是卷积神经网络,在保持卷积核大小不变的中国人

    277、工智能系列白皮书 89 情况下,增加网络的宽度及深度能有效地提升网络模型的性能,然而当网络深度过深时,将会出现梯度爆炸或梯度弥散问题,该问题可以通过正则化初始化来解决。然而,退化问题无法通过上述方法解决,仍然会出现随着网络深度增加,模型训练效果可能接近饱和甚至下降的现象。因此,神经网络不能够简单地通过增加深度来进行优化,ResNet 的出现是为了解决网络深度增加带来的网络退化和梯度弥散问题。ResNet 内有多个残差学习单元,ResNet 残差单元可以表示为 (),(llllyh xF x W=+(5.1)1()llxf y+=(5.2)()llh xx=(5.3)式中,l 表示第 l 个残差

    278、单元;xl与 xl+1分别表示其输入和输出;F()表示残差函数;f()表示 ReLU 型激活函数。ReLU 函数有很多种,具体如图 5-5 所示。图图 5-5 ReLU 型激活函数型激活函数 ResNet 从其浅层 l 到深层 L 的学习特征为 1(,)LLliii lxxF x W=+(5.4)ResNet 目前广泛地应用于医学图像分类、超分辨率、重建、合中国人工智能系列白皮书 90 成、疾病检测等医学图像分析领域,并取得了很大进展,因此,本书期望用 ResNet 来对 RNA 三级结构打分函数进行改进和优化。机器学习、深度学习与算法及计算复杂性理论助力 RNA 结构方面的研究。假设 RNA

    279、 片段由 15 个碱基(核苷酸)组成,理论上其结构数为 13 万亿个,这是一个天文数字。冠状病毒约由 3 万个碱基组成,其遗传物质是已知 RNA 病毒中最长的,理论上其结构数更是天文数字,并且病毒在不停地变种,可能的 RNA 三级结构数更是天文数字,不可能逐一用实验来测定,只能用计算的方法,特别是通过设计人工智能近似算法来计算其可能的结构,会得到意想不到的结果。中国人工智能系列白皮书 91 参考文献 1 Lyngs R B,Christian N S.Pseudoknots in RNA pseudoknotted structureC.Proceedings of Recomb,Tokyo,

    280、2000.2 Dulbecco R.A turning point in cancer research:Sequencing the human genomeJ.Science,1986,231:1055-1056.3 Yang Y R,Liu Z D.A comprehensive review of predicting method of RNA tertiary structureJ.Computational Biology and Bioinformatics,2021,9(1):15-20.4 Turner D H,Sugimoto N,Freier S M.Improved

    281、parameters for prediction of RNA structureJ.Biophysics Chemistry,1988,17(2):167-192.5 Mathews D H,Turner D H.Prediction of RNA secondary structure by free energy minimizationJ.Current Opinion in Structural Biology,2006,16(5):270-278.6 Walter A E,Turner D H,Kim J,et al.Coaxial stacking of helixes enh

    282、ances binding of oligo onucleotides and improves predictions of RNA foldingJ.Proceedings of the National Academy of Sciences,1994,91(2):9218-9222.7 Knudsen B,Hein J.RNA secondary structure prediction using stochastic context-free grammars and evolutionary historyJ.Bioinformatics,1999,15(6):446-454.8

    283、 Hochbaum D S.Approximation algorithms for NP-hard problemsJ.ACM SIGACT News,1997,28(2):40-52.9 Vazirani V.Approximation Algorithms.Berlin:Springer,2001.10 Zuker M,Mathews D H,Turner D HAlgorithms and Thermodynamics for RNA Secondary Structure Prediction:A Practical Guide in RNA Biochemistry and Bio

    284、technology.Den Haag City:Kluwer 中国人工智能系列白皮书 92 Academic Publishers,1999:11-43.11 Rivas E,Eddy S R.A dynamic programming algorithm for RNA structure prediction including pseudoknots.Journal of Molecular Biology,1999,285(5):2053-2068.12 van Batenburg F H,Gultyaev A P,Pleij C W,et al.PseudoBase:A datab

    285、ase mRNA pseudoknotsJ.Nucleic Acids Research,2000,28(1):201-204.13 Nixon P L,Rangan A,Kim Y G,et al.Solution structure of a luteoviral P1-P2 frameshifting mRNA pseudoknotJ.Journal of Molecular Biology,2002,322(3):621-633.14 Ieong S,Kao M Y,Lam T W,et al.Predicting RNA secondary structures with arbit

    286、rary pseudoknots by maximizing the number of stacking pairsJ.Journal of Computational Biology,2003,10(6):981-995.15 Lyngs R B.Complexity of Pseudoknot Prediction in Simple ModelsM.Berlin:Springer,2004:919-931.16 Ruan J,Stormo G D,Zhang W.An iterated loop matching approach to the prediction of RNA se

    287、condary structures with pseudoknotsJ.Bioinformatics,2004,20(1):58-66.17 Ren J,Rastegari B,Condon A,et al.HotKnots:Heuristic prediction of RNA secondary structures including pseudoknotsJ.RNA,2005,11(10):1494-1504.18 Huang X,Ali H.High sensitivity RNA pseudoknot predictionJ.Nucleic Acids Research,2007

    288、,35(2):656-663.19 Han B,Dost B,Bafna V.Structural alignment of pseudoknotted RNAJ.Journal of Computational Biology,2008,15(7):489-504.20 徐琳,李晓民,谭光明,等.面向FPGA的RNA二级结构预测并中国人工智能系列白皮书 93 行算法研究J.计算机学报,2006,2(29):233-238.21 陈翔,卜东波,张法,等.基于局部茎搜索的RNA二级结构预测算法J.生物化学与生物物理学进展,2009,36(1):115-121.22 刘元宁,张浩,李誌,等.RNA

    289、假结结构分析J.吉林大学学报(工学版),2009,(S1I):265-269.23 Li F,Gao L,Wang B B.Detection of driver modules with rarely mutated genes in cancersJ.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2020,17(2):390-401.24 Wen X,Gao L,Hu Y X.LAceModule:Identification of competing endogenous RNA modules by

    290、integrating dynamic correlationJ.Frontiers in Genetics,2020,11(3):235-241.25 Yue D,Guo M Z,Chen Y D,et al.A Bayesian decision fusion approach for microRNA target predictionJ.BMC Genomics,2012,13(S8):S13.26 Gupta A,Kumar A,Pl M,et al.Approximation via cost-sharing:A simple approximation algorithm for

    291、 the multicommodity rent-or-buy problemC.Proceedings of the 44th IEEE Annual Symposium on Foundations of Computer Science,Washington,2003:606-615.27 Gupta A,Kumar A,Pl M,et al.Approximation via cost sharing:Simpler and better approximation algorithms for network designJ.Journal of the ACM,2007,54(3)

    292、:1-38.28 Hassin R,Monnot J,Segev D.Approximation algorithms and hardness results for labeled connectivity problemsJ.Journal of Combinatorial Optimization,2007,14(4):437-453.29 Williamson D,van Zuylen A.A simpler and better derandomization for an approximation algorithm for single-source rent-or-buyJ

    293、.Operations Research Letters,2007,35(6):707-712.中国人工智能系列白皮书 94 30 Lau L C M.Singh:Additive approximation for bounded degree survivable network designC.Proceedings of the 40th ACM Symposium on Theory of Computing,New York,2008:759-768.31 Liu Z D,Li H W,Zhu D M.A predicting algorithm of RNA secondary

    294、structure based on stemsJ.Kybernetes,2010,39(6):1050-1057.32 Liu Z D,Xia C L,Zhu D M.Improved algorithm for RNA secondary structure prediction including pseudoknotsJ.Advances in Systems Science and Applications,2010,10(4):710-716.33 Wong T K F,Lam T W,Sung W K,et al.Structural alignment of RNA with

    295、complex pseudoknot structureJ.Lecture Notes in Computer Science,2009,5724(6):403-414.34 Wong T K F,Wan K L,Hsu B Y,et al.RNASAlign:RNA structural alignment systemJ.BMC Bioinformatics,2011,27(15):2151-2152.35 Wong T K F,Chiu Y S,Lam T W,et al.Memory efficient algorithms for structural alignment of RN

    296、As with pseudoknotsJ.IEEE/ACM Transactions on Computational Biology and Bioinformatics,2012,9(1):161-168.36 Liu Z D.Approximation algorithm of RNA folding including pseudoknotsJ.International Review on Computers and Software,2012,7(6):2942-2946.37 Liu Z D,Zhu D M.New heuristic algorithm of RNA struc

    297、ture prediction including pseudoknotsJ.Journal of Computers,2013,8(2):279-283.38 Reinharz V,Ponty Y,Waldisphl J.A weighted sampling algorithm for the design of RNA sequences with targeted secondary structure and nucleotide distributionJ.Bioinformatics,2013,29(13):308-315.中国人工智能系列白皮书 95 39 Liu Z D,Zh

    298、u D M,Ma H W.Predicting scheme of RNA folding structure including pseudoknotsJ.International Journal of Sensor Networks,2014,16(4):229-235.40 Andronescu M,Condon A,Hoos H H,et al.Computational approaches for RNA energy parameter estimationJ.RNA,2010,16(12):2304-2318.41 Andronescu M,Condon A,Turner D

    299、 H,et al.Determination of RNA folding nearest neighbor parametersJ.Methods Molecular Biology,2014,1097:45-70.42 Babai L.Graph isomorphism in quasipolynomial timeJ.Combinatorics and Theoretical Computer Science Seminar,2015,13(2):18-26.43 Keane S C,Heng X,Lu K,et al.Structure of the HIV-1 RNA packagi

    300、ng signalJ.Science,2015,348(6237):917-921.44 Kuchark M,Hofacker I L,Stadler P F,et al.Pseudoknots in RNA folding landscapesJ.Bioinformatics,2016,32(2):187-194.45 Gomez-Schiavon M,Chen L F,West A E,et al.BayFish:Bayesian inference of transcription dynamics from population snapshots of single-molecule

    301、 RNA FISH in single cellsJ.Genome Biology,2017,18(2):164.46 Nuoroozi G,Mirmotalebisohi S A,Sameni M,et al.Deregulation of microRNAs in oral squamous cell carcinoma,a bioinformatics analysisJ.Gene Reports,2021,11(3):101241.47 Wu D,Ding Y,Fan J B.Bioinformatics analysis of autophagy-related lncRNAs in

    302、 esophageal carcinomaJ.Combinatorial Chemistry and High Throughput Screening,2021,24(4):101241.48 Tang L.A path to predict RNA tertiary structuresJ.Nature Methods,中国人工智能系列白皮书 96 2018,15(7):650.49 Weeks K M.Piercing the fog of the RNA structure-omeJ.Science,2021,373(6558):964-965.50 Kappel K,Zhang K,

    303、Su Z,et al.Accelerated cryo-EM-guided determination of three-dimensional RNA-only structuresJ.Nature Methods,2020,17(10):699-707.51 Fan X,Wang J,Zhang X,et al.Single particle cryo-EM reconstruction of 52 kDa streptavidin at 3.2 Angstrom resolutionJ.Nature Communications,2019,10(4):2386.52 Yang Y,Liu

    304、 Z.A comprehensive review of predicting method of RNA tertiary structureJ.Computational Biology and Bioinformatics,2021,9(3):9-15.53 Perez A,Morrone J A,Brini E,et al.Blind protein structure prediction using accelerated free-energy simulationsJ.Science Advances,2016,2(11):e1601274.54 Magdalena R,Kri

    305、stian R,Tomasz P,et al.ModeRNA:A tool for comparative modeling of RNA 3D structureJ.Nucleic Acids Research,2011,39(2):13-22.55 Zhao Y,Huang Y,Gong Z,et al.Automated and fast building of three-dimensional RNA structuresJ.Scientific Reports,2012,2(5):727-734.56 Das R,Karanicolas J,Baker D.Atomic accur

    306、acy in predicting and designing noncanonical RNA structureJ.Nature Methods,2010,7(6):291-294.57 Massire C,Westhof E.MANIP:An interactive tool for modelling RNAJ.Journal of Molecular Graphics and Modelling,1998,16(2):197-205.中国人工智能系列白皮书 97 58 Das R,Baker D.Macromolecular modeling with rosettaJ.Annual

    307、 Review of Biochemistry,2008,77(8):363-382.59 Schoeder C T,Schmitz S,Adolf-Bryfogle J,et al.Modeling immunity with rosetta:Methods for antibody and antigen designJ.Biochemistry,2021,60(6):825-846.60 Li J,Zhu W,Wang J,et al.RNA3DCNN:Local and global quality assessments of RNA 3D structures using 3D d

    308、eep convolutional neural networksJ.PLoS Computational Biology,2018,14(2):1-18.61 Bradley P,Misura K,Baker D.Toward high-resolution de novo structure prediction for small proteinsJ.Science,2010,309(11):1868-1871.62 Sripakdeevong P,Kladwang W,Das R.An enumerative stepwise ansatz enables atomic-accurac

    309、y RNA loop modelingC.Proceedings of the National Academy of Sciences of the United States of America,2011,10(9):20573-20578.63 Watkins A M,Geniesse C,Kladwang W,et al.Blind prediction of noncanonical RNA structure at atomic accuracyC.Science Advances,2018,4(5):eaar5316.64 Liu Z D,Zhu D M,Dai Q H.Pre

    310、dicting model and algorithm in RNA folding structure including pseudoknotsJ.International Journal of Pattern Recognition and Artificial Intelligence,2018,32(10):1-17.65 Meng G,Tariq M,Jain S.RAG-Web:RNA structure prediction/design using RNA-As-GraphsJ.Bioinformatics,2019,13(5):647-648.66 Rivas E,Cle

    311、ments J,Eddy R S.Estimating the power of sequence covariation for detecting conserved RNA structureJ.Bioinformatics,2020,11(9):3072-3076.中国人工智能系列白皮书 98 67 Menden K,Marouf M,Oller S.Deep learning-based cell composition analysis from tissue expression profilesJ.Science,2020,6(28):51-59.68 Liu Z D,Li G

    312、,Liu J S.New algorithms in RNA structure prediction based on BHGJ.International Journal of Pattern Recognition and Artificial Intelligence,2020,34(13):1-14.69 Guo Z F,Wang P P,Liu Z D,et al.Discrimination of thermophilic proteins and non-thermophilic proteins using feature dimension reductionJ.Front

    313、iers in Bioengineering and Biotechnology,2020,8:1-10.70 Zhang P,Liu Z D.Approximating max k-uncut via LP-rounding plus greed,with applications to densest k-subgraphJ.Theoretical Computer Science,2020,849(14):173-183.71 Townshend R,Eismann S,Watkins A M,et al.Geometric deep learning of RNA structureJ

    314、.Science,2021,373(6531):1047-1051.72 Park J U,Tsai A W L,Mehrotra1 E,et al.Structural basis for target site selection in RNA-guided DNA transposition systemsJ.Science,2021,373(2):768-774.73 Niu M T,Wu J,Zou Q,et al.Predicting RNA-binding proteins using deep learningJ.IEEE Journal of Biomedical and H

    315、ealth Informatics,2021,25(9):3668-3676.74 Rasmussen M,Reddy M,Nolan R,et al.RNA profiles reveal signatures of future health and disease in pregnancyJ.Nature,2022,601(15):422-427.75 Garcia-Beltran W F,Denis K J S,Hoelzemer A,et al.mRNA-based COVID-19 vaccine boosters induce neutralizing immunity agai

    316、nst SARS-CoV-2 Omicron variantJ.Cell,2022,185:457-466.中国人工智能系列白皮书 99 76 Liu Z D,Yang Y R,Li D Y,et al.Prediction of RNA tertiary structure based on random sampling strategy and parallel mechanismJ.Frontiers in Genetics,Section Computational Genomics,2022,12(8):1-10.77 Liu Z D,Lv X R,Chen X,et al.Pre

    317、dicting algorithm of tissue cell ratio based on deep learning using single-cell RNA sequencingJ.Applied Sciences,2022,12(5790):1-14.78 Liu Z D,Chen X,Li D Y,et al.Predicting algorithm of attC site based on combination optimization strategyJ.Connection Science,2022,34(1):1895-1912.79 Ito T M,Ogawa S,

    318、Ashida K,et al.Accurate magnetic field imaging using nanodiamond quantum sensors enhanced by machine learningJ.Scientific Reports,2022,12:13942.80 Nguyen L,van Hoeck A,Cuppen E.Machine learning-based tissue of origin classification for cancer of unknown primary diagnostics using genome-wide mutation

    319、 featuresJ.Nature Communications,2022,13:4013.81 Kong J H,Ha D,Lee J,et al.Network-based machine learning approach to predict immunotherapy response in cancer patientsJ.Nature Communications,2022,13:3703.82 Szczerba M,Johnson B,Acciai F,et al.Canonical cellular stress granules are required for arsen

    320、ite-induced necroptosis mediated by Z-DNA-binding proteinJ.Science,2023,16(12):776.83 Artem Nemudryi,Anna Nemudraia,Joseph E.Nichols,et al,CRISPR-based engineering of RNA viruses,Science Advances,2023,eadj8277(2023):1-9.84 McCauley O.Meyer,Ryota Yamagami,Saehyun Choi,Christine D.中国人工智能系列白皮书 100 Keat

    321、ing,Philip C.Bevilacqua,RNA folding studies inside peptide-rich droplets reveal roles of modified nucleosides at the origin of life,Science Advances,2023,eadh5152(2023):1-15.85 刘振栋、肖传乐、邹权、张博峰.生物信息学中RNA结构预测算法与复杂性,北京:科学出版社,2024年2月.86 Tebbe de Vries,Mihajlo Novakovic,Yinan Ni,Izabela Smok,Specific prot

    322、ein-RNA interactions are mostly preserved in biomolecular condensates,Science Advances,2024,eadm7435(2024):1-12.87 Elizabeth Pennisi,Surprise RNA paints colorful patterns on butterfly wings,Science,2024,383(6687):1039-1040.88 Wu,X.,Liu,M.,Zhang,X.et al.Elucidating Microglial Heterogeneity and Functi

    323、ons in Alzheimers Disease Using Single-cell Analysis and Convolutional Neural Network Disease Model Construction.Scientific Reports 14,17271(2024).中国人工智能系列白皮书 101 第 6 章 人工智能识别组学生物标志物 6.1 背景 生物标志物在医学和生物学领域具有重要作用,它们是客观测量和评估的生物特征,能够指示生理或病理过程以及药物对体内生物过程的反应。生物标志物在疾病的早期诊断、预测和预防、个性化治疗、临床试验以及疾病进展和预后评估中发挥着关键

    324、作用,已经成为现代生物学和医学中不可或缺的一部分。例如,癌症中的肿瘤标志物(如PSA 用于前列腺癌,CA-125 用于卵巢癌)有助于早期发现和监测;心血管疾病中的心肌损伤标志物(如肌钙蛋白)用于诊断心肌梗死;糖尿病患者的 HbA1c 水平用于长期血糖控制评估。通过检测这些生物标志物,可以制定个性化治疗方案,提高疗效,减少副作用,同时在新药开发过程中,生物标志物用于评估药物的疗效和安全性。未来,随着技术进步和对生物系统理解的深入,生物标志物的应用将更加广泛和精准,尤其是多重标志物组合、液体活检以及人工智能和大数据分析的结合,将显著提升医学诊断和治疗的效果。人工智能在识别生物标志物的应用日益增多,

    325、尤其在处理和分析高通量组学数据时表现出极大的潜力。组学数据(包括转录组、蛋白质组等)通常包含数千到数万个变量,其中只有少数特征与生理或病理状态密切相关,因此识别生物标志物的过程旨在从高维的组学数据中提取出具有较强预测能力的标志物,其本质为机器学习中的特征选择问题。早期选择生物标志物的方法仅依靠单一组学并结合一些先验信息,如基因之间的调控关系。而随着测序技术的日益成熟,结合多种不同组学选择生物标志物的方法应运而生。6.2 常见的单组学方法 高通量组学数据描述了生物体内各个分子层面上的信息,反应了中国人工智能系列白皮书 102 生物体在正常或疾病状态下的复杂生物学过程。而高通量组学数据中通常仅有少

    326、数特征与特定的生理或病理状态密切相关。特征选择的目的就在于从这些高维数据中筛选出尽可能少的特征,同时尽可能提高模型性能。通常,特征选择方法主要可分为过滤式、嵌入式和包裹式三种类型。6.2.1 过滤式过滤式 过滤式方法通常被用作特征选择过程中的数据预处理步骤,以减少数据集中的特征数量。虽然过滤式方法可以单独用于特征选择,但它们不足以完全捕捉特征与目标之间的复杂关系,特别是在涉及非线性复杂模式或交互作用的任务中。工具包 Caret(Classification And REgression Training)1提供了一个全面的机器学习框架,支持多种模型的训练、参数调优和特征选择。Boruta2是一

    327、个基于随机森林的特征选择方法,通过创建“阴影特征”(即随机打乱的真实特征)来测试每个特征与响应变量之间的相关性是否显著高于随机噪声。由于这种特征选择方式没有与分类器结合,所以选择出的特征通常不能达到最优的分类性能。6.2.2 包裹式包裹式 包裹式特征选择方法是对不同的特征子集进行评估以获得最优集合。这种选择方式将分类器的性能作为最终的评价标准,其目的就是为给定的分类器“量身定做”特征子集。最常见的包裹式方法包括递归特征消除(Recursive Feature Elimination,RFE)等。例如,Guyon等人3提出了一种支持向量机递归特征消除(SVM-RFE)方法,该方法使用 SVM 分

    328、类器来评估特征的重要性,并通过递归的方式逐步删除重要性最低的特征。Li 和 Liu4已通过该方法从自发性早产基因表达数据有效识别出 54 个生物标志物。Kursa 等人5提出了基于随机森林的递归特征消除方法(RF-RFE),该方法利用 RF 分类器度量变量的重要性来进行特征选择。Fortino 等人6提出的一种新型的多岛自适中国人工智能系列白皮书 103 应遗传算法 GARBO。它通过调整遗传操作符的概率和特征的初始排名,有效地优化了特征选择过程。6.2.3 嵌入式嵌入式 嵌入式特征选择是将特征选择和分类器的训练过程融为一体,即在训练分类器的同时自动地选择特征子集,这与过滤式和包裹式的特征选择

    329、方法有明显区别。例如,Feng 等人7采用最小绝对收缩和选择算子(LASSO)回归分析方法,筛选出 14 个差异表达免疫相关基因用于晚期冠状动脉疾病(CAD)的诊断,进而构建了一个基于这些生物标志物的晚期 CAD 的诊断模型。Huang 等人8通过整合1/2L正则化的稀疏性和2L正则化的群组效应,提出了一种混合1/2 2L+正则化(Hybrid 1/2 2L+Regularization,HLR)方法,并采用坐标下降算法优化带有 HLR 惩罚的逻辑回归模型。这一方法有效应对了基因数量远超样本量的挑战,并克服了传统逻辑回归在高维小样本数据分析中的过拟合问题,并能够自主选择有利特征。Daz-Uri

    330、arte 等人9采用随机森林算法进行基因选择和分类,并开发了 R 包 varSelRF,该方法旨在从微阵列数据中提取最尽可能小的基因子集,以实现对样本的精确分类预测。6.3 从网络中发展生物标志物 虽然这些特征选择方法在特定环境下能够找到部分生物标志物,然而它们并没有考虑到生物系统的复杂性以及基因之间的关联性,这导致了所有的基因都是以孤立节点存在于子集中,忽略了基因间的相互作用和协同效应。实际上,复杂疾病往往不仅由单个分子的异常引起,而是在多个信号通路和分子网络的交互作用共同影响下的结果。为了深入探索疾病的分子机制并提升诊断准确率,研究者们开始探求考虑分子间相互作用的方法,即通过分析分子组或更

    331、大的分子集合的相互作用,揭示复杂的分子相互作用和信号传导路径,从而识别出能中国人工智能系列白皮书 104 够反映分子间相互作用的模块生物标志物或网络生物标志物。目前已有一些基于网络的特征选择方法。例如 Horvath 等人10提出了加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA)方法,通过分析基因表达模式的相似性来识别共表达的基因模块,并将这些模块与外部表型关联,从而识别与疾病密切相关的基因集。然而,该方法并未考虑针对特定研究问题的先验特征,且其构建的网络主要是基于数据驱动,侧重于揭示基因之间的共表达关系,而不涉及基

    332、因间的因果关系或调控机制。另一方面,基因调控网络(Gene Regulatory Network,GRN)可以很好地缓解这一问题。GRN 将基因、转录因子等生物分子作为节点,通过分子间的调控关系作为连接节点的边,以网络图的形式直观地反应生物分子间相互作用关系。在 GRN 中,每个节点都充当信息处理的单元,接受来自其他基因的信号调控,并据此调整其自身的表达水平。连线则代表互动的性质与强度,既可以是正向的促进作用,也可以是负向的抑制作用。基于高通量测序技术收集的大量生物数据,结合已知GRN 与特征选择方法,能够显著提升预测模型的准确性及生物标志物的可解释性。为此,Li 等人11将基因网络的连接结构

    333、作为约束条件纳入支持向量机模型中,提出了嵌入式连通网络约束支持向量机方法(CNet-SVM),用于在保持基因间固有图形结构的同时,从高通量组学数据中识别和分类癌症生物标志物。Zhang 等人12提出一种可解释基于网络的博弈论方法,将基因到模型选择的过程视为一个合作博弈,每个特征的组合贡献通过合作博弈理论度量,即 Shapley 值来评估,并通过赤池信息准则(AIC)在模型选择中进行了统计验证,有效区分了肝细胞癌和健康样本。Wang 等人13提出了一种基于不同状态下重构基因调控网络识别生物标志物的生物信息学新方法。Shang等人14采用由特定网络中的表型状态指导的迭代监督模块检测方法,并通过网络拓扑中心性在局部和全局进行基于块的模块排名,以检测中国人工智能系列白皮书 105 可靠的生物标志物模块。6.4 单组学研究的局限性 尽管单组学研究在其特定领域内提供了宝贵的见解,但它们各自都存在局限性