北京大学高歌：21世纪的生命科学属于数据科学丨独家专访

深科技 | 2021-09-16 06:48:10 阅读：205

“21 世纪常常被视为生命科学的世纪，而我相信，21 世纪的生命科学将会是数据科学。” 高歌研究员告诉生辉。

高歌现为北京大学生物医学前沿创新中心 (BIOPIC)、北京未来基因诊断高精尖创新中心 (ICG)、生物信息中心 (CBI) 暨蛋白质与植物基因研究国家重点实验室研究员、博士生导师。他长期从事新一代的生物信息方法和技术研究，其团队正在基于大数据、统计学习等计算方法和单细胞多组学技术，深入挖掘和整合高通量生物数据，在单细胞水平上精准解析细胞调控图谱并探索其在生物医****领域的应用方向。
他形象地将其团队从事的事情描述为科学地 “看相” 和 “算命”，即利用计算的方法解析生物大数据中蕴含的新生命规律。具体来说就是基于基因组、转录组等大规模组学测量数据 (科学 “看相”)，通过多种计算方法有效挖掘、整合、建模，发现新现象、总结新规律，形成对生命过程的统一解析和理解，进而将其应用于生物医****领域的诊治中，实现 “科学算命”。其技术路线可以总结为 “数据导向”(Data-Oriented)、“方法驱动”(Methodology-Driven)、“干湿结合”(in silico for in vivo)。细胞是构成生命的基本单元，细胞中多种调控机制造就了机体中功能形态丰富多样的细胞群体，并进而构成了早期发育、肿瘤发展等多种关键生理病理现象的生物学基础。而现阶段，要实现 “科学看相” 和 “科学算命”，核心工作就在于精准解析细胞调控图谱。 “随着近年来以单细胞多组学数据为代表的新一代测量数据爆发式增长，以深度学习、因果推断等为代表的统计建模方法不断取得新进展，以及以混合计算、弹性计算等为代表的计算技术快速铺开，我们有望在近期内精准解析人类细胞调控图谱。”

“数据科学时代”

“21 世纪的生命科学正在进入数据科学时代，生命科学的整体研究方法或者研究思路很大程度上都将随着数据量的快速增长而变化，这种改变将会带来巨大、深远的影响。” 高歌说。如何在海量的生物学数据中有效挖掘新的生物学知识是利用计算方法解析生命的关键，而无论是新型的深度学习模型、还是经典的统计学习方法，都高度依赖高质量的生物学数据。近年来，单细胞多组学测量技术的快速发展是获取高维度生物数据的关键之一。
单细胞多组学测量技术是指对单个细胞包含的基因组、表观基因组、转录组、蛋白质组和代谢组等组学信息进行测量分析，从而获得单个细胞在多个层面的运作状态。在此基础上，科研人员可以进一步开发新的计算方法，从多个层面分析细胞，整合和解读不同层面的数据，以全面理解细胞的组成成分和运作机制。进一步地，在临床上，多组学数据能够帮助人们理解细胞在病理状态和生理状态之间的差异，并精准锁定诊断标志物和治疗性靶点。 “作为近年来生命科学技术领域最大进展之一的单细胞多组学技术正在蓬勃发展。随着多组学技术产生的数据量持续增长，我们在历史上第一次有可能从整体上构建细胞调控图谱，进而在单细胞水平上对基因表达调控及其生理、病理结果进行精准解析，并最终实现在计算机中建立细胞调控的高精度模型，构造 Virtual Cell。” 高歌说。

“数据导向，方法驱动”

“在生命科学领域，数据本身具有不可忽视的价值。然而，产生海量数据只是第一步；只有发展新的计算技术与方法解析、挖掘这些宝贵的数据，才能发现新的生物学现象与规律，并进而将其运用于生物医学的实践中。” 高歌说。 “数据导向，方法驱动” 是高歌团队的核心研究路线。高歌相信，方法学（方法特指计算方法）的进步是获得新发现的有效途径，并将为从根本上提升对生命系统的理解提供全新的视角与可能。有鉴于此，该团队近年来围绕生物数据的解析、挖掘与整合，开发了一系列生物信息学新方法与新技术。截止目前，其团队已自主研发 10 余款生物信息新算法软件和数据库，外部有效访问量累计逾 10 亿次。
具体来说，高歌团队已经开发出了多款深度学习模型和组件，包括最新发表的新型卷积层 vConv、新型池化层 ePooling、单细胞转录组数据整合和注释的新方法 Cell BLAST 等。据介绍，其基本思路是根据生物数据特点，针对现有深度学习模型或者组件进行调整和优化，进而从底层重构一套适用于生物学的深度学习框架。
高歌告诉生辉，对于一个计算模型的评价可以从两个方面来看，一是计算模型本身的性能；二是可解释性，也就是帮助科学家理解生物数据中所蕴含的信息与知识的能力。今年 7 月，该团队在线发表最新深度学习组件 —— 基于自适应卷积核的新型卷积层 vConv。标准卷积神经网络的卷积核长度通常是固定的，但是在生物信号检测过程中，信号本身的长度并不固定。基于此，该团队针对生物医****领域的数据对卷积神经网络里的常用卷积层进行了改良。高歌告诉生辉，该模型最大的创新之处在于通过针对细分领域的数据特点设计深度学习组件，将标准卷积神经网络中长度固定的卷积核变为可自动调整长度的卷积核。 ePooling 则是该团队开发的一种具有明确概率可解释性的新型池化层，它从概率可解释性出发，通过理性设计，对当前主流的池化方法进行了改进，不仅提升了可解释性、也提高了性能。 2020 年 7 月，该团队在 Nature Communications 上发表了一种基于深度对抗学习模型的数据检索和注释新方法 ——Cell BLAST，和一个高质量单细胞转录组参考数据库 ACA。今年3月，这项研究入选了《基因组蛋白质组与生物信息学报》评选的 2020 年度 “中国生物信息学十大进展”。
在比较跨数据集时，批次效应往往会降低预测的准确性和可靠性，并影响现有数据的利用，借助对抗学习方法，Cell BLAST 可以有效地消除数据之间的批次效应。此外，Cell BLAST 还能够发现存在于用户提交的待查数据集、但不存在于 ACA 参考数据集中的细胞类型。据悉，该团队还在开发深度学习模型 GLUE 以整合包括转录组、表观组、蛋白质组等在内不同维度的单细胞多组学数据，最新研究结果近期已刊登于预印本网站 bioRxiv 上。

正在探索具有长期价值的落地场景

今年是高歌加入北京大学的第 10 个年头。目前，高歌团队的工作专注于构建解析细胞调控图谱，并探索其在早期发育、消化道肿瘤和免疫相关疾病上的应用潜力。科研成果更大的意义是走向转化应用，真正为生命科学行业以及应用带来变革。对于科研转化落地，高歌也有自己的想法。 “从落地角度来看，我们希望可以找到更有意义和价值的应用场景和方向。对于具体应用方向，我们需要考虑自己能够为行业提供哪些具有长期价值、长期竞争优势的科研成果。” 高歌说。虽然还没有具体的规划，但是该团队现阶段也有了一些前期的考虑和计划。高歌认为，现阶段多组学技术已经应用于精准医学研究，预计未来 5 年可能会进一步应用于精准医学临床诊断与治疗。
目前在产前诊断、靶向用****等领域广泛应用的遗传筛查仍主要基于对疾病易感基因遗传变异的检测，然而，不完全外显 (reduced penetrance, 即基因型有缺陷的前提下没有表型上的变化) 等情形会严重影响最终诊断的信度与效度。高歌告诉生辉，现在实验室的一项工作就是降低遗传疾病诊断的误差，现已初步获得了一些可以降低误差的发现。目前高歌团队仍将以基础科研为主，不过他们正在探索场景落地的可能性。高歌继续补充，“如果要找到具有长期价值的方向，我觉得需要与高校的技术创新能力结合起来。从基础到应用的过程中，高校往往聚焦于 0-1 的阶段，大型企业会专注于 100-10000，而我们希望能着眼于填补 1-100 之间的空白。”

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。