A foundation model of transcription across human cell types
引言
转录调控是生物体内基因表达调控的核心机制,其细胞特异性一直是生物学研究中的重大挑战。近年来,随着人工智能技术在生物医学领域的应用,基础大模型(foundation models)为解决这一难题提供了新的思路。2025年1月8日,清华大学智能产业研究院(AIR)兰艳艳教授与哥伦比亚大学、卡内基梅隆大学合作的论文“A Foundation Model of Transcription Across Human Cell Types”在《Nature》正式发表。该研究开发了一个名为GET(Gene Expression Transformer)的可解释基础模型,通过自监督预训练学习转录调控语法,并在多种细胞类型中实现了高精度的基因表达预测。本文将对该研究进行详细解析,探讨其科学意义及潜在的临床应用前景。
研究背景
转录调控在生物过程中扮演着核心角色,其细胞特异性一直是生物学研究中的重大挑战。传统的转录调控研究主要依赖于实验方法,但这些方法往往耗时且成本高昂。近年来,随着高通量测序技术的发展,如ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing),研究者能够获取大量细胞特异性的染色质可及性数据。这些数据为利用计算模型研究转录调控提供了可能性。
然而,现有的计算模型在处理细胞特异性和非编码调控区域的复杂交互时仍存在局限性。为此,研究团队设计了GET模型,该模型通过自监督预训练学习转录调控语法,并在配对的单细胞转录组数据上进行微调,从而实现对基因表达的精准预测。
研究方法
-
数据来源:研究团队使用了213种人类胎儿和成年细胞类型的染色质可及性数据,这些数据通过ATAC-seq技术获取,涵盖了数百倍于单个基因组的数据量。
-
模型设计:GET模型基于类似BERT的掩码机制,通过自监督预训练学习转录调控语法。该模型能够从大量数据中提取有效信息,并保持可解释性。
-
模型训练:GET模型在染色质可及性数据上进行自监督预训练,然后在配对的单细胞转录组数据上进行微调,学习将调控语法转化为基因表达。
-
验证实验:研究团队通过多种实验验证GET模型的性能,包括基因表达水平预测、顺式调控元件识别以及转录因子物理互作推断。
研究结果
-
基因表达预测:GET模型仅依赖染色质可及性数据和序列信息,就能在从未见过的细胞类型中实现实验级别的基因表达预测准确性。
-
适应性验证:GET模型展现出出色的适应性,能够适应新的测序平台和分析方法,并在广泛的细胞类型和条件下进行调控推断。
-
转录因子互作网络:GET模型揭示了普遍性和细胞类型特异性的转录因子互作网络,为理解细胞命运决定和疾病发生提供了新的视角。
-
B细胞急性淋巴细胞白血病(B-ALL)研究:GET模型在B细胞中的应用发现了由无结构区域(IDR)介导的淋巴细胞特异性转录因子互作关系,涉及PAX5和NR2C2之间的相互作用。这一发现解释了某些白血病相关突变为何会增加患者发生白血病的风险,并为开发针对性治疗策略提供了新的思路。
研究意义
-
技术突破:GET模型的成功开发证明了基础大模型在生物问题中的可泛化和可迁移性,为转录调控研究提供了新的工具。
-
临床应用:GET模型在B-ALL研究中的突破性发现为理解疾病分子机制和开发治疗策略提供了新的方向。
-
研究扩展:GET模型的多功能性使其能够应用于其他生物学问题,如细胞命运决定和疾病发生机制的研究。
结论
“A Foundation Model of Transcription Across Human Cell Types”这篇研究论文通过开发GET模型,为转录调控研究提供了新的计算工具。该模型不仅在多种细胞类型中实现了高精度的基因表达预测,还在B-ALL研究中揭示了新的分子机制。这一研究为未来基因表达调控和疾病治疗提供了新的思路和方法,具有重要的科学意义和临床应用前景。
名称 | 货号 | 规格 |
β-Actin (C4) | sc-47778 | 200μg/ml |
X-VIVO 15 with Gent L-Gln, Phen Red, 1 L | 04-418Q | 1L |
Doxycycline hyclate, matrix metalloprotease inhibitor | ab141091-5g | 5g |
Doxycycline hyclate, matrix metalloprotease inhibitor | ab141091-25g | 25g |