nature

当前位置: Cell » Research Journals » Cell子刊:清华大学曾坚阳研究组阐释深度学习解码蛋白质翻译过程

Cell子刊:清华大学曾坚阳研究组阐释深度学习解码蛋白质翻译过程

摘要 : 2017年9月27日,国际著名学术杂志《Cell》子刊《Cell Systems》期刊在线发表了清华大学交叉信息研究院曾坚阳研究组题为《利用深度学习分析核糖体停滞现象与蛋白质翻译动态》(“Analysis of Ribosome Stalling and Translation Elongation Dynamics by Deep Learning”)的研究论文

2017年9月27日,国际著名学术杂志《Cell》子刊《Cell Systems》期刊在线发表了清华大学交叉信息研究院曾坚阳研究组题为《利用深度学习分析核糖体停滞现象与蛋白质翻译动态》(“Analysis of Ribosome Stalling and Translation Elongation Dynamics by Deep Learning”)的研究论文,首次利用深度学习技术对蛋白质翻译的动态过程进行建模,提出了一种全新的基于高通量测序技术的深度学习计算框架,并以此揭示了蛋白质翻译这一基本生物过程的调控机制。成果被第21届国际计算分子生物学大会(RECOMB 2017)接收,并作为计算生物学新兴研究方向的代表性工作被邀请做大会论文口头报告。

蛋白质翻译是遗传信息从其携带者DNA到执行者蛋白质传递的关键一环,也是分子生物学中心法则的核心环节。在蛋白质翻译的过程中,一种名为核糖体(ribosome)的细胞器会沿着信使RNA链,按照遗传密码子的对应法则依次将核苷酸序列翻译成氨基酸序列,继而形成多肽链。近年来,生物学家们通过各种高通量测序技术测量发现,蛋白质翻译的过程是动态变化的,其中大量存在一种核糖体翻译停滞(ribosome stalling)的现象,这一现象与翻译过程中的蛋白质折叠和定位等一系列重要过程有关。

作为该领域的一项突破性进展,曾坚阳研究组首次提出了一种基于机器学习的计算框架来研究核糖体停滞现象的调控机制和功能,并成功利用深度学习技术实现了对蛋白质翻译过程中核糖体翻译停滞的精确预测。传统的观点认为,mRNA序列信息只是通过密码子表编码氨基酸序列,而本工作首次对mRNA序列中编码蛋白质翻译的调控信息进行建模。该模型仅以信使RNA的一级序列作为特征输入,没有整合其他的生物学特征。进一步地,研究人员基于深度学习自动提取的隐藏特征以及模型精确的预测结果,对调控核糖体翻译停滞的各种因素以及该现象的生物学功能进行了系统性的分析,在验证前人研究成果的同时,提出了许多新的假设,为进一步探究蛋白质翻译的动态特征打下了坚实的基础。

该文的通讯作者为交叉信息研究院助理教授曾坚阳,论文共同第一作者为交叉信息研究院博士张赛(目前在美国斯坦福大学进行博士后研究)、药学实验班博士生胡海林(目前为医学院在读博士生)以及本科生周镜天(目前在美国加州大学圣地亚哥分校攻读博士学位)。该项工作与美国加州大学河滨分校的姜涛教授(清华大学千人计划讲席教授)合作完成。

此外,本文的姊妹工作,《TITER: 利用深度学习预测蛋白质翻译起始位点》(TITER: predicting translation initiation sites by deep learning),已于2017年7月在国际计算生物学知名期刊《Bioinformatics》发表,同时被国际分子生物学智能系统大会(ISMB 2017)收录为大会口头报告。研究利用深度学习技术预测转录组中的翻译起始位点,首次将预测范围扩大到了转录组中所有种类的翻译起始位点,并对翻译起始位置的序列特征、调控功能、突变效应做了深度解析。该项工作共同第一作者为张赛和胡海林同学,并与姜涛教授及医学院公共健康研究中心张磊教授合作完成。这两项工作的完成为人类解码蛋白质翻译过程提供了重要信息。

基于深度学习模型的蛋白质翻译过程的研究框架图

原文链接:

Analysis of Ribosome Stalling and Translation Elongation Dynamics by Deep Learning

原文摘要:

Ribosome stalling is manifested by the local accumulation of ribosomes at specific codon positions of mRNAs. Here, we present ROSE, a deep learning framework to analyze high-throughput ribosome profiling data and estimate the probability of a ribosome stalling event occurring at each genomic location. Extensive validation tests on independent data demonstrated that ROSE possessed higher prediction accuracy than conventional prediction models, with an increase in the area under the receiver operating characteristic curve by up to 18.4%. In addition, genome-wide statistical analyses showed that ROSE predictions can be well correlated with diverse putative regulatory factors of ribosome stalling. Moreover, the genome-wide ribosome stalling landscapes of both human and yeast computed by ROSE recovered the functional interplays between ribosome stalling and cotranslational events in protein biogenesis, including protein targeting by the signal recognition particles and protein secondary structure formation. Overall, our study provides a novel method to complement the ribosome profiling techniques and further decipher the complex regulatory mechanisms underlying translation elongation dynamics encoded in the mRNA sequence.

来源: Cell Systems 浏览次数:0

我们欢迎生命科学领域研究成果、行业信息、翻译原创、实验技术、采访约稿。-->投稿

RSS订阅 | 生物帮 | 粤ICP备11050685号-3 ©2011-2014 生物帮 Cell  All rights reserved.