前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >榕树集--从蛋白质的二级结构出发预测功能

榕树集--从蛋白质的二级结构出发预测功能

作者头像
DrugSci
发布2024-05-08 15:45:04
980
发布2024-05-08 15:45:04
举报
文章被收录于专栏:FindKeyFindKey

简介

各位观众,劳动节快乐。今天介绍一篇发表在Briefings in Bioinformatics,劳动节期间见刊的文章。

GPT评: 突破常规!揭示蛋白质二级结构的神秘力量,预测功能大揭秘!

hhh,旺德福。

预测蛋白质功能对于了解生命过程,疾病预防以及寻找新靶点都至关重要。本文介绍了一种基于深度神经网络的预测模型(DeepSS2GO, Secondary Structure to Gene Ontology)。其融合了蛋白质的二级结构特征,序列和相关的同源信息,避开了直接使用三维结构的时间耗费。其预测性能超过了目前最先进的算法,预测速度也快了5倍,非常适用于大规模测序数据。

Code : https://github.com/orca233/DeepSS2GO

DeepSS2GO的架构

DeepSS2GO由三个模块组成:

  • 一个专注于二级结构的深度学习模块(model-ss8)
  • 一个专注于主要序列的深度学习模块(model-aa)
  • 一个面向同源比对的模块。

输入的主要序列被转换为二级结构(SPOT-1D-LM)。然后,主要序列和二级结构(H、G、I、E、B、T、S、C)分别通过深度学习模型进行预测,获得Pred-aa和Pred-ss8。这些预测结果与Diamond预测的Pred-bit-score结合起来,得到Final-score,公式如下, 其中α和β是两个超参数:

结果

作者进行了两类实验:指定的跨物种测试和包含所有物种的测试。

  • 跨物种测试:即在一个物种上进行训练,然后在另一个物种上进行测试。
  • 全面的物种测试:作者利用了CAFA3数据集进行基准比较,并使用SwissProt数据集开发了一个模型,以预测新物种中的蛋白质功能。

作者通过在来自不同物种的蛋白质上进行跨物种训练预测,验证了二级结构在预测功能方面优于主要序列。其次,作者将DeepSS2GO与其他最先进的方法进行比较,展示了算法的准确性和效率。第三,作者对DeepSS2GO进行消融实验。最后,作者进行了两个案例研究,以验证算法在预测关键功能方面的有效,快速和全面。

二级结构的优越性

利用整个SwissProt数据集进行训练和测试,和主要氨基酸序列相比,二级结构在预测蛋白质功能方面具有更明显的优势。因为结构决定功能;此外,通过对不同物种进行交叉训练和测试,进一步验证了基于二级结构算法的优越性,二级结构提供了更丰富的结构信息,使其在蛋白质功能预测中具有更高的准确性和预测能力。

和state-of-the-art 方法的比较

DeepSS2GO算法不仅在提升CAFA3数据集上的预测性能方面超越了可比方法,还显著提高了处理速度。利用CAFA3数据集进行训练和测试,DeepSS2GO与其他五种基于序列的方法进行比较,在各种评估指标中展示出优越性。值得注意的是,DeepSS2GO在预测准确性和计算效率方面表现出色,仅需1.2分钟即可处理CAFA3测试数据集中的1000个蛋白质,这是显著进步。此外,其友好的设计减少了用户重新训练的成本,并且可以轻松适应不断变化的数据库。

消融实验

作者进行了消融研究,旨在评估DeepSS2GO框架中三个模块(aa、ss8和Diamond)的效果。结果显示,同时使用所有三个模块可以获得最佳结果,尤其在MFO、CCO和BPO方面。单独使用ss8模块能够取得最佳的AUPR分数,而Diamond模块在Fmax值方面表现最佳。另外,与仅使用aa模块相比,aa+Diamond和ss8+Diamond的组合更有优势。最重要的是,Diamond模块的使用能够补充model-aa或model-ss8的不足,从而提高整体预测准确性。

讨论

DeepSS2GO算法通过整合蛋白质二级结构特征,将基于主要序列的测序效率与利用部分空间结构信息的准确性结合起来,从而弥补了序列和三维结构方法在蛋白质功能预测中的局限性。其准确性、关键洞察力、全面性、效率性和易更新性使其成为优秀的功能注释工具,具有优于其他算法的性能表现。然而,虽然DeepSS2GO已取得显著成果,但仍有进一步改进的空间,例如采用最新的算法进行特征提取、开发适用于更长序列的二级结构预测方法,以及整合更多信息以加强功能预测的广度和准确性。综上所述,DeepSS2GO在蛋白质功能预测领域具有潜力,有望成为未来研究的重要工具,促进生物信息学的发展和应用。

作者简介

廖茂富博士:南方科技大学生命科学学院讲席教授,南科大高分辨生物电镜结构研究院院长。其研究领域为:冷冻电镜结构、膜蛋白复合物的分子机制。实验室主页:https://liao.bio.sustech.edu.cn/

倪鸣博士:华大智造(MGI)高级副总裁。其研究领域为:系统生物学、高通量测序技术和单细胞组学。

宋甫博士:南方科技大学生命科学学院研究助理教授。其研究领域为:生物信息学、深度学习、蛋白质功能和结构预测。

苏佳岐博士:南方科技大学生命科学学院在读博士。其研究领域为:计算辅助药物设计、蛋白质设计、深度学习。

参考

Fu V Song, Jiaqi Su, Sixing Huang, Neng Zhang, Kaiyue Li, Ming Ni, Maofu Liao, DeepSS2GO: protein function prediction from secondary structure, Briefings in Bioinformatics, Volume 25, Issue 3, May 2024, bbae196, https://doi.org/10.1093/bib/bbae196

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • DeepSS2GO的架构
  • 结果
    • 二级结构的优越性
      • 和state-of-the-art 方法的比较
        • 消融实验
        • 讨论
        • 作者简介
        • 参考
        相关产品与服务
        腾讯云服务器利旧
        云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档