前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nucleic Acids Res. | 生物医学知识文献网站PubTator 3.0

Nucleic Acids Res. | 生物医学知识文献网站PubTator 3.0

作者头像
DrugAI
发布2024-05-13 10:46:32
890
发布2024-05-13 10:46:32
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是美国国立卫生研究院陆致用教授团队的一篇论文。PubTator 3.0是一款结合了最先进人工智能技术的生物医学文献搜索工具,它专注于蛋白质、遗传变异、疾病和化学物质等关键生物医学概念的语义及关联性搜索。该平台已累积提供超过十亿个实体和关系的注释,覆盖约3,600万篇PubMed摘要和600万篇PMC开放获取的全文文章,每周获取最新的相关信息。作者通过一系列实体对比查询展示了PubTator 3.0在文章检索方面的卓越性能,其检索量和前20条结果的精确度均优于PubMed和Google Scholar。此外,整合ChatGPT(GPT-4)的PubTator API显著提升了查询结果的事实性和可验证性。

生物医学文献是满足生物学和临床科学各种信息需求的主要资源,但是文献搜索的需求却差异很大。自然语言处理(NLP)技术为创建生物信息学资源提供了巨大价值,并可能通过启用语义和关系搜索来改进文献搜索。在语义搜索中,用户指明感兴趣的特定概念(实体),系统无论使用何种术语都已预计算好匹配项。关系搜索通过允许用户指定实体之间所需的关系类型来增加精确度,比如化学物质是增强还是减少基因的表达。在这方面,作者介绍了PubTator 3.0,这是一个旨在支持生物医学文献中的语义和关系搜索的新网站。其搜索功能允许用户探索六个关键生物医学实体的自动化注释:基因、疾病、化学物质、遗传变异、物种和细胞系。PubTator 3.0还识别并使得12种常见的实体间关系可搜索,增强了其对定向和探索性搜索的实用性。专注于生物医学科学中感兴趣的关系和实体类型,使PubTator 3.0能够精确地检索信息,同时提供广泛的实用性。

网站总览

图 1

PubTator 3.0 的在线界面如图1所示,旨在支持互动式文献探索,支持语义、关系、关键词和布尔查询。自动完成功能为用户提供语义搜索建议,帮助用户构建查询。例如,系统会自动建议将‘COVID-19’或‘SARS-CoV-2感染’替换为语义术语‘@DISEASE_COVID_19’。关系查询是PubTator 3.0的新功能,它提高了精确性,允许用户针对讨论实体间特定关系的文章进行搜索。PubTator 3.0提供统一的搜索结果,同时搜索约3,600万篇PubMed摘要和超过600万篇PMC开放获取子集(PMC-OA)的全文文章,这样做提高了访问文章全文中大量相关信息的可能性。搜索结果根据查询术语间关系的深度来优先排序:包含语义术语间可识别关系的文章优先级最高。搜索结果的优先级还根据匹配出现的文章部分(例如,标题中的匹配获得更高的优先级)来确定。用户可以进一步通过使用过滤器来细化结果,将返回的文章限定在特定的出版类型、期刊或文章部分。

处理流程与结果分析

图 2

图2A展示了PubTator 3.0的处理流程。AIONER在PubMed摘要和PMC-OA全文文章中识别了六种类型的实体。实体注释通过专门的映射器与数据库标识符相关联,并且BioREx标识实体之间的关系。提取的数据存储在MongoDB中,并使用Solr进行搜索。PubTator 3.0包含超过16亿个实体注释(460万个独特标识符)和3,300万个关系(880万个独特对)。它在实体识别和规范化性能上超越了其前版本PubTator 2,也被称为PubTator Central(图2B)。图2C展示了PubTator 3.0的关系提取能力。与之前最先进系统在BioCreative V化学-疾病关系语料库相比,PubTator 3.0提供了明显更高的准确性。此外,当评估与PubMed和Google Scholar比较的随机实体对查询样本时,PubTator 3.0获取到更多的文章并且在前20个结果中精度更好(图2D)。

讨论与结论

自2015年以来,PubTator的早期版本已处理超过十亿次API请求,支持了广泛的研究应用。许多研究利用PubTator的注释进行了特定疾病的基因研究,包括优先排序候选基因、确定基因-表型关联以及识别疾病共病的遗传基础。有几个项目使用PubTator创建了基因和遗传变异资源或丰富了疾病知识图谱。此外,PubTator还支持了生物标注工作和NLP基准测试的创建。随着准确性的提高,PubTator 3.0将更好地支持这些用例。引入关系注释到PubTator 3.0为扩展使用场景开辟了新的途径。通过预先从文献中计算出的关系,复杂的研究问题往往可以直接得到回答。评估遗传变异的临床医生,例如针对罕见疾病或个性化医疗,可能会探索特定遗传变异与疾病之间的关系。另一方面,生物学家可能利用多个基因之间的相互作用来组建复杂的分子途径。

PubTator 3.0提供了一整套功能和工具,使研究人员能够快速浏览不断扩大的生物医学文献,加速研究进程,并为科学发现解锁宝贵的洞见。PubTator 3.0的界面、API和批量文件下载可在以下网址获得:https://www.ncbi.nlm.nih.gov/research/pubtator3/。

编译 | 于洲

审稿 | 王建民

参考资料

Chih-Hsuan Wei, Alexis Allot, Po-Ting Lai, Robert Leaman, Shubo Tian, Ling Luo, Qiao Jin, Zhizheng Wang, Qingyu Chen, Zhiyong Lu, PubTator 3.0: an AI-powered literature resource for unlocking biomedical knowledge, Nucleic Acids Research, 2024;, gkae235, https://doi.org/10.1093/nar/gkae235

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MongoDB
腾讯云数据库 MongoDB(TencentDB for MongoDB)是腾讯云基于全球广受欢迎的 MongoDB 打造的高性能 NoSQL 数据库,100%完全兼容 MongoDB 协议,支持跨文档事务,提供稳定丰富的监控管理,弹性可扩展、自动容灾,适用于文档型数据库场景,您无需自建灾备体系及控制管理系统。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档