科学家构建迄今最大规模开放式核磁共振数据库

科学家构建迄今最大规模开放式核磁共振数据库
2025年06月04日 19:45 滚动播报

中国科学院上海药物研究所研究员郑明月团队开发了一种由大型语言模型驱动的NMR数据提取工具NMRExtractor,能够从海量开放获取的文献中自动提取实验性核磁共振(NMR)数据,并构建出了迄今为止规模最大的开放式NMR数据库NMRBank。5月28日,相关研究发表于《化学科学》。

NMR光谱是化学研究中强大且应用广泛的技术之一,能够提供分子环境的详细信息,对结构和原子间相互作用非常敏感。在过去二十年中,研究人员开发了多个数据库用于存储分子的1H和13C NMR光谱,但这些数据库的规模仍较为有限。

研究团队提出的NMRExtractor,可自动从科学文献中提取化合物名称、NMR条件和1H/13C NMR化学位移等关键信息。基于该工具,研究团队构建了NMRBank,其中包含225809条NMR数据记录,每条记录包括化合物的IUPAC名称、SMILES描述符、1H/13C NMR化学位移、模型赋予的置信度评分,以及文章PMID和期刊名称等元数据。分析结果显示,NMRBank所覆盖的化学空间显著超越现有的公共NMR数据集。

?

研究团队表示,该提取流程具备高度可扩展性,支持新研究论文的自动处理,使NMRBank可持续更新,不仅拓展了开放NMR数据的覆盖范围,也为基于人工智能的NMR预测及相关化学研究奠定了数据基础。

相关论文信息:http://doi.org/10.1039/d4sc08802f

文献化学论文
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片