发布日期:2024-10-10 浏览次数:
新型人工智能可以解码DNA隐藏的“语言”
大型语言模型(艺术图)基于DNA序列训练。
图片来源:物理学家组织网络
科技日报记者 张佳欣
DNA包含了维持生命所需的基本信息。了解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。理解这些信息是如何存储和组织的,一直是20世纪最大的科学挑战之一。现在,借助基于人类DNA训练的新型大型语言模型GROVER,研究人员有望解码隐藏在基因组中的复杂信息。德国德累斯顿工业大学生物技术中心开发的GROVER将人类DNA视为文本,通过学习其规则和语境来提取DNA序列的功能信息。这个新工具有望彻底改变基因组学,加快个性化医疗的发展。新一期《自然·机器智能》杂志上发表了相关研究论文。
通过文本训练,大型语言模型发展了在多种语境中使用语言的能力。研究者们设想把生命代码DNA作为一种语言,对一种大型语言模型进行训练。——GROVER。
就语言而言,人们谈论的是语法、句法和语义。对DNA而言,这意味着学习核苷酸的序列等等。正如GPT模型学习人类语言一样,GROVER基本上学习了DNA“语言”。
研究表明,GROVER不仅可以准确预测下一个DNA序列,还可以用来提取具有生物学意义的上下文信息,例如识别DNA上的基因启动子或蛋白质结合点。另外,GROVER还学习了“表观遗传”的过程,即在DNA序列没有改变的情况下,基因表达的可遗传变化。
在DNA中,GROVER有望解锁包含关于人类性质、疾病易感性和治疗反应的关键信息。研究者认为,通过语言模型了解DNA的规则,有助于揭示隐藏在DNA中的生物意义,从而促进基因组学和个性化医学的发展。