谷歌的人工智能试图预测酵母细胞基因将如何表达自己
在与Calico Life Sciences合作进行的一项最新研究中,Google研究人员建立了一个“全基因组”机器学习模型,用于调节基因表达。在该过程中,来自基因的信息用于创建功能性蛋白质或RNA。种酵母。虽然这项工作着重于酵母,但它可能适用于人类,因为它揭示了基因如何作为一个系统,一个核心且只是部分被理解的微生物难题共同发挥作用。
正如该团队在技术论文和博客文章中所解释的那样,酵母(一种单细胞生物)会发芽(即产生几乎在基因上相同的后代)30次后变老并死亡。发芽会在强大的显微镜下可见的酵母细胞上产生“疤痕”,从而可以从其外观确定细胞的年龄。
利用这一点,Google Research的Ted Baltz及其团队在Calico产生的酵母生长数据集上训练了一个模型,该数据集包含200多个不同酵母菌株实验的结果。在每个实验过程中,激活了菌株中的单个基因,并在90分钟内测量了6,000个基因的表达水平八次,总共进行了近2000万次单独测量。
Google研究人员的方法是将整个数据集建模为一个微分方程系统,从而使基因表达的变化率与所有基因表达水平的加权和成正比。Baltz报告说,最终,这项工作涉及超过5000万条正则化途径,这为有关哪些基因将编码调节子(即涉及控制一个或多个其他基因表达的基因)的预测提供了依据。
为了验证模型的预测,研究人员针对包含10个新酵母菌株的验证数据集对其进行了测试。他们报告说,在实验中保留了10个预测中的3个,其中包括一个科学家以前没有发现的基因。
“基于详尽的实验,我们建立了一个全基因组模型来调节[酵母]中的基因表达,并通过实验验证了其中的一些结果,从而使人们能够对不太了解的生物系统进行进一步的研究,” Baltz说。“我们的模型能够在没有先验生物学知识的情况下识别出这些,表明这些[机器学习]技术可能会扩展到研究较少的其他领域或生物。”
谷歌在AI和基因表达方面的工作是在一项研究发表之后进行的,该研究描述了一种“大规模平行报道基因检测”(MPRA),该框架旨在研究DNA。研究人员声称,它可以用于创建可预测工业和生命科学应用中基因调控的AI模型。一项较早的工作提出了一个统一的AI体系结构,以建模和解释染色质(真核细胞中存在的DNA和蛋白质的复合物)如何控制基因调控。