人工智能如何增强科学最强大的工具
人工智能(AI)是科学和技术领域发展最快的领域之一。它不仅是一个自身领域,有助于扩展基于计算机的学习功能,而且还是一个强大的工具,当应用于科学技术研究时,有可能改变科学家进行实验的方式。
例如,在天文学中,生成的大量数据需要一种新的范例方法,人工智能被用来搜索包含数百万颗恒星的望远镜图像中的星系团。在规模的另一端,它也用于生化和生物物理研究中以了解复杂的微观过程。
大型国际实验机构的科学家也热衷于利用AI和机器学习来增强研究成果。当前,在中子和X射线仪器上收集的数据量呈指数增长,而实际上只有一小部分数据得到了正确的分析。一方面,人工智能有潜力改善测量策略,另一方面,可以帮助科学家快速识别其数据中的关键特征。
数据挑战
在AI研究的能力和范围不断增长的同时,大型机构在生产,处理,处理和充分利用其数据方面所面临的挑战也在不断增长。技术的进步通常会导致生成越来越多的越来越复杂的数据,这使得提取科学见解的任务变得更加困难。
经常由来访的科学家在主要设施中进行基于中子和X射线散射的研究,他们来自世界各地,利用世界一流的仪器进行实验。这些外部科学家从负责仪器的内部中子或X射线专家那里获得了宝贵的帮助,以建立和进行实验并解释所获得的数据。但是,这些实验会生成大量原始数据,其中许多数据可能未经分析。
联合利用人工智能
应ILL,欧洲同步辐射器(ESRF)和英国科学技术委员会(STFC)的联合邀请,来自世界各地的专家聚集在法国格勒诺布尔的EPN科学园区,讨论AI的潜力机器学习以应对与光子和中子科学有关的独特挑战。
该研讨会引起了全球的关注,其最大的容纳能力来自主要研究机构的150多名与会者,他们使用中子,X射线和μ子,包括钻石光源,ISIS中子和μ子源,橡树岭国家实验室(ORNL)和上海同步辐射装置,当然还有ESRF和ILL。最重要的是,来自世界各地的近2,600个人连接到了实时流。进行了热烈的讨论,并就当前在探索AI潜在应用程序方面的见解进行了深入探讨。
独特的环境
虽然在任何科学领域中使用AI和机器学习的好处似乎显而易见,但诸如ILL这样的设施提出了许多独特的挑战。尤其是:
可用数据量通常不足。可用数据是具有必要元数据的数据,因此AI可以建立联系并得出结论。它还涵盖了具有已知结论的过去数据-因为这些数据可以帮助我们训练AI,从而可以识别这些数据集的含义。例如,了解样本的结构和最佳设置是针对图像的,有助于我们训练AI识别其中的特征。
直接在仪器上产生数据非常昂贵且费时,从而限制了可用于开发基于AI的方法的资源。
包含有关所有可能的实验条件(例如温度,压力,样品组成和方向)的明确信息的元数据通常会丢失或不完整,从而限制了将数据集用于神经网络训练的可能性。
由于上述原因,大多数AI训练都是使用模拟数据进行的,因此拥有可靠的物理系统模型至关重要。
在ILL,我们已经在探索可帮助最大化中子潜力以增强科学理解的技术。ILL是为其科学用户实施DOI的首批科学用户设施之一。它在为科学数据的处理和访问提供新标准方面处于领先地位。我们正在利用AI等数字技术的进步来改善科学结果的处理和可用性,并开发世界领先的软件解决方案-特别是用于数据的数字对象标识符的管理-以确保从生产到生产的科学结果的可追溯性出版。
我们最初选择如何使用AI进行中子散射的实验技术是小角中子散射(SANS),可用于深度探测从生物分子到晶体材料的软硬物质。该技术已在ILL的许多仪器上使用,包括D22,该仪器除其他外已用于旨在增强我们对与2型糖尿病有关的分子如何发展的认识或探索蚕的潜力的实验。用于释放伤口敷料的蛋白质。
为了加快进行实验的速度并通过使科学家更容易进行研究来使访问民主化,我们已经开始创建神经网络的原型,该模型能够识别样品结构并预测测量的最佳设置。
该系统已经显示出良好的预测能力,现在必须将网络知识扩展到更复杂的结构。通过进一步开发该程序和其他类似技术,我们可以在不久的将来使用户摆脱某些最重复和繁琐的任务。