科技动态

首页 > 科技动态 > 详情页
上海高研院在同步辐射光源μXRD图像联邦学习AI筛选领域取得重要进展
时间:2022-10-03 来源:
【字号:

近日,中国科学院上海高等研究院智能信息中心祝永新/田犁研究团队在同步辐射光源μXRD(微区X射线衍射)图像联邦学习AI筛选领域取得重要进展。该研究面向同步辐射光源大科学装置快速增长的海量用户图像数据处理应用需求,聚焦光源大科学装置μXRD服务所需的图像筛选领域,面对用户因数据隐私不愿意分享与筛选深度学习技术对数据共享的高需求之间的矛盾,提出了基于包含物理定律信息的联邦学习(Federated Learning)的μXRD图像AI筛选新技术。研究工作从联邦学习用于大数据隐私保护的技术角度出发,面向图像数据筛选技术需求,构建了作为筛选模型生成器的服务器端和作为筛选模型训练器的客户端之间的迭代工作循环,用户并不需要将客户端的原始图像信息上传至服务器端;同时,充分考虑了客户端选择策略、不平衡的数据分布和混合训练等因素,研究团队在同步辐射光源领域首次提出将物理定律信息融入基于联邦学习方法的μXRD图像AI筛选新技术,专门设计了客户端采样工作流程,并提出了一种混合训练框架改善客户端和服务器端之间的数据通信问题。最后,实验验证表明,将这种新颖的基于包含物理定律信息的联邦学习方法应用于同步辐射光源μXRD图像AI筛选,不仅在精度方面将各种学习神经网络方法提升了14%~25%,更是可以解决用户共享图像的隐私安全焦虑、构建出安全有效的μXRD用户图像数据特征共享机制。相关成果以“Federated Learning-Based Synchrotron X-ray Microdiffraction Image Screening for Industry Materials”为标题,发表于信息领域的顶尖期刊IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS(中科院一区,影响因子:10.215)。 

在过去数十年里,世界范围内的同步辐射光源大科学装置实现了高速发展,尤其是美国在此领域的发展规模和质量均居于领先地位。近年来,我国的光源大科学装置发展迅速。2009年开始试运行的第三代上海光源已具备超高亮度,而第四代北京光源的亮度将进一步提升2~3个数量级,结合微电子和计算机等工业技术进步因素,在μXRD服务技术领域同步辐射光源的独特优势被持续放大,为材料、化学、制药、生物、半导体、环境、航空、考古等众多学科和工业领域的高效创新提供了不可或缺的关键支撑技术平台。同步加速器辐射装置通常在很短的时间内产生大量的图像数据输出,比如20GB/s,或者100GB/s,甚至更高。同步辐射μXRD服务所产生的巨量图像数据,需要先通过筛选、去除无效数据之后,再进一步处理和存储。由μXRD领域专家手动检查这些图像会非常昂贵和耗时,有高效AI筛选工具来辅助是至关重要的。然而,出于商业等隐私保护原因,当前无法获得足够的有效打标图像数据来训练AI筛选模型,这严重阻碍了相关技术的迭代进化。同步辐射光源亮度的不断升级,整体带动了服务输出数据流同步跃升,输出的海量图像数据的高效AI筛选已经成为光源线站μXRD服务利用率和效能提升的一个关键的长期技术挑战。

基于包含物理定律信息的联邦学习技术方案,本项研究从原理上保障了用户图像数据的学术或者商业隐私安全,从技术原理上解决了不断产生的巨量用户μXRD图像打标数据不能被图像筛选深度学习技术有效利用的困境。基于此项新技术的系统方案,海量图像的筛选有望从依赖领域专家在相对专业细分和孤立的计算终端人工图像打标的技术发展状态,逐步向只需要依赖较少领域专家参与的半自动、甚至全自动图像数据打标的发展方向演进,形成图像AI筛选技术系统的整体自我高速进化循环。这种新颖的技术方案,既有助于我国突破同步辐射光源μXRD图像筛选领域的用户图像资料共享的体制性和技术性壁垒,也能够有效缓解光源大科学装置不断增大的图像数据处理瓶颈压力、并可以在类似特性线站推广使用,降低用户使用μXRD等服务的时间成本和经济成本,从而成为光源线站利用率和效能的倍增器,以相对来说极低的成本代价、显著提升相应的科研效益、经济效益和社会效益,令我国光源大科学装置在新一轮国际创新竞争中作出更多的贡献。

相关研究有效匹配我院“十四五”规划中“智慧低碳能源关键技术”的主攻方向,可为国民社会经济向着智慧低碳能源的方向发展提供信息技术侧的解决方案;与此同时,本研究契合我院“十四五”规划中“面向科学大数据的高通量低时延下一代网络通信关键技术”的新兴前沿发展方向,也属于基于“数据+通信+AI”的大科学装置驱动的前沿交叉研究中的新理论、新方法。 

本研究由中国科学院上海高等研究院团队牵头,联合英国阿斯顿大学团队合作完成。其中,智能信息中心研究生陈博为论文第一作者,祝永新研究员和田犁副研究员为通讯作者。本项研究工作获得了国家自然科学基金、国家SKA重大专项、上海市科技创新行动计划的资助支持。

原文链接:https://ieeexplore.ieee.org/document/9882361 

 

1:来自LN84LN498的图像样本

 

2:使用不同的插入模型所获得的精度提升

 

3:使用ResNet50神经网络时的训练时间表现和推理时间复杂度

 

4:在异步场景中的离线客户端导致的通信成本