NADC毕业论文专题精彩继续。本期为大家分享的是张震同学的博士论文《海量多源天文数据融合科研平台关键技术研究》,该研究针对时域天文和多信使天文观测生命周期的关键环节进行了哪些技术攻关?一起来看看吧!
论文简介
- 论文类型:博士学位论文
- 作者姓名:张震
- 学科专业:天文技术与方法
- 培养单位:国家天文台
- 论文标题:海量多源天文数据融合科研平台关键技术研究
时域天文学和多信使天文学的快速发展,带来了多源海量数据融合的新挑战。其典型科学发现流程是首先由大视场望远镜对全天进行快速扫描,通过数据生产流水线发现暂现源信号,基于信号的时空信息进行多源时域观测数据和档案数据的检索,最后进行多源数据的联合分析得出科学成果。随着融合处理的数据量越来越大,“检索-下载-分析”的传统科研模式存在严重的效率瓶颈, 需要“数据不落地”的云端科研平台来支撑海量数据下的科学研究。本研究通过对时域天文和多信使天文观测的科研需求进行调研,从数据的角度将这些需求按照其生命周期划分为数据生产、数据管理、数据分析三个环节。本研究分别针对这些环节面临的挑战进行了相应的技术攻关:
- 面向数据生产环节,提出了一种基于容器和消息队列的天文数据生产流水线框架,系统集成时间从数小时甚至几天缩短到一小时以内,实现了高效的软件模块集成和良好的功能扩展。同时具备依赖隔离、敏捷部署、弹性伸缩、故障回溯等能力,可应用于各类天文望远镜的数据生产流水线建设。
- 面向数据管理环节,提出并实现了基于时序数据模型的多时标光变曲线生成工具和高能光子数据库,从数据库层直接生成高级科学产品,实现了“近数据计算”,数据压缩效率和检索效率均提升至3倍以上。
- 面向数据分析环节,设计并实现了一种“人在回路”的海量时域天文数据在线分析框架,并应用于“天关”卫星暂现源证认工作,将平均证认时间由20.5分钟缩短至2.4分钟,平均证认次数从2.3次降低至1.1次。
一、数据生产环节:数据生产流水线框架
在数据生产环节,科学数据生产流水线需要实现对海量原始观测数据高效、灵活、流程化的自动处理。流水线中的各项数据处理算法通常来自不同的观测设备团队,其算法架构复杂、开发语言不一、依赖环境多样,带来系统集成难度大的问题。本研究针对以上问题,开展了高性能、易扩展的天文数据生产流水线技术研究,提出了一种基于容器和消息队列的天文数据生产流水线框架。该架构具备具备依赖隔离、敏捷部署、弹性伸缩、故障回溯等优势,能够根据需求动态灵活编排数据生产流水线和管理大规模天文数据流和工作流,有效支持了天关卫星科学数据生产流水线的建设,实现了来自国家天文台、高能物理研究所等多个科研团队数据生产算法的快速集成。
图 1 流水线框架架构图
二、数据管理环节:多时标光变曲线生成工具和高能光子数据库
在数据管理环节,时域天文数据的海量多源特征,以及高时效性的处理要求,成为制约科学产出的主要瓶颈。针对这些问题,本文开展了针对时域天文数据的近数据计算研究,研发了多时标光变曲线生成工具(LCGCT),创新性地采用时序数据模型进行光变曲线数据的存储、检索与分析,有效提高数据压缩效率的同时,将光变曲线的处理分析算法转移在数据端进行,减轻网络负担,提升数据处理效率。此外,本研究更进一步将LCGCT的设计理念扩展到光子事例数据,面向高能波段的高效数据叠加、短时标暂现源探测等科研需求,研发了高能光子数据库(XPhotonBank),从光子事例层面进行暂现源的搜索和初步证认,有效提高了天关卫星对短时标暂现源和暗弱天体的发现效率。
图2 使用高能光子数据库发现暂现源的早期爆发
三、数据分析环节:“人在回路”的在线分析工作流
在数据分析环节,自动化算法逐渐发挥出重要作用,但具有高科学价值的暂现源仍需科学家人工判别。为了充分发挥人类专家的重要作用,满足进一步的后随观测和物理性质分析的需要,本文开展了时域天文数据分析中“人在回路”机制的研究,研发了“时域天文信息中心”(TDAIC)和在线数据分析工具,实现天关卫星数据与多波段数据及警报的关联和融合并形成了“Find - Access - Analyze - Visualization”的工作流,支持天关科学值班团队在云端开展暂现源数据检视、交叉分析、数据再处理等操作,为天关科学团队的暂现源科学发现提供重要支撑。
图3 “Find - Access - Analyze - Visualization”的在线分析工作流
四、科学应用
本文提出的各项技术成果覆盖了天文数据生命周期的核心环节,本研究最后将各项成果进行集成,形成一个集数据生产、数据管理、数据融合、数据发现、数据分析、数据标注为一体的天文研究平台,能够从不同角度为暂现源证认等科研场景提供支持。其中天关卫星科学团队利用本平台证认的3个具有代表性的暂现源:引力波电磁对应体S250206dm、伽马暴EP240315a、伽马暴GRB250226A,分别体现了多波段数据融合、多模态数据融合以及警报数据融合在暂现源证认中的作用。平台提供的这些能力有效提高了暂现源证认的时效性和准确性,为天文研究提供了强有力的技术支持。
五、研究意义
本研究的各项技术成果已在天关卫星上得到验证和应用,为其科学发现起到了重要支撑作用。未来,我国还将逐步建成太阳极轨、鸿蒙、司天等多个重大天文项目,本研究的技术成果将有望在这些项目中得到进一步应用,有效支撑其科研产出。