太阳活动区是太阳大气中强磁场的集中区域,是耀斑、日珥爆发、日冕物质抛射等爆发事件的主要源区。其演化和形态特征的研究对理解太阳磁场动力学机制、太阳活动周期性规律以及灾害性空间天气事件的预警具有重要意义。
随着SDO、夸父一号(ASO-S)等空间卫星和地面望远镜提供的高时空分辨率磁场数据的积累,迫切需要一种无需人工干预、客观稳定的自动化检测方法,以支持长周期太阳活动统计、太阳发电机模型验证及空间天气事件的实时监测。尽管早期基于图像处理的自动化方法取得了一定进展,但它们往往依赖于经验性阈值的设定,在处理复杂磁场结构时表现不佳。例如NOAA依赖人工或计算机辅助的人工校验方法,虽能识别包含黑子的活动区,但效率低下,难以适应海量高分辨率观测数据(如SDO/HMI每日产生数TB数据)的快速处理需求。此外,基于固定阈值的图像分割方法(如区域生长、形态学操作)易受噪声干扰,且对复杂磁图中相邻活动区的分离效果不佳。依赖经验设定的磁场强度或面积阈值,难以统一处理不同强度的活动区(如小尺度的瞬态磁活动),且易遗漏较弱的磁场区域。总体而言,传统自动化方法在鲁棒性和泛化能力上均存在局限性。
近年来,以卷积神经网络(CNNs)为代表的有监督机器学习方法展现出高精度的检测效果。但其最大的瓶颈在于需要大量客观、一致的人工标记数据进行训练,而这一过程本身就难以摆脱人为主观性的影响。另一方面,基于目标检测的深度学习模型仅能提供活动区的位置信息,具体特征信息仍需二次提取。基于语义分割算法的深度学习模型在检测后对碎片化磁特征区域的整合能力不足。基于无监督的聚类方法有一些早期尝试(如模糊聚类、密度峰值算法)等,虽能初步分割磁图,但对不规则形状的活动区识别精度有限。因此,开发一种不依赖人工标注、客观且能精细处理复杂磁结构的方法,是当前面临的关键挑战。
针对这些挑战,南京大学天文与空间科学学院的太阳物理团队开发了一种名为DSARD(DBSCAN-based Solar Active Region Detection)的自动化检测方法。该方法基于经典的无监督机器学习聚类算法——DBSCAN,无需预先标记训练样本,而是根据数据本身的特征进行特征提取和识别。DSARD算法通过灰度阈值分割、两次DBSCAN迭代聚类以及后续的切割、合并等步骤,能够高效地从SDO/HMI磁场观测数据中自动识别太阳活动区。通过这一方法处理分析海量观测数据,可进一步揭示其统计特性(如形态特征、分布、纬度漂移、磁场倾角规律等),为研究太阳磁场演化机制提供新视角。
图1以2022年11月12日的观测为例,直观展示了DSARD方法从原始磁图到最终识别出活动区的完整处理流程。DSARD方法的创新点主要有:
- 双阶段DBSCAN密度聚类流程:通过分阶段聚类,有效解决了传统方法(如区域生长法和形态学算法)在高分辨率磁图中易将相邻活动区过度合并或分割不当的问题,显著提升了对精细磁结构的解析能力。
- 极性导向的簇合并策略:结合磁场极性信息优化簇合并逻辑,确保正负极性区域的匹配(符合双极性活动区的物理特征),同时排除单极性区域噪声,显著提升了多极性或复杂活动区的检测准确性。
- 高效计算与参数优化:采用cKDTree算法将簇间距离计算复杂度从 O(MN) 降至 O(MlogN),解决了大规模数据处理的计算瓶颈。同时,通过详尽的实验确定了关键参数的鲁棒组合,保证了方法在不同太阳活动水平下的稳定性和一致性。
- 无监督学习的客观性与可扩展性:作为无监督方法,DSARD摆脱了监督学习对海量、高质量标注数据的依赖,从根本上减少了主观偏差。其基于密度的特性使其能自适应检测不同强度的活动区,包括传统阈值法易忽略的小尺度瞬态磁特征,扩展了检测范围。

图 1 (a) 原始视向磁图;(b) 阈值分割后的磁图;(c) 第一次DBSCAN聚类;(d) 第二次DBSCAN聚类;(e) 过滤合并后的最终结果;(f) 同日NOAA的人工识别结果,用于对比。
图2对比了DSARD方法与传统区域增长算法在处理一个复杂活动区时的差异,其中图 2 (a)为DSARD方法的分割结果,图2(b)为基于区域增长和形态学算法识别和分离出的活动区结果。可以看到DSARD方法识别的活动区更加完整且保留的原始形态结构。

图 2 (a)为DSARD方法的分割结果,(b)为区域增长算法的结果。中、下方子图为局部放大图。

图 3 NOAA、SHARP和DSARD方法识别结果示例。蓝色框中每个红色框为DSARD识别的活动区,绿色框代表SHARP中识别为一个活动区的区域,黄色数字标注代表NOAA在这个区域中识别出的活动区。
研究团队将DSARD方法应用于2010年至2023年的SDO/HMI全日面视向磁图中,并与NOAA和SHARP活动区列表进行了对比验证。结果显示,该方法具有很高的准确率,其平均真正率(True Positive Rate)分别达到了89.7%(相对于NOAA)和78.2%(相对于SHARP)。特别的,DSARD能够将包含多个NOAA活动区的大型SHARP区域细分为更精细的独立单元。图3给出三个示例,DSARD不仅能给出NOAA人工识别的区域的同时,还能识别其未能捕捉到的活动区细节。

图 4 第24太阳周每5°纬度间隔内太阳活动区平均磁倾角的纬度分布。图(a)–(d)分别对应不同面积范围内的活动区平均磁双极倾角纬度分布:<50 millionths、50–250 millionths、250–500 millionths和>500 millionths。
基于该方法得到的活动区数据库,团队针对第24太阳活动周及第25太阳周上升期的活动区数量、面积、磁通量、倾角和漂移速度等特征进行了详细的统计分析。大部分统计结果与前人研究一致,从而验证了DSARD方法的可靠性。此外,该研究还得到了一些新的关键性结论:
- Joy法则与活动区面积的关系:面积大于500百万分之一太阳半球(millionth)的大活动区,在低纬度(5°-20°)严格遵循Joy法则(磁双极倾角随纬度升高而增大),但较高纬度(>25°)倾角随机分布;而面积小于500 millionth的较小活动区,其磁双极倾角则呈现随机变化,并未发现Tlatov等发现的反Joy法则模式。本研究通过高分辨率数据进一步验证,发现其倾角分布的随机性远超预期,表明小尺度活动区形成机制可能与大尺度活动区存在本质差异。这一结果支持大尺度磁活动遵循有序物理机制(如太阳发电机理论),而小尺度活动更易受湍流等局部扰动影响的观点。
- 违反Hale法则的活动区比例显著高于前人研究:统计结果表明,在第24太阳周和第25太阳周上升期,分别有13%和16%的活动区违反了Hale法则。以往统计研究表明这一指标在4%至8%。特别的,基于SDO团队提供的SHARP数据集在同样筛选条件下得到的第24太阳周比例为8%。本研究通过DSARD方法对较小且较弱磁场区域的高灵敏度检测,首次揭示了更高比例的反Hale法则活动区,这可能与太阳低层大气的复杂磁重联或小尺度活动区形成的随机性有关。此外,第25太阳周上升阶段(2020-2023)活动区数量和面积增速显著高于第24太阳周同期,且较高纬度(30°-40°)比例增加,表明反常活动区比例与太阳活动强度呈正相关。

图 5 第24太阳周和第25太阳周上升阶段遵守与违反Hale法则的活动区纬度分布。
相关工作以Statistical Analyses of Solar Active Regions in SDO/HMI Magnetograms Detected by the Unsupervised Machine Learning Method DSARD为题,发表于《The Astrophysical Journal Supplement Series》(https://iopscience.iop.org/article/10.3847/1538-4365/adfdd8)。该研究工作的第一作者为陈睿硕和陆吴桐,通讯作者为郝奇副教授。相关方法和数据已在Zenodo平台开放(https://zenodo.org/records/15535004)。此项研究工作得到了国家重点研发计划、国家基金委自然科学基金、国家天文科学数据中心青年数据科学家、南京大学“AI & AI for Science”等项目的资助。