上海天文台于2009年启动天文底片数字化工作。十余年来,在科技部科技基础性工作重点专项、上海市科委重大项目持续支持下,逐步建成全球领先的底片数字化实验室。实验室现配备5台高精度多功能底片扫描仪,已完成中国、乌兹别克斯坦、意大利、日本、智利等国6万余张天文底片的高质量扫描,其中最早的天文底片拍摄于1901年。这些百年照相底片通过数字化可转化为永久保存的“数字档案”,为长时标时域天文学研究、历史天象考证等领域提供了不可再生的关键数据支撑。
目前,中国天文底片数字化相关数据已经通过本中心向全球开放共享,包含以下两个数据集:
- “中国天文底片数字化数据:图像及天体测量星表”,元数据编号100742,提供天体测量星表检索、标准化底片图像检索和数据下载服务。
- “中国天文底片数字化数据:单次曝光底片测光星表及变源候选集”,元数据编号103032,提供测光星表检索、候选变源数据下载服务。
一、中国天文底片数字化数据:图像及天体测量星表
详情链接:https://nadc.china-vo.org/res/r100742。
这批数据包含了北京天文台、上海天文台、紫金山天文台、云南天文台、青岛观象台五个中国天文台站的9台望远镜的观测数据,时间跨度从1901年到1998年。主要包含了15696张质量较高的天文数字底片及对应的天体测量结果,观测目标主要为恒星天体。天体精度主要与望远镜焦距有关,对于上海天文台的40cm双筒折射望远镜、上海天文台1.56米反射望远镜及云南天文台1米反射望远镜等长焦距望远镜的底片,天体测量精度可达到0.1-0.3″。
星表信息包含赤经、赤纬、星等、观测时间及仪器参数等关键字段,该数据集可以用于研究近一个世纪以来天体位置变化、自行测量以及历史天文事件等,也便于开展时域天文研究。数据经过了格式标准化,可以通过虚拟天文台协议进行检索与下载,方便用户进行访问和使用。在元数据页面,如图1所示,可以进行星表检索、图像检索和数据下载。

图1.中国天文底片数字化数据:图像及天体测量星表元数据页面
1.星表检索:
点击图1中的“星表检索”按钮,访问图2所示的星表检索页面,页面分为输入区域(position constraints),输出区域(output)和输出选项(options)三个功能区域。
a.输入(Position Constraints)区域
在输入区域,分别可以采用Rectangle、Cone(需填写搜索半径,即radius)和Proximity(默认搜索半径是2角秒),三种方法。
Rectangle:用来检索矩形区域的天区,最大跨度为10度;
Cone:用来检索一个圆形天区,用户可输入中心坐标,以及搜索半径进行检索;如不记得具体坐标,也可以输入天体名称(solve name),点击solve解析出位置信息,再进行检索,比如m31,点击“solve”,可以解析出坐标“ra:10.6847083,dec:41.2687500”。在此,位置坐标是必填项,搜索半径不是,默认搜索半径是2角秒;
Proximity:输入赤经、赤纬和搜索半径,检索某一个源,如果不填写搜索半径,默认搜索半径为2角秒,可以输入多个位置同时检索多个源。如果有大量源需要进行批量检索,也可以点击“选择文件”,上传含有大量赤经、赤纬和搜索半径信息的文件,文件样本如图3所示。
b.输出(Output)区域
输出形式(Format)下拉菜单可以选择HTML,VOTable或CSV,以得到相应的检索结果,图4显示了HTML形式星表检索结果的一部分,点击“Save”下拉菜单,可将检索结果保存到CSV或者VOTable文件并下载到电脑,勾选需要下载的文件,点击“Download”,可以生成下载fits文件的列表文件。如果选择VOtable或 csv,检索结果是含有星表的VOTable或 CSV文件。
c.输出选项(Option)区域
星表可选择的输出项有24项,勾选需要的选项以便于使检索结果中显示相应的参数。

图2 星表检索

图3.批量检索的输入文件样例

图4.批量星表检索HTML页面结果的一部分
2.图像检索
点击图1中的“图像检索”按钮,访问图5所示的图像检索页面,页面同样分为输入区域,输出区域(Output)和输出选项(Options)三个功能区域。在输入区域中,相比较“星表检索”页面,除了“位置限制(Position Constraints)”,还增加了“站点限制(Site Constraints)”和“年份限制(Year Constraints)”。

图5. 图像检索(非完整页面,76个选项没有全部包括进来)
a.输入区域
Position Constraints区域和“星表检索”的相同,Site Constraints包含五个选项:国家天文台、紫金山天文台、青岛观象台、上海天文台、云南天文台,Year Constraints的可选范围是1904年至1998年。
b.输出(Output)区域
输出形式的选项与“星表检索”完全相同,有三种:HTML VOTable和CSV。图6是图像检索HTML输出结果的一部分,并没有显示全部选项或全部结果。检索结果的保存方法类似于“星表检索”,需要注意的是,“Download”生成的下载链接中既包含fits图像文件,也包含相应的out星表文件。
c.输出选项(Option)区域
图像检索的输出可选项有76个,比星表检索的可选项多52个。

图6.单个位置坐标图像检索html结果
3.数据下载
如图1元数据页面显示,点击“数据下载”按钮,可到达图7所示数据下载页面,fits文件夹下是数字化的图像文件,out文件夹下是对应于每个图像文件的星表文件,两个文件夹总数据量约11.29TB。

图7.中国天文底片数字化数据:图像及天体测量星表目录结构。
二、中国天文底片数字化数据:单次曝光底片测光星表及变源候选集
详情链接:https://nadc.china-vo.org/res/r103032/。
本数据集包含由15696张质量较高的单次曝光天文底片数字化图像得出的测光星表和变源候选体星表,其中,采用了一种针对底片数据的流量校准方法,使用BEST数据库中构建的标准星(https://nadc.china-vo.org/data/best/),将这些底片流量数据校准到标准的JKC测光系统。元数据页面如图8所示,页面提供了“数据下载”按钮;点击“数据下载”按钮,可见数据包括两个目录:table目录(测光星表)和vars目录(变源候选集),如图9所示。

图8.中国天文底片数字化数据:单次曝光底片测光星表及变源候选集元数据页面
测光星表包含3000多万颗唯一源的2亿余次观测数据,典型测光精度达到0.1-0.2mag。基于该测光星表(table目录下),经筛选得出了280万颗候选变源,并收集了它们的光变曲线,组成了变源候选集(vars目录下),其中测光星表命名格式为:底片名称-定标波段.fits;变源候选体命名格式为Gaia DR3的sourceID.fits。测光星表和变源候选集,总数据量约66.13 GB。

图9.中国天文底片数字化数据:单次曝光底片测光星表及变源候选集目录结构
三、科学平台的使用示例
因为以上两个数据集的数据量都非常大,尤其是“中国天文底片数字化数据:图像及天体测量星表”。我们推荐使用中心的科学云平台来访问、分析数据,使用方法步骤可参考“欧几里得空间望远镜Q1(Euclid Q1)数据使用指南”(后附访问链接)。将需要使用的数据正确挂载到用户家目录的dataset目录下,并打开JupiterLab4AI以后,就可以使用代码访问、分析数据。以下将给出在科学云平台上使用数据的简单样例,包括代码和相应的输出内容。
1、“中国天文底片数字化数据:图像及天体测量星表”dataset/100742/fits/BJ6403SD12001.fits和dataset/100742/out/BJ6403SD12001.out简单的样例代码如下:

输出图像:

图10.访问图像数据,画出整张缩略图。
文件~/dataset/100742/fits/BJ6403SD12001.fits是一个14400×14400的图像文件,我们读取数据后进行了降采样和截断极端值的处理,并画出了图像。用户可以接着进行提取星象和确定星象位置等处理过程,如果想使用现成的星表数据,可以直接访问星表数据。
输出信息和图像:
['number', 'xwin_image', 'ywin_image', 'mag_auto', 'kron_radius', 'isoarea_image', 'ellipticity', 'theta_image', 'flags', 'fwhm_image', 'ra_fitted', 'dec_fitted', 'mag_fitted', 'ra', 'dec', 'pmra', 'pmdec', 'parallax', 'radial_velocity', 'phot_g_mean_mag', 'phot_r_mean_mag', 'phot_b_mean_mag', 'source_id']
39276 sources

图11.访问星表数据,画出赤经、赤纬分布图。
星表数据~/dataset/100742/out/BJ6403SD12001.out 有23列,包括图像、位置、星等、天体测量等信息。以上代码画出了赤经、赤纬散点图(图11),用户可以进行更多方面的分析。
2、使用中国天文底片数字化数据:单次曝光底片测光星表及变源候选集~/dataset/103032/table/BJ6403SD12001-B.fits和~/dataset/103032/vars/100010654245248128.fits
简单的样例代码如下:

输出信息和图像:
['ra', 'dec', 'XWIN_IMAGE', 'YWIN_IMAGE', 'MAG_AUTO', 'OUT_FLAG', 'XP_FLAG', 'XP_U', 'XP_B', 'XP_V', 'XP_R', 'XP_I', 'DR3_G', 'DR3_BP', 'DR3_RP', 'excess_factor', 'MAG_CORR', 'variable_flag', 'credible_flag', 'source_id_dr2', 'source_id_dr3']

图12.访问星表数据,画赤经、赤纬散点图
星表文件~/dataset/103032/table/BJ6403SD12001-B.fits,有21列,包括图像、位置、多波段星等信息,没有天体测量信息。以上代码画出了赤经、赤纬散点图(图12),用户可以进行更多其他方面的分析研究。

输出信息(无散点图):
列名: ['FILENAME', 'OBS BAND', 'MAG_CORR', 'MAG_XP', 'variable_flag', 'FIT SIGMA', 'observation date', 'exposure start', 'exposure time', 'center of plate(deg)', 'field of view(deg)', 'LIMIT MAG']
行数: 8
FILENAME OBS BAND ... field of view(deg) LIMIT MAG
--------------- -------- ... ------------------ ------------------
ZT6409SN14001 B ... 5.4*5.4 18.43124974936815
ZT6409SN13002 B ... 5.4*5.4 18.42413259209947
BJ6504DA030001 B ... 8.1*8.1 17.659846904346843
BJ6504DA031001 B ... 8.1*8.1 17.891419660915766
ZT8109SN2772001 B ... 5.4*5.4 17.923348119980986
ZT8109SN2771001 B ... 5.4*5.4 18.010187249631027
ZT8109SN2834001 B ... 5.4*5.4 17.890534857939922
ZT8109SN2833001 B ... 5.4*5.4 18.094276410709544
表中无 ra/dec 列,仅展示数据如上。

图13.访问变源星表,查看数据内容,尝试画散点图:无位置信息。
变源星表文件~/dataset/103032/vars/100010654245248128.fits中没有赤经、赤纬(ra/dec),存储了八条观测记录(不同波段/不同时间)的测光信息。接着,可以进行光变曲线分析。

输出信息和图画:
列名: ['FILENAME', 'OBS BAND', 'MAG_CORR', 'MAG_XP', 'variable_flag', 'FIT SIGMA', 'observation date', 'exposure start', 'exposure time', 'center of plate(deg)', 'field of view(deg)', 'LIMIT MAG']
行数: 8

图14.访问变源星表文件,分析B波段光变曲线。
读取变源星表文件~/dataset/103032/vars/100010654245248128.fits的条测光记录,画出B波段光变曲线,分析源的变星性质,用户还可以查看“variable_flag”等参数。
以上是底片数字化数据的使用指南,跟随我们的步伐,快来动动手,体验一下如何使用这些数据吧!