上世纪中叶以来,随着大型天文台的相继建成并投入使用,天文观测数据开始呈现爆发式增长。作为一门高度依赖数据的学科,天文学在过去几十年间得到了前所未有的发展——这主要得益于日益完善的数据开放政策使得天文数据得以在全球范围内向科学界共享。这种开放的科学生态环境极大地激发了科研活力,也相应地催生出了海量的天文科学文献。然而,作为科研产出的“晴雨表”,如何有效地收集、整理、分析这些科学文献,进而评估天文台的科学影响力,已经成为了一个天文学界思考许久的问题[1]、[2]。
2021年,来自Chandra X-ray Center (CXC)、European Southern Observatory (ESO)、Infrared Science Archive (IRSA)、Astrophysics Data System (ADS)等十多家知名天文单位的文献管理专家成立了天文台文献馆员合作组(Observatory Bibliographers Collaboration, OBC)。经过多年研讨、交流与实践,该合作组在近期发表了一项工作《Assessing Your Observatory’s Impact: Best Practices in Establishing and Maintaining Observatory Bibliographies》(《评估天文台的影响力:建立和维护天文台文献库的最佳实践》,以下简称《最佳实践》)[3]。《最佳实践》总结出了一系列高效、标准化的流程与方法,为我们构建和维护天文台文献库并用于天文台的科学影响力评估提供了重要的参考。本文将对《最佳实践》进行重点总结和适当延伸,旨在为相关领域的学者、管理层、资助单位等提供启发。
一、什么是天文台文献库
天文台文献库是专门收录依托该天文台观测数据所发表的科学文献,以及这些文献关键元数据的一种数据库。例如,Hubble Space Telescope (HST)文献库详细收集了使用 HST 数据发表的论文,涵盖从恒星到星系等多个研究领域,每篇论文都附有详细的元数据,包括作者信息、发表期刊、观测仪器等;ESO的文献库也广泛收录了基于其管理数据发表的科学论文,并记录了观测项目编号、数据产品使用情况等元数据。这些文献库是评估其天文台科学产出和影响力的重要工具。
二、为什么要构建和维护文献库
文献库除了可以为天文台评估科学产出和影响力之外,还可以向以下群体提供相关支持:
- 对于研究人员:可以帮助研究人员更好地掌握当前的研究热点和趋势、发现潜在的合作机会,也可以为其申请新项目或延续现有项目提供有力依据;
- 对于管理层:可以为管理层提供天文台设施使用情况的详细数据,帮助他们更好地制定未来的观测计划、升级设施或开发新的科学项目。
- 对于档案馆:文献库可以将文献与数据使用情况联系起来,帮助档案馆更好地管理数据,确保数据的可访问性和可用性。
- 对于资助单位:文献库可以帮助资助单位评估投资的回报,为未来的资金分配提供依据,也可以帮助他们了解需要支持的领域或项目,从而做出更科学的决策。
三、如何建立和维护天文台文献库
图1 建立和维护天文台文献库的流程图
- 候选文献检索
构建文献库的第一步是通过关键词检索可能使用天文台数据的候选文献。目前主要可以采用以下几种途径:
1)ADS:目前全球最权威的天文文献数据库;
2)Crossref检索:跨学科的出版物元数据汇聚平台;
3)arXiv:天文领域预印本主要聚集地。
《最佳实践》中指出:“为了全面搜索成千上万篇文献,文献馆员必须考虑所有常见形式的关键词、望远镜名称、仪器名称等,同时还要搜索缩写、曾用名、公认的俗称以及连字符、标点符号的变体。” 例如,Two Micron All Sky Survey(2MASS)可能有多种写法:“Two-Micron All Sky Survey”、“Two Micron All-Sky Survey”、“2MASS”、“2-MASS”和“2 MASS”等; Daniel K. Inouye Solar Telescope(DKIST)以前称为Inouye或Advanced Technology Solar Telescope(ATST),早期缩写甚至不包括第一个T(AST);我国的郭守敬望远镜、“天关”卫星也是如此。因此,检索工作面临着诸多挑战。
- 期刊覆盖范围
期刊覆盖范围是文献数据库建设中的重要考虑因素。研究发现,HST、ESO、National Radio Astronomy Observatory (NRAO)、Spitzer、U.S. National Science Foundation National Optical-Infrared Astronomy Research Laboratory(NSF NOIRLab)等大多数天文台的历史文献库中所包含的论文主要来自5种核心期刊: ApJ、MNRAS、A&A、AJ和ApJS;其它期刊的发文量相对来说较少,代表性较弱。
图 5个天文台文献库中的期刊占比对比
- 文献评估与分类
文献评估与分类是更为关键的环节,文献馆员可以通过相关技术辅助或完全用“肉眼”审阅每篇候选文献,判断其是否符合纳入标准。从实践过程来看,大多数天文台普遍将论文分为“科学文献”和“非科学文献”两大类。OBC同意采用以下标准来对它们进行划分:
科学论文的标准:
- 1)必须明确使用了天文台的数据或数据产品,并且这些数据或数据产品支撑了新科学结论;
- 2)数据可以原始数据或高级数据产品(如星表、光谱等);
- 3)即便数据之前被其他科研人员使用过,只要分析方法或结论有创新也应计入;
- 4)当论文使用多个天文台的数据,只要其中包含该天文台的数据,并且这些数据对其科学结论有贡献的也应计入;
- 5)发表在同行评审的期刊上论文,通常会被计入。如果论文未经过评审或者是学位论文,是否计入取决于天文台的具体标准;
非科学论文的标准(仅列举关键项)
- 1)仅比较已发表结果或科学结论;
- 2)仅在历史、背景、引言、致谢等部分提及天文台或其数据;
- 3)使用天文台的数据来校准其他望远镜的位置或流量;
- 4)仅描述仪器或数据分析软件;
- 5)综述论文;
- 元数据标注
确定纳入文献库的文献后,需要为其分配相关元数据。OBC建议天文台考虑整理的核心元数据集包括:标识符(如ADS bibcode、项目或观测ID、作者ORCID、数据集及其DOI等)、文献信息(标题、期刊名称、发表日期等)、作者信息(姓名、机构、国家等)、文献类型(是否经过同行评审、是否为学位论文等)、望远镜和仪器信息(仪器名称、波段等)以及数据产品和服务信息(是否为档案数据、使用了哪些高级数据产品等)。这些元数据将为后续的影响力分析提供重要依据。
- 维护与更新
维护和更新文献库是确保其准确性和时效性的关键环节。天文台需要根据自身的资源和需求,制定合理的更新频率,例如每季度或每年进行一次全面更新。在更新过程中,还需修正错误收录、重复收录、错误的元数据等,以保证文献库的质量。维护和更新天文文献库是一个复杂且持续的过程,需要天文台的长期投入和关注。
- 工具与方法考量
在构建文献库的过程中,选择合适的技术或工具对于提升效率和准确率至关重要。《最佳实践》指出:
- 1)自动化工具(如ADS API、Crossref)可以显著减少人工搜索和筛选文献的工作量,但完全依赖自动化可能会忽略一些重要文献,因此需要结合人工审核来确保准确性。
- 2)选择合适的搜索策略也同样重要,包括全面搜索所有期刊或仅搜索特定期刊列表;
- 3)天文台可以根据自身的具体需求和技术资源选择合适的数据库管理系统,从简单的Excel电子表格到复杂的多表数据库,甚至与CXC、ESO等单位一样开发的复杂高级系统将ADS与机构数据存档连接起来;
- 4)无论选择哪种工具,都需要考虑长期维护和更新的能力,以及与外部系统(如ADS和Crossref)的兼容性;
- 5) 尽管机器学习等新技术在文献分类和元数据提取方面显示出强大潜力[4],但自动化工具永远无法完全替代人工评估,需要定期检查和验证自动化结果,并根据新的文献和格式更新分类模型。
四、实践案例
《最佳实践》中提供了多个典型案例,它们从多维度展示了文献库如何帮助理解天文台的科学产出特征。
- 项目、设施特性与科学产出的关系。据Spitzer望远镜的文献库分析显示,早期精心设计的大型巡天项目Legacy Programs的“每小时数据的文献产出率”(0.37)明显高于同时期的非巡天General Observer项目(0.17);全天巡天项目(如Gaia、2MASS)能够覆盖更多目标,天生就比定向观测的望远镜(如Hubble、Spitzer)有潜力产生更多论文和引用。
- 档案数据库建设的必要性。据Spitzer出版物统计显示,建立档案数据库似乎可以使天文台产出的论文数量翻倍[5],这一结论正是通过系统追踪论文发表情况得出的。本质上,档案数据不仅延长了观测设施的科研生命周期,还通过“数据再利用”显著提升了投资回报率,这种量化证据对争取长期运维经费具有直接说服力。
- 跨天文台比较存在挑战。《最佳实践》中提醒直接比较不同天文台的文献数量可能产生误导,因为“比较数据必须考虑每个天文台应用的选择标准”。ESO在其基本出版统计数据中提供了“ESO与其他天文台”的比较,但明确指出这种比较需要谨慎对待。更有意义的比较可能需要通过某些方式对观测小时数、数据在论文中的实际使用占比或预算等数值进行标准化比较。
- 特殊事件监测。《最佳实践》提到,在2020年和2022年,ESO的文献库显示多个天文台的论文发表量在这两年同步下滑。这一趋势与新冠疫情初期观测设施关停、后期逐步恢复现场作业的时间线高度吻合。虽然这类指标难以证明因果关系,但它们确实让利益相关者在天文学界之外的更广阔的背景下理解天文台运行情况时有所思考。
五、结语
《最佳实践》旨在将天文台产出的科学文献从“暗物质”转化为可测量的“可见光”。通过建立规范的文献库和分析体系,我们能够客观评估天文台的科学影响力。在天文学快速发展的大背景下,天文学界应当积极采纳这些实践经验,在建设一流天文设施的同时,也要建立与之相匹配的科研评估体系。
图3 《最佳实践》中描述的天文学研究正向循环
值得注意的是,《最佳实践》中虽没有明确表明,但也已经勾勒出天文学研究的一个正向循环:数据开放共享→科研产出→文献积累→影响力评估→数据开放共享。其中,数据开放共享是支持后续一切工作的根本前提,而影响力评估结果又能强化数据开放共享的必要性,从而形成了自我强化的科学生态。
随着国内的“天关”卫星以及未来的CSST、QTT等大科学装置陆续投入使用,中国天文学将迎来前所未有的发展机遇。通过积极优化数据开放共享政策,向权威数据中心汇交科学数据以及借鉴国际先进评估经验,这些装置将能够释放出更广泛的科学影响力。
[1].Lagerstrom, J. "Best Practices for Creating an Observatory or Telescope Bibliography from the IAU Commission 5 Working Group on Libraries." Open Science at the Frontiers of Librarianship 492 (2015): 99.
[2].Chen, Tracy X., et al. "Classification of Astrophysics Journal Articles with Machine Learning to Identify Data for NED." Publications of the Astronomical Society of the Pacific 134.1031 (2022): 014501.
[3].D'Abrusco, Raffaele, et al. "Assessing your Observatory's Impact: Best Practices in Establishing and Maintaining Observatory Bibliographies." arXiv preprint arXiv:2401.00060 (2023).
[4].Shao, Wujun, et al. Astronomical knowledge entity extraction in astrophysics journal articles via large language models. Research in Astronomy and Astrophysics 24, 065012 (2024).
[5].Scire, Elena, Luisa Rebull, and Seppo Laine. "Spitzer Publication Statistics." Publications of the Astronomical Society of the Pacific 134.1035 (2022): 055001.