TextGrid Repository论文解读：人文研究数据保存的流畅化工作流程-洪萨配资

流畅化出版工作流程：使用TextGrid Repository保存人文研究数据

作者单位

(1) 哥廷根大学
(2) 德累斯顿工业大学
(3) 马克斯·韦伯基金会 - 德国海外人文科学研究所
(4) 哥廷根科学数据处理协会

摘要

英文摘要：本文介绍了TextGrid Repository中文本研究数据的修订版出版工作流程。该存储库支持人文学科研究成果的可访问性和可重用性。新工作流程通过整合TEI、XPath、Git和Jupyter Notebooks等熟悉的工具简化了出版过程，减轻了用户的技术负担，同时仍然确保元数据质量控制。因此，我们将新工作流程称为"流畅化"（fluffy），强调其易用性。该工作流程还允许在不改变原始数据文件的情况下进行元数据丰富，提高整体数据和元数据质量，并与FAIR原则（可发现、可访问、可互操作、可重用）保持一致。通过展示已完成的研究项目，我们演示了该工作流程如何增强已发布成果的可发现性和可引用性。论文最后概述了将工作流程与其他服务集成的未来步骤，旨在实现更友好的用户体验和更高的元数据质量。

德文摘要：本文介绍了TextGrid Repository中文本研究数据的修订版出版流程。该存储库支持人文学科研究成果的可访问性和可重用性。新工作流程通过整合TEI、XPath、Git和Jupyter Notebooks等已知工具简化了出版过程，减少了用户的技术工作量，同时确保元数据的质量控制。因此，我们将新工作流程称为"流畅化"，强调其用户友好性。该工作流程还允许在不改变原始数据文件的情况下丰富元数据，从而提高数据和元数据的整体质量，并符合FAIR原则（可发现、可访问、可互操作、可重用）。通过已完成的研究项目展示了该工作流程如何改善已发布成果的可发现性和可引用性。最后概述了将工作流程与其他服务集成的未来步骤，以提高用户友好性和元数据质量。

关键词

文本、基础设施、元数据、存储、存储库、数据导入、长期保存、人文学科

参考文献

TGR中的ELTeC：https://textgridrep.org/project/TGPR-99d098e9-b60f-98fd-cda3-6448e07e619d。另见Rißler-Pipka等人（2023）。DOI：10.7717/peerj.18519/fig-11
"十八世纪法国小说1751-1800合集"项目在TGR中的着陆页：https://textgridrep.org/project/TGPR-c594f9cf-08fd-6086-8379-66c84a31c11a。DOI：10.5334/johd.201
"十八世纪法国小说1751-1800合集"项目的Github存储库：https://github.com/MiMoText/roman18。DOI：10.5334/johd.201
Buddenbohm, Stefan等人。2024年。"保存人文研究数据：TextGrid Repository中的数据存储，又称流畅化导入。"在葡萄牙里斯本举行的"工作流程：艺术与人文学科可重复研究实践的数字方法"会议上展示的海报，2024年6月20日。https://doi.org/10.5281/zenodo.11279675
Calvo Tello, José。2021年。"白银时代小说语料库，XML-TEI格式。"Signa：西班牙符号学协会杂志30（0）：83-107。https://doi.org/10.5944/signa.vol30.2021.29299
Calvo Tello, José等人。2023年。"研究数据的内容索引：TextGrid Repository、规范数据和基础分类。"在FORGE23，蒂宾根。https://doi.org/10.5281/zenodo.8341605
Calvo Tello, José等人。2023年。"在语料库、工具和规范文件之间：西班牙研究的TextGrid Repository。"数字人文杂志8：90-108。
Dombrowski, Quinn等人。2019年。“Jupyter Notebooks简介”。编程史学家，第8卷。https://programminghistorian.org/en/lessons/jupyter-notebooks。DOI：10.46430/phen0087
Gomes, Luís等人。2024年。“从最大简洁性到完全功能”。语言资源与评估。https://doi.org/10.1007/s10579-024-09772-6。DOI：10.1007/s10579-024-09772-6
Göbel, Mathias。2015年。"TextGrid Laboratory：十年软件开发。"在《TextGrid：来自社区-为了社区》中，由Heike Neuroth、Andrea Rapp和Sibylle Söring编辑，251-58。Glückstadt：Verlag Werner Hülsbusch。
Henny-Krahmer, Ulrike等人。2023年。“CLiGS：Textbox”。最后更新于2023年10月9日。
Kett, Jürgen等人。2022年。"Text+与GND - 社区中心和知识图谱。"图书馆与文献学杂志69（1-2）：37-47。https://doi.org/10.3196/1864295020691262
Neuroth, Heike等人，编辑。2015年。《TextGrid：来自社区-为了社区：人文学科的虚拟研究环境》。Glückstadt：Werner Hülsbusch。https://doi.org/10.3249/webdoc-3947
Rißler-Pipka, Nanette和Lukas Weimer。2023年。"人文与文化研究基础设施协会-国家与国际研究基础设施之间的接口。"在匈牙利布达佩斯举行的DARIAH年度活动2023：文化遗产数据作为人文研究数据？Zenodo。https://doi.org/10.5281/zenodo.7960885
Rißler-Pipka, Nanette等人。2023年。"TextGrid Repository中的欧洲文学文本合集。"在《作为机遇的协作》中，由Walter Scholger等人编辑。格拉茨：ADHO。https://doi.org/10.5281/zenodo.8107707
Rißler-Pipka, Nanette等人。2021年。“研究基础设施中的社区参与：Text+的用户故事征集”（1.0.0）。Zenodo。
Röttgermann, Julia。2024年。"十八世纪法国小说合集1751-1800。"开放人文数据杂志10（1）。https://doi.org/10.5334/johd.201
Schöch, Christof等人。2019年。"CLiGS Textbox：构建和使用以XML-TEI编码的罗曼语文学文本合集。"文本编码倡议杂志。https://journals.openedition.org/jtei/2085。DOI：10.4000/jtei.2085
Schöch, Christof等人。2021年。"创建欧洲文学文本合集（ELTeC）：挑战与展望。"现代语言开放1（12月）：25。https://doi.org/10.3828/mlo.v0i0.364
Schulz, Ursula。1991年。"荷兰基础分类：德国图书馆外部数据供应中’主题组’的替代方案。"图书馆服务25：1196-1219。
Sinclair, Stéfan和Geoffrey Rockwell。2016年。“Voyant Tools。”
TextGrid。2024年。TextGrid Repository文档。

深度解读

这篇论文呈现了数字人文基础设施建设领域的一个重要转向：从技术主导的复杂系统向用户友好的"流畅化"工作流程演进。TextGrid Repository作为欧洲重要的人文研究数据存储平台，其工作流程的重新设计不仅是技术层面的优化，更反映了数字人文领域对研究者实际需求的深刻理解和回应。这种转变的核心在于重新定义研究基础设施与学术社区之间的关系，将技术门槛的降低与数据质量的保障有机结合，为人文研究数据的长期保存和广泛利用提供了新的范式。

研究背景与问题意识

人文学科的数字化转型已经进入深水区。早期数字人文项目往往面临技术复杂性与学术需求之间的张力：研究者需要掌握复杂的技术标准和工具才能将研究成果数字化并长期保存，而这种技术负担往往成为数字人文实践的障碍。TextGrid Repository自建立以来一直致力于解决这一矛盾，但传统的数据提交和发布流程仍然存在技术门槛过高、元数据质量难以保证、工作流程不够透明等问题。

论文所提出的"流畅化"（fluffy）概念并非简单的技术简化，而是对整个数据出版生态系统的重新思考。这个概念的提出基于一个核心洞察：人文研究者并非不愿意遵循数据标准和最佳实践，而是现有的技术实现方式与他们的工作习惯和认知模式存在脱节。因此，真正的解决方案不是降低标准，而是重新设计实现这些标准的路径，使其与研究者已经熟悉的工具和工作流程无缝衔接。

技术架构的革新逻辑

新工作流程的技术架构建立在对现有数字人文工具生态的深刻理解之上。TEI（Text Encoding Initiative）作为人文文本编码的事实标准，已经在学术界获得广泛认可，许多研究者在项目中已经采用TEI格式。XPath作为XML查询语言，为研究者提供了精确定位和提取文本元素的能力。Git作为版本控制系统，在软件开发领域已经成熟，近年来也逐渐被数字人文项目采用。Jupyter Notebooks则将代码、文档和可视化结果整合在一起，成为数据科学和计算人文研究的重要工具。

论文的创新之处在于将这些已经存在的工具整合成一个连贯的工作流程，而不是要求研究者学习全新的专用系统。这种整合不是简单的工具堆叠，而是经过精心设计的流程编排。研究者可以使用Git管理项目版本，用熟悉的文本编辑器处理TEI文件，通过XPath表达式提取元数据，在Jupyter Notebooks中进行数据验证和质量检查，最后将数据提交到TextGrid Repository。整个过程中，每个步骤都使用研究者可能已经掌握或容易学习的工具，技术复杂性被分散到熟悉的操作中，而不是集中在一个陌生的专用系统里。

这种设计哲学体现了对"认知负荷"的深刻理解。人文研究者的核心能力在于文本分析、历史考证、理论阐释等学术工作，技术工具应该服务于这些核心任务，而不是成为额外的负担。通过利用研究者已有的技术知识和工作习惯，新工作流程实际上降低了整体的认知负荷，使研究者能够将更多精力投入到学术内容本身。

元数据质量控制的双重策略

元数据质量是数字存储库价值的核心保障。低质量的元数据会严重影响数据的可发现性、可理解性和可重用性，从而削弱整个存储库的学术价值。传统的元数据质量控制往往采用两种极端策略：要么完全依赖用户手工填写，导致质量参差不齐；要么采用严格的技术验证，但增加了用户负担并可能阻碍数据提交。

论文提出的解决方案体现了一种更加精细的平衡。一方面，通过从TEI文件中自动提取元数据，减少了手工输入的错误和遗漏。XPath表达式可以精确定位TEI文档中的特定元素，如标题、作者、日期、语言等，将这些信息自动转换为存储库所需的元数据格式。这种自动化不仅提高了效率，更重要的是保证了元数据与实际数据内容的一致性，避免了手工填写时可能出现的不匹配。

另一方面，工作流程保留了必要的人工审核和补充环节。Jupyter Notebooks在这里发挥了关键作用，它提供了一个交互式的环境，研究者可以在其中查看自动提取的元数据，进行必要的修正和补充，同时运行验证脚本检查数据质量。这种交互性使得质量控制不再是一个黑箱过程，研究者可以清楚地看到数据是如何被处理的，理解质量标准的具体要求，并根据自己的学术判断进行调整。

更重要的是，论文强调了"元数据丰富而不改变原始数据文件"的原则。这一设计理念具有深远意义。在传统工作流程中，为了满足存储库的元数据要求，研究者往往需要修改原始的TEI文件，这可能破坏文件的完整性，也使得数据在不同平台之间的迁移变得困难。新工作流程通过将元数据作为独立的层次进行管理，既保证了原始数据的完整性，又允许根据不同需求灵活地丰富和调整元数据。这种分离也使得元数据可以随着标准的演进而更新，而不需要重新处理原始数据。

FAIR原则的实践路径

FAIR原则（Findable, Accessible, Interoperable, Reusable）已经成为研究数据管理的国际共识，但如何在具体的技术系统中实现这些原则仍然是一个挑战。论文通过TextGrid Repository的实践，展示了FAIR原则从抽象理念到具体操作的转化路径。

可发现性（Findable）的实现不仅依赖于元数据的存在，更依赖于元数据的质量和标准化程度。新工作流程通过与GND（Gemeinsame Normdatei，综合规范文件）等权威控制系统的集成，确保人名、地名、机构名等关键元数据使用标准化的标识符。这种标准化使得数据可以被精确检索，也使得不同数据集之间的关联成为可能。论文提到的与Basisklassifikation（基础分类）的整合，进一步增强了数据的主题可发现性，研究者可以通过学科分类体系快速定位相关资源。

可访问性（Accessible）在技术层面相对容易实现，但真正的挑战在于如何平衡开放访问与知识产权保护、如何提供适合不同用户群体的访问接口。TextGrid Repository通过提供标准化的着陆页（landing page）、持久标识符（persistent identifier）和多种数据导出格式，确保数据可以被广泛访问。同时，通过与其他服务（如Voyant Tools）的集成，为不具备编程能力的用户提供了友好的数据探索界面。

可互操作性（Interoperable）是数字人文基础设施建设中最容易被忽视但又极其重要的维度。论文通过ELTeC（European Literary Text Collection）项目的案例，展示了标准化数据格式如何促进跨平台、跨项目的数据整合。TEI作为共同的数据格式，使得来自不同国家、不同语言的文学文本可以在统一的框架下进行比较研究。这种互操作性不仅体现在技术层面，更体现在学术层面：标准化的数据使得研究方法可以跨数据集应用，研究结果可以被验证和复制。

可重用性（Reusable）是FAIR原则的终极目标，也是最难实现的。数据的重用不仅需要技术上的可访问性，更需要学术上的可理解性和可信性。新工作流程通过详细的文档、清晰的版本控制、透明的数据处理过程，为数据重用提供了必要的语境信息。研究者可以理解数据是如何被收集和处理的，评估数据的质量和适用范围，从而做出明智的重用决策。

案例研究的启示

论文通过三个具体项目展示了新工作流程的实际应用：ELTeC项目、十八世纪法国小说合集、以及西班牙白银时代小说语料库。这些案例不仅是技术实现的验证，更揭示了数字人文研究中数据、工具和研究问题之间的复杂互动。

ELTeC项目作为一个多语言、多国家的协作项目，其成功很大程度上依赖于标准化的数据格式和工作流程。项目涉及多个欧洲国家的文学文本，每个国家的研究团队都有自己的学术传统和技术偏好。TextGrid Repository提供的工作流程作为一个共同的平台，使得这些多样化的数据可以被整合在一起，同时又保留了各自的特色。这种"统一中的多样性"是跨国数字人文项目的理想状态，也是未来大规模数据整合的必要条件。

十八世纪法国小说合集的案例展示了数据出版如何促进研究的可见性和影响力。通过在TextGrid Repository中发布数据，项目不仅获得了持久的存储和引用标识符，更重要的是使数据成为可以被独立引用和重用的学术成果。这种数据出版模式正在改变学术评价体系：数据本身成为学术贡献的一种形式，数据的引用和重用成为学术影响力的新指标。论文提到该数据集已经在Journal of Open Humanities Data上发表专门的数据论文，标志着数据作为学术成果的正式认可。

西班牙白银时代小说语料库的案例则突显了数字人文研究中语言和文化多样性的重要性。TextGrid Repository虽然起源于德国，但其工作流程设计考虑了多语言环境的需求。通过与国际标准（如TEI、Dublin Core）的对接，以及对多语言元数据的支持，存储库能够服务于不同语言和文化背景的研究社区。这种国际化不仅是技术层面的，更是学术理念层面的：数字人文基础设施应该促进全球学术交流，而不是强化某一语言或文化的霸权。

这三个案例还共同揭示了数字人文研究的一个重要趋势：从个人项目向协作网络的转变。传统的人文研究往往是个人学者的独立工作，但数字化使得大规模的数据收集、处理和分析成为可能，也使得跨机构、跨国界的协作成为必要。TextGrid Repository提供的不仅是一个技术平台，更是一个学术社区的聚合点。通过共享数据和工具，研究者可以在彼此的工作基础上进行创新，形成累积性的知识增长。

技术民主化与学术赋能

论文隐含但贯穿始终的一个主题是技术民主化。数字人文的早期发展往往由技术专家主导，普通人文学者被排除在技术决策之外，只能被动接受技术专家设计的系统。这种技术精英主义不仅限制了数字人文的普及，也可能导致技术系统与实际学术需求的脱节。

"流畅化"工作流程的设计理念体现了一种不同的技术哲学：技术应该赋能而非替代学术判断。通过使用研究者熟悉的工具，通过提供透明和可理解的流程，新工作流程将技术控制权还给研究者。研究者不再是被动的数据提供者，而是主动的数据管理者。他们可以理解数据是如何被处理的，可以根据自己的学术需求调整工作流程，可以对数据质量做出有根据的判断。

这种赋能不仅体现在个人层面，也体现在社区层面。通过开源工具和开放标准的使用，新工作流程降低了参与数字人文的门槛。小型研究团队和资源有限的机构也可以采用相同的工作流程，而不需要投资昂贵的专用系统或雇佣专门的技术人员。这种可及性对于学术公平至关重要，确保数字人文的发展不会加剧已经存在的资源不平等。

同时，论文也清醒地认识到技术民主化不等于技术简化。FAIR原则、TEI标准、元数据质量控制等仍然需要专业知识和严格执行。关键在于将这些专业要求嵌入到友好的工作流程中，通过自动化、模板化和文档化来降低学习曲线，而不是降低标准本身。这种"高标准、低门槛"的平衡是数字人文基础设施设计的理想状态。

长期保存的制度化挑战

数字数据的长期保存不仅是技术问题，更是制度问题。技术层面的解决方案（如格式迁移、冗余备份、校验和验证）已经相对成熟，但如何确保这些技术措施得到持续实施，如何在技术标准演进时保持数据的可用性，如何在机构变迁中维持服务的连续性，这些制度层面的挑战往往更加棘手。

TextGrid Repository作为一个由多个机构支持的基础设施，其可持续性建立在制度化的基础上。论文提到的多个合作机构（哥廷根大学、德累斯顿工业大学、马克斯·韦伯基金会、哥廷根科学数据处理协会）形成了一个支持网络，分散了单点故障的风险。这种多机构模式也使得存储库可以整合不同机构的专业优势：大学提供学术专业知识，研究所提供领域专长，数据中心提供技术基础设施。

论文还暗示了TextGrid Repository与更广泛的研究基础设施生态系统的联系。通过与DARIAH（Digital Research Infrastructure for the Arts and Humanities）、Text+等欧洲层面的基础设施倡议的整合，TextGrid Repository成为一个更大网络的节点。这种网络化不仅增强了单个存储库的可持续性，也促进了数据和服务的跨平台流动。研究者可以在一个平台上存储数据，在另一个平台上分析数据，在第三个平台上发布成果，而整个过程是无缝衔接的。

然而，制度化也带来新的挑战。多机构协作需要复杂的治理结构和协调机制。不同机构可能有不同的优先级、不同的资金周期、不同的技术路线。如何在保持各机构自主性的同时确保整体服务的一致性和连续性，是一个持续的挑战。论文提到的"社区参与"和"用户故事征集"表明TextGrid Repository认识到用户社区在治理中的重要作用，但如何将用户反馈有效地转化为技术和政策决策，仍然需要进一步探索。

未来发展的多维度展望

论文在结尾部分概述了未来发展方向，这些方向反映了数字人文基础设施建设的前沿趋势。与其他服务的进一步整合是一个关键方向。当前的数字人文生态系统呈现出高度碎片化的特征：数据存储在一个平台，分析在另一个平台，可视化在第三个平台，发布在第四个平台。这种碎片化增加了研究者的认知负荷，也阻碍了工作流程的自动化。未来的发展应该朝着更加无缝的集成方向前进，使得数据可以在不同服务之间自由流动，研究者可以根据任务需求灵活组合不同的工具和服务。

元数据质量的持续提升是另一个重要方向。虽然新工作流程已经显著改善了元数据质量，但仍有提升空间。机器学习和自然语言处理技术的进步为自动化元数据提取和丰富提供了新的可能性。例如，可以使用命名实体识别自动标注文本中的人名、地名和机构名，使用主题建模自动生成主题标签，使用文本分类自动分配学科类别。这些自动化技术不是要替代人工判断，而是要为人工审核提供更好的起点，减少重复性劳动，使研究者可以将精力集中在需要学术判断的任务上。

用户体验的优化是一个永恒的主题。虽然"流畅化"工作流程已经显著降低了技术门槛，但仍然需要研究者掌握一定的技术技能（如Git、XPath、Python）。对于完全没有编程经验的人文学者，这仍然可能是一个障碍。未来的发展可能需要提供多层次的接口：为技术熟练的用户提供灵活和强大的命令行工具，为中等技术水平的用户提供图形界面和向导式流程，为技术新手提供完全自动化的一键式解决方案。这种多层次的设计可以满足不同用户群体的需求，同时也为用户的技能成长提供了路径。

数据分析和可视化功能的增强也值得期待。当前的TextGrid Repository主要聚焦于数据存储和发布，但研究者的需求不止于此。他们希望能够直接在存储库中进行基本的数据探索和分析，而不需要将数据下载到本地。论文提到的与Voyant Tools的集成是一个良好的开端，但可以进一步扩展。例如，可以整合文本分析工具（如词频统计、关键词提取、情感分析），可视化工具（如网络图、时间线、地图），甚至机器学习工具（如文本分类、聚类、主题建模）。这种"分析即服务"的模式可以降低计算资源的门槛，也可以促进分析方法的标准化和可重复性。

理论反思与方法论意义

超越具体的技术实现，这篇论文对数字人文的理论和方法论也有重要启示。首先，它挑战了"技术中立性"的神话。技术系统的设计从来不是中立的，而是体现了特定的价值观和权力关系。传统的技术主导模式往往强化了技术专家的权威，边缘化了人文学者的学术判断。"流畅化"工作流程通过重新分配技术控制权，体现了一种更加民主和参与式的技术哲学。

其次，论文揭示了标准化与多样性之间的辩证关系。数字人文研究需要标准化来促进数据共享和重用，但过度的标准化可能扼杀学术创新和文化多样性。TEI标准的成功在于它提供了一个灵活的框架，而不是僵化的模板。研究者可以在遵循基本标准的同时，根据自己的研究需求进行定制和扩展。这种"核心加扩展"的模式为标准化与多样性的平衡提供了一个可行的路径。

第三，论文强调了数据作为学术成果的地位。传统的学术评价体系主要关注出版物（如专著、论文），数据往往被视为研究的副产品而非成果本身。但在数字时代，高质量的研究数据本身就是重要的学术贡献，应该得到相应的认可和奖励。TextGrid Repository通过为数据提供持久标识符、引用格式和发布平台，推动了这种学术文化的转变。这不仅是技术问题，更是学术价值观的重塑。

第四,论文体现了"基础设施研究"的重要性。数字人文研究往往关注具体的研究问题和分析方法,而忽视了支撑这些研究的基础设施。但基础设施的设计深刻影响着什么样的研究是可能的、容易的或困难的。通过研究基础设施本身——它的技术架构、治理模式、用户体验——我们可以更好地理解数字人文研究的可能性和局限性,也可以更有意识地塑造未来的研究环境。

跨学科对话的可能性

虽然论文聚焦于人文研究数据,但其提出的理念和方法对其他学科也有借鉴意义。社会科学、自然科学、医学等领域都面临着研究数据管理的挑战,都在探索如何平衡数据开放与隐私保护、如何提高数据质量、如何促进数据重用。TextGrid Repository的经验表明,成功的数据基础设施需要深入理解特定学科的研究实践和文化,而不是试图用一个通用的解决方案适配所有学科。

同时,不同学科之间的交流和学习也是必要的。人文学科在文本编码、元数据标准、长期保存等方面积累了丰富的经验,这些经验可以启发其他学科。反过来,自然科学在数据管理、版本控制、可重复性等方面的成熟实践,也可以为人文学科提供借鉴。跨学科的对话不是要消除学科差异,而是要在承认差异的基础上寻找共同点,建立可以跨学科应用的原则和方法。

FAIR原则就是这种跨学科共识的一个例子。虽然FAIR原则起源于生命科学领域,但它提出的可发现性、可访问性、可互操作性、可重用性等目标,对所有学科都是相关的。关键在于如何根据不同学科的特点,将这些抽象原则转化为具体的技术实现和工作流程。TextGrid Repository的实践为人文学科的FAIR数据提供了一个范例,也为其他学科提供了可以参考的模式。

全球南方的视角

论文主要关注欧洲的数字人文基础设施建设,但全球南方国家的视角也值得考虑。数字人文基础设施的建设需要大量的资金、技术和人力投入,这对资源有限的国家和机构构成了挑战。如果数字人文基础设施主要集中在富裕国家,可能会加剧全球知识生产的不平等,使得全球南方的学术声音更加边缘化。

开源工具和开放标准在这里发挥着关键作用。通过使用免费的开源软件(如Git、Python、Jupyter),通过遵循国际开放标准(如TEI、Dublin Core),资源有限的机构也可以建立符合国际标准的数据基础设施,而不需要购买昂贵的商业软件。TextGrid Repository的"流畅化"工作流程因为主要基于开源工具,在这方面具有优势。

然而,技术的可及性只是第一步。更深层的挑战在于如何确保全球数字人文基础设施反映全球的文化和语言多样性,而不是强化西方中心主义。这需要在治理结构、标准制定、资源分配等方面给予全球南方更多的发言权。这也需要认识到不同文化对数据、知识、所有权等概念可能有不同的理解,数字基础设施的设计需要尊重这些差异。

伦理维度的考量

数字人文基础设施的建设也涉及一系列伦理问题。数据的长期保存意味着数据可能被用于创建者最初未预见的目的,这引发了知情同意的问题。历史文本的数字化和传播可能涉及版权和文化遗产保护的复杂问题。数据的开放获取可能与某些社区对敏感信息的保护需求相冲突。

论文虽然没有详细讨论这些伦理问题,但其强调的"不改变原始数据文件"的原则体现了对数据完整性和真实性的尊重。元数据的透明化和可追溯性也有助于数据使用的伦理审查。未来的发展可能需要更明确地将伦理考量纳入工作流程设计,例如提供灵活的访问控制机制,允许数据创建者对数据的使用施加必要的限制;提供清晰的数据来源和处理历史记录,使数据使用者可以评估数据的伦理适当性。

教育与能力建设

数字人文基础设施的成功最终取决于用户社区的能力。即使是"流畅化"的工作流程,仍然需要用户具备一定的技术素养。因此,教育和培训是基础设施建设不可分割的一部分。论文提到的文档、教程、用户支持等都是能力建设的重要组成部分。

但能力建设不应该仅仅是技术培训,更应该包括数据素养、开放科学理念、研究伦理等更广泛的内容。研究者需要理解为什么数据管理很重要,为什么要遵循FAIR原则,为什么要使用标准化的格式和元数据。只有当这些理念被内化,技术工具才能被有效和负责任地使用。

教育也应该是双向的。基础设施的建设者需要从用户那里学习,理解他们的实际需求、工作习惯、面临的挑战。论文提到的"用户故事征集"就是这种双向学习的一个机制。通过持续的对话和反馈,基础设施可以不断演进,更好地服务于学术社区。

结语：从工具到生态

这篇论文表面上介绍的是一个技术工作流程,但其深层意义远超技术本身。它展示了数字人文基础设施如何从单纯的技术工具演变为一个复杂的学术生态系统。在这个生态系统中,技术、标准、制度、社区、文化相互交织,共同塑造着数字时代的人文研究。

"流畅化"这个看似轻松的概念,实际上承载着对数字人文未来的深刻思考。它拒绝技术精英主义,主张技术应该服务于学术而非相反。它拒绝一刀切的标准化,主张在统一框架下保留多样性。它拒绝数据作为副产品的观念,主张数据本身就是学术贡献。它拒绝封闭的孤岛,主张开放和互联的基础设施网络。

TextGrid Repository的实践表明,这些理念不是乌托邦式的空想,而是可以通过精心的设计和持续的努力来实现的。通过整合熟悉的工具,通过自动化与人工审核的平衡,通过元数据与数据的分离,通过多机构的协作,通过与国际标准的对接,一个既易用又高质量、既灵活又标准化、既服务本地社区又连接全球网络的数字人文基础设施是可能的。

当然,挑战仍然存在。技术在不断演进,学术需求在不断变化,资源和政策环境在不断波动。数字人文基础设施的建设不是一个可以完成的项目,而是一个需要持续投入和调整的过程。但正如论文所展示的,通过将技术创新与对学术实践的深刻理解相结合,通过将效率提升与质量保障相结合,通过将本地需求与全球标准相结合,我们可以建设出真正服务于人文研究、促进知识创造和传播的数字基础设施。

这不仅是技术问题,更是关于我们希望建设什么样的学术未来的问题。在数字化日益深入的今天,基础设施的选择就是价值观的选择。TextGrid Repository选择了易用性而非技术炫耀,选择了社区参与而非自上而下,选择了开放标准而非专有系统,选择了长期可持续而非短期效益。这些选择体现了一种以人为本、以学术为中心的数字人文愿景,值得我们深思和借鉴。

最终,数字人文基础设施的价值不在于技术本身的先进性,而在于它能否真正促进人文研究的繁荣,能否帮助研究者提出和回答重要的学术问题,能否使人文知识更广泛地传播和应用,能否为理解人类文化和社会做出贡献。从这个意义上说,TextGrid Repository的"流畅化"工作流程不仅是一个技术创新,更是对数字人文使命的一次重申：技术应该让人文研究变得更容易、更开放、更有影响力,而不是相反。这是一个值得整个数字人文社区共同追求的目标。

TextGrid Repository论文解读：人文研究数据保存的流畅化工作流程

作者单位

摘要

关键词

参考文献