网站开发英语词汇国内免费设计素材网站-Seo优化-阳泉市网站建设公司

网站开发英语词汇,国内免费设计素材网站,wordpress如何设置菜单,网站为什么需要备案号论文解读#xff1a;将1930年前所有阿拉伯期刊添加到Wikidata——学术众包项目Jarāʾid向数字公共领域的迁移作者#xff1a;Till Grallert#xff08;柏林洪堡大学#xff09; 发表时间#xff1a;2025年7月23日 DOI#xff1a;10.46298/transformations.14749 论文…论文解读将1930年前所有阿拉伯期刊添加到Wikidata——学术众包项目Jarāʾid向数字公共领域的迁移作者Till Grallert柏林洪堡大学发表时间2025年7月23日DOI10.46298/transformations.14749论文核心要旨这篇发表在《Transformations》期刊上的论文记录了一个雄心勃勃的学术基础设施建设项目将1930年前全球出版的所有阿拉伯语期刊的全面书目数据贡献到Wikidata这一全球最大的公共开放知识图谱中。该数据集源自学术众包项目Jarāʾid包含超过3000种期刊、约2700名编辑以及近350个收藏机构的信息。作为阿拉伯期刊的活态联合目录这个数据集不仅缓解了图书馆目录和检索系统的基础设施薄弱问题更试图对抗知识生态系统中的认识论暴力。项目向Wikidata的迁移解决了原始方法的社会技术缺陷使数据集在符合FAIR原则可发现、可访问、可互操作、可重用和五星级关联开放数据的环境中可用。Wikidata平台提供的多语言界面、强大的用户管理和版本控制功能显著提升了不断演化数据集的可用性和可维护性。论文详细阐述了工作流程和数据模型并通过第二个关于奥斯曼帝国土耳其语期刊的数据集展示了该方法在其他语境中的可重用性。最终论文展示了向Wikidata迁移如何产生与更广泛的维基媒体社群的持续互动从而显著拓展了我们对期刊及其馆藏的认知。参考文献全文翻译与学术谱系本文涉及的63篇参考文献构成了一个关于阿拉伯期刊数字化、元数据管理、Wikidata应用以及数字人文方法论的完整知识体系。这些文献横跨图书馆学、中东历史研究、数字人文理论、字符编码技术以及语义网络等多个领域共同支撑起这个学术基础设施建设项目的理论框架和方法论基础。Allison-Cassin和Scott2018在《Code4Lib期刊》发表的文章率先探讨了Wikidata作为图书馆关联开放数据平台的可能性这为后续将历史期刊元数据整合进Wikidata生态系统提供了方法论基础。他们的研究表明图书馆界传统的MARC格式虽然在过去几十年中发挥了重要作用但在互联网时代面临着互操作性不足的困境而Wikidata的开放性和灵活性恰好能够弥补这一缺陷。Ayalon1995的《阿拉伯中东的新闻出版一部历史》是理解该地区期刊发展脉络的经典著作。这部专著系统梳理了从19世纪初到20世纪中叶阿拉伯世界新闻业的演变轨迹特别关注了奥斯曼帝国统治时期的出版生态。Ayalon指出阿拉伯期刊的诞生与现代性观念的传播、民族主义思潮的兴起以及殖民主义的扩张密不可分这些期刊不仅是信息传播的媒介更是社会变革的催化剂。Baykal在两篇重要研究中2011, 2019深入探讨了奥斯曼土耳其语期刊的收藏与历史。2011年的文章聚焦于伊斯坦布尔大学图书馆收藏的Hakkı Tarık Us藏品这是世界上最重要的奥斯曼期刊收藏之一包含数百种从1908年立宪革命到共和国初期的报刊。2019年的专著则将研究范围扩展到整个奥斯曼帝国晚期的新闻出版业详细分析了青年土耳其革命后新闻自由的短暂繁荣以及随后的政治压制。Baykal的研究揭示了多语言环境下期刊命名、转写和分类的复杂性这正是当代数字化项目必须面对的核心挑战。Berners-Lee2009提出的关联数据五星标准成为评估数据开放程度的重要框架。这个标准从最基础的在线发布数据一星到使用标准化URI、关联到其他数据源并提供上下文信息五星形成递进关系。对于历史期刊元数据而言达到五星标准意味着不仅要数字化书目信息还要将其与地理位置、人物传记、历史事件等其他知识库建立语义关联从而实现真正的知识发现。Boyar2006的研究揭示了苏丹阿卜杜勒-哈米德二世统治时期1876-1908宫廷与新闻界之间复杂的双向关系。这一时期虽然实行严格的新闻审查但苏丹本人却高度重视报刊的宣传作用甚至资助某些报纸来塑造公众舆论。这种矛盾的态度导致了一个独特的出版生态一方面是官方报刊的繁荣另一方面是流亡报刊在欧洲各地的蓬勃发展。理解这一历史背景对于解释为何许多阿拉伯期刊在出版地点、语言使用和政治立场上呈现如此复杂的面貌至关重要。Brockelmann等人1935制定的德国东方学会转写系统DMG长期以来是学术界转写阿拉伯文字的标准之一。这套系统试图在准确表示阿拉伯语音位和便于西方读者阅读之间取得平衡但其复杂的变音符号体系在数字化时代面临输入困难和字符编码不兼容的问题。这一历史遗留问题直接影响到当代数字人文项目中元数据的标准化工作。Cioeta1979专门研究了奥斯曼帝国在黎巴嫩和叙利亚地区的新闻审查制度。他发现尽管1876年宪法名义上保障了新闻自由但实际执行中审查机构拥有巨大的自由裁量权。审查不仅针对政治内容还延伸到宗教、道德和社会议题。许多期刊为了规避审查采取了隐晦的表达方式或频繁更换刊名这使得追踪期刊的连续性和识别同一刊物的不同版本成为研究者的重大挑战。德国标准化协会DIN在2011年更新的DIN 31635标准提供了一套现代化的阿拉伯字母转写方案适用于阿拉伯语、奥斯曼土耳其语、波斯语等多种使用阿拉伯字母的语言。与早期方案相比这套标准更加注重计算机处理的便利性减少了特殊符号的使用但在学术界的接受度仍然有限因为许多研究者已经习惯了传统的转写系统。Dresselhaus和Grallert2024开发的P_wikidata2gitlab工具代表了Wikidata与版本控制系统整合的创新尝试。这个工具允许研究者将Wikidata中的结构化数据导出为GitLab仓库中的文件从而实现数据的版本追踪、协作编辑和质量控制。这种方法特别适合需要频繁更新和多人协作的大型元数据项目因为它结合了Wikidata的开放性和Git的版本管理能力。Fagerving2023从博物馆学的角度探讨了Wikidata在权威控制中的应用。她指出传统的权威档案系统如VIAF、GND虽然权威性强但更新缓慢且对非西方文化的覆盖不足。Wikidata的众包模式和多语言支持使其成为补充甚至替代传统权威档案的有力工具。对于阿拉伯期刊研究而言这意味着可以更快速地建立人名、地名和机构名的规范形式并且能够包含更丰富的文化语境信息。Farag1972研究的Lewis事件是19世纪末阿拉伯科学期刊史上的一个重要插曲。《穆克塔塔夫》杂志因刊登了一篇批评伊斯兰教的文章而引发轩然大波导致主编不得不公开道歉并调整编辑方针。这一事件反映了阿拉伯启蒙运动中宗教传统与现代科学之间的紧张关系也说明了期刊作为公共讨论空间的重要性。在数字化这些历史期刊时如何呈现这种复杂的思想交锋和社会语境是一个值得深思的问题。Fiormonte等人2015提出的代码政治学概念对数字人文实践具有深刻的批判意义。他们指出数字表示和编程语言并非中立的技术工具而是承载着特定文化价值观和权力关系的社会建构。Unicode标准对拉丁字母的优先支持、主流编程语言对从左到右书写方向的默认假设、以及数字基础设施对英语的依赖都构成了对非西方文化的系统性边缘化。这一批判视角提醒我们在数字化阿拉伯期刊时必须警惕技术选择背后的文化霸权。Fortna2023在关于奥斯曼帝国晚期多语言现象的研究中指出语言和文字的选择从来不是纯粹的技术问题而是与现代性追求、民族认同和政治立场紧密相连。许多期刊同时使用阿拉伯文、奥斯曼土耳其文和法文甚至在同一期刊的不同版本中采用不同文字系统。这种语言复杂性在数字化时需要通过精细的元数据标注来保存否则将丢失重要的历史信息。Gaskelle2017讨论的书目问题——标题、期号、出版频率——在19世纪期刊研究中尤为突出。许多期刊的标题在不同时期有细微变化期号编排不连续或重复宣称的出版频率与实际情况不符。这些不规则性部分源于技术和经济限制部分源于政治压力和审查规避。在建立数字书目数据库时必须设计足够灵活的数据模型来容纳这些历史真实性而不是强行将其纳入现代标准化框架。Gil和Ortega2016倡导的最小计算理念在数字人文领域引发了重要讨论。他们认为数字人文不应盲目追求技术复杂性而应根据实际需求和资源条件选择适当的技术方案。对于资源有限的研究者和机构使用简单的静态网站、纯文本格式和开源工具往往比依赖昂贵的商业平台更可持续。这一理念对于全球南方的数字人文实践尤其重要因为它挑战了以欧美为中心的技术标准和基础设施依赖。GO FAIR组织2020推广的FAIR原则——可发现Findable、可访问Accessible、可互操作Interoperable、可重用Reusable——已成为科学数据管理的国际标准。将这些原则应用于历史期刊元数据意味着为每个期刊分配持久标识符如Wikidata QID提供开放许可的访问方式使用标准化的元数据模式并附带充分的文档说明数据的来源和处理过程。Grallert的一系列研究2014, 2021, 2022, 2024a-b, 2025a-c构成了本领域最重要的学术贡献。他的博士论文2014通过研究晚期奥斯曼大马士革的公共空间生产揭示了报刊在城市现代化进程中的作用。2021年的文章Catch Me If You Can生动地描述了研究阿拉伯历史期刊的困难资料分散在世界各地的图书馆和档案馆书目信息不一致数字化质量参差不齐。他提出通过数字历史方法整合碎片化的资源建立统一的元数据基础设施。2022年的技术报告详细分析了将图书馆MARC XML数据整合到权威档案时遇到的挑战特别是转写不一致问题。同一个阿拉伯语期刊名称可能有十几种不同的拉丁字母转写形式这使得数据去重和实体识别极为困难。Grallert开发了一套半自动化的匹配算法结合字符串相似度计算和人工审核来解决这一问题。2024年发布的数据集快照v3版本包含了从Wikidata提取的1930年前全球所有阿拉伯语期刊的书目元数据这是迄今为止最全面的此类资源。配套的XSLT转换工具convert_tei-to-bibliographic-data实现了TEI格式与各种书目格式之间的转换大大提高了数据的互操作性。2025年即将出版的三篇文章从不同角度深化了这一研究议程。关于全球南方文本文化遗产数字化的德文章节批判性地审视了拉丁字母和北方语言的基础设施霸权呼吁发展更加多元和包容的技术标准。关于跨越数字鸿沟编辑日常文本的英文章节以阿拉伯期刊为案例探讨了在资源不对称的情况下如何开展有意义的数字学术工作。发布的两个代码仓库wikidata-schemas和wikidata-sparql提供了可重用的数据模型和查询模板降低了其他研究者使用Wikidata的门槛。Gray2019对维基百科性别偏见的研究揭示了众包知识生产中的系统性不平等。女性传记条目更容易被提删女性编辑的贡献更容易被质疑。这一发现对Wikidata同样适用因为两者共享相同的社群文化。在建立阿拉伯期刊元数据时必须警惕可能存在的性别、地域和语言偏见确保边缘化的声音得到充分代表。Hakki Bey1909的穆斯林新闻界是最早系统介绍阿拉伯和土耳其期刊的法文文献之一。作为奥斯曼官员和知识分子他对帝国境内的新闻出版业有第一手的了解。虽然这篇文章带有明显的官方立场和伊斯兰中心主义视角但它提供的期刊名录和统计数据对后世研究者仍有重要参考价值。《国际中东研究杂志》IJMES的转写系统是北美中东研究领域的事实标准。它在准确性和可读性之间取得了相对平衡省略了短元音标记但保留了长元音和辅音区分。许多数字项目采用IJMES转写作为默认方案但这也引发了关于学术标准普遍性的争议为什么一个北美学术期刊的编辑规范应该成为全球标准?国际标准化组织ISO的ISO 233:1984标准代表了转写标准化的早期尝试。这套系统追求最大程度的准确性和可逆性使用大量变音符号来区分阿拉伯语的不同音位。然而其复杂性限制了实际应用许多图书馆和出版机构选择了简化版本。这种标准与实践之间的脱节是元数据整合的一大障碍。Kirmizialtin和Wrisley2022的研究探讨了光学字符识别OCR技术在奥斯曼土耳其语期刊数字化中的应用。奥斯曼土耳其语使用阿拉伯字母书写但包含大量波斯语和土耳其语词汇这使得训练有效的OCR模型极具挑战性。他们的实验表明即使是最先进的深度学习模型在处理19世纪印刷质量不佳的文本时准确率仍然不高。这提醒我们自动化转录不能完全取代人工校对数字化项目必须在效率和质量之间做出权衡。LeBlanc2024的超越关键词一文批判了数字化报纸数据库中的去殖民化修辞。她指出许多机构声称通过数字化来民主化历史资源的访问但实际上这些数据库的设计、检索机制和呈现方式仍然反映着殖民时期的知识等级和分类体系。真正的去殖民化需要重新思考元数据结构、检索算法和用户界面使其能够支持非西方中心的历史叙事。美国国会图书馆的阿拉伯语罗马化表格是北美图书馆界广泛采用的转写标准。它与IJMES系统相似但在某些细节上有所不同这种微小差异在数据整合时会造成匹配困难。更重要的是这套系统体现了图书馆编目的实用主义取向优先考虑检索便利性而非语言学准确性。Manzo等人2015评估了众包用户生成元数据的价值。他们发现虽然专业编目员创建的元数据在一致性和规范性上更胜一筹但众包元数据在覆盖面、多样性和用户相关性上具有优势。对于大规模的历史期刊数字化项目结合专业知识和众包参与可能是最有效的策略由专家建立基础框架和质量标准,由社群贡献具体内容和地方性知识。Mestyan和Grallert合作开发的Jarāʾid项目2012-2015初版2020更新版是阿拉伯期刊研究的里程碑。这个在线数据库收录了1800至1929年间出版的阿拉伯语期刊的书目信息包括刊名、出版地、创刊和停刊时间、主编、语言等字段。项目采用开放数据原则所有数据以CSV格式发布在GitHub和Zenodo上允许其他研究者自由使用和改进。这种开放科学实践为后续的Wikidata整合奠定了基础。Milligan2019的《丰裕时代的历史学》探讨了网络如何改变历史研究。数字化使得海量历史资料触手可及但这种丰裕也带来了新的挑战如何在信息过载中筛选有价值的资料?如何批判性地评估数字化资源的代表性和完整性?如何避免被算法推荐和搜索引擎优化所塑造的研究议程?Milligan提醒历史学家数字工具不仅是研究手段也是需要批判性反思的研究对象。Milo1999对Unicode阿拉伯语块的批评指出了字符编码标准中的技术和文化问题。Unicode将阿拉伯字母视为独立字符的序列忽视了阿拉伯书法中字形连接和上下文变体的重要性。这种简化虽然便于计算机处理但损失了阿拉伯文字的美学和文化维度。对于历史期刊的数字化而言这意味着即使文本内容被准确转录其视觉形式和排版特征也可能无法在纯文本格式中得到保留。Nemeth2017的专著详细考察了机器时代阿拉伯文字排版技术的演变。从早期的铅字铸造到照相排版再到数字字体技术变革不断重塑着阿拉伯文字的视觉形式。19世纪末20世纪初的期刊正处于这一转型期不同的印刷技术和字体设计反映了现代化进程中的审美选择和技术限制。数字化项目如果只关注文本内容而忽视排版形式将错失理解这段历史的重要维度。网络工作组的BCP 47标准定义了语言标签的格式这对多语言元数据管理至关重要。一个完整的语言标签可以包含语言代码、文字系统、地区变体等信息例如ar-Arab-EG表示埃及的阿拉伯语使用阿拉伯文字。对于奥斯曼时期的期刊准确标注语言和文字系统尤为重要因为许多刊物混用阿拉伯语、土耳其语和法语或者使用不同的文字系统书写同一语言。Odell等人2022的指南介绍了如何在学术交流图书馆工作中使用Wikidata。他们强调Wikidata不仅是数据存储平台更是连接不同知识系统的桥梁。通过将机构仓库、期刊文章、研究者档案等资源链接到Wikidata可以实现跨平台的知识发现和引用追踪。这种互联互通的愿景对于分散在全球各地的阿拉伯期刊资源尤其重要。Risam和Gil2022主编的《数字人文季刊》最小计算专刊系统阐述了这一理念的理论基础和实践案例。最小计算不是技术倒退而是一种批判性的技术选择质疑越新越好的技术进步主义关注可持续性和可及性重视地方性知识和社群自主性。对于资源匮乏的研究环境最小计算提供了一条不依赖昂贵基础设施和专有软件的可行路径。Romanov的阿拉伯语Beta代码项目2015-2021提供了一种用纯ASCII字符表示阿拉伯文字的方案。这种编码方式虽然不如Unicode直观但在某些技术环境下如命令行工具、版本控制系统具有优势。Beta代码的核心理念是可逆性和人类可读性任何阿拉伯文本都可以无损地转换为Beta代码而Beta代码即使不经转换也能被熟悉该系统的研究者阅读。Sa’di和Sarton1938撰写的George Edward Post传记揭示了19世纪末贝鲁特美国大学在阿拉伯科学期刊发展中的关键作用。Post作为医学教授和植物学家不仅在《穆克塔塔夫》等期刊上发表大量科学文章还培养了一代阿拉伯科学作家和翻译者。这些传教士-学者在知识传播中的角色是复杂的他们既是西方科学的引介者也是文化帝国主义的代理人。数字化项目在呈现这段历史时需要保持这种复杂性和批判性。Sahu-Hough2025探讨了Wikidata在纸草学研究中的潜力。纸草文献与历史期刊虽然时代相隔遥远但面临相似的元数据挑战碎片化的资料、多样的命名规范、复杂的文本关系。她提出的解析payri方法——将纸草文献的各种属性出土地点、收藏机构、文本内容、年代等结构化地表示在Wikidata中——对期刊元数据建模同样具有启发意义。Sardo和Bianchini2022从图书馆学理论的角度论证了Wikidata对实现普遍书目控制的新前景。传统的书目控制依赖于中心化的权威机构和标准化的编目规则但这种模式在互联网时代显得僵化和低效。Wikidata的分布式协作模式、灵活的数据结构和开放的访问机制使其有可能成为新一代书目控制的基础设施。当然这也需要图书馆界在观念和实践上做出重大调整。Sherratt2019的黑客遗产一文揭示了在线访问的局限性。许多文化遗产机构虽然提供了数字化资源的在线访问但通过技术手段如禁止下载、限制API访问来控制使用方式。Sherratt通过黑客这些限制——编写爬虫、逆向工程接口、批量下载数据——来实现真正的开放访问。他的实践引发了关于数字遗产所有权和使用权的伦理讨论谁有权决定公共资金数字化的文化遗产应该如何被使用?Stachowiak1973的一般模型理论为理解元数据的本质提供了哲学基础。元数据是关于数据的数据本质上是一种模型它简化、抽象和结构化地表示原始对象在这里是历史期刊的某些方面。任何模型都是有选择性的——它突出某些特征而忽略其他特征服务于特定的目的和用户。认识到元数据的模型性质有助于我们批判性地审视元数据标准背后的假设和价值取向。Tarrazi的《阿拉伯新闻史》1913-1914, 1933是阿拉伯期刊研究的奠基性著作。这部四卷本巨著收录了从19世纪初到20世纪30年代数千种阿拉伯语期刊的信息包括详细的刊名、出版地、主编、内容简介等。Tarrazi作为黎巴嫩出版商和书目学家花费数十年时间搜集整理这些资料。尽管这部著作存在不完整和不准确之处但它仍然是所有后续研究的起点。2023年的新版本使这部经典著作更容易获取为数字化项目提供了重要的参考源。TEI协会的《电子文本编码与交换指南》2025年4.9.0版是数字人文领域最重要的技术标准之一。TEI提供了一套基于XML的标记语言用于表示文本的结构、内容和元数据。对于历史期刊TEI可以标注文章标题、作者、日期、页码等书目信息也可以标注文本中的人名、地名、引用等语义信息。虽然TEI的学习曲线陡峭但它的表达能力和互操作性使其成为学术数字化项目的首选格式。Thornton等人2022的研究展示了如何将女性期刊编辑的信息链接到Wikidata知识图谱。他们发现许多在19世纪期刊界发挥重要作用的女性编辑在传统书目资源中被忽视或边缘化。通过在Wikidata中创建和丰富这些女性的条目并将其与期刊、出版机构、社会网络等实体关联可以重构一个更加完整和多元的期刊史图景。这一方法论同样适用于阿拉伯期刊研究中被忽视的群体。Tildesley2009讨论的标题变更问题在19世纪期刊研究中普遍存在。许多期刊在生命周期中多次更改标题有时是细微的修改如添加副标题有时是彻底的改名。这些变更可能反映了编辑方针的调整、所有权的变化、政治环境的影响或市场策略的考虑。在元数据中准确记录这些标题变更及其时间点对于理解期刊的历史演变至关重要。Unicode联盟的《Unicode标准15.0.0核心规范》2022定义了现代计算机系统中字符表示的基础。Unicode试图为世界上所有的书写系统提供统一的编码方案但这个雄心勃勃的目标在实践中面临诸多挑战。对于阿拉伯文字Unicode的实现虽然基本可用但在处理历史文本的变体字形、特殊符号和排版细节时仍有不足。理解Unicode的能力和局限对于设计合理的数字化工作流程至关重要。Unsworth2000提出的学术原语概念识别了人文研究者共同使用的基本方法发现、注释、比较、参照、采样、图示、表示。这些原语超越了具体的学科界限构成了人文学术实践的核心。数字工具应该支持而不是取代这些基本的学术活动。对于期刊研究这意味着数字平台不仅要提供检索和浏览功能还要支持注释、比较不同版本、可视化期刊网络等学术工作流程。Vrandečić等人2023回顾了Wikidata的创建历程和设计理念。Wikidata诞生于2012年最初是为了解决维基百科不同语言版本之间数据不一致的问题。它采用了一种独特的数据模型每个实体有一个唯一的标识符QID可以有多个标签不同语言的名称、描述、别名以及一系列声明statements来表示该实体的属性和关系。每个声明都可以附加来源引用和限定符形成了一个高度结构化但又灵活的知识表示系统。Wikidata的期刊项目WikiProject Periodicals是一个社群驱动的协作努力旨在改进Wikidata中期刊相关数据的质量和完整性。项目参与者制定了期刊条目的最佳实践指南开发了数据质量检查工具,组织了数据导入和清理活动。对于阿拉伯期刊研究者而言,参与这个项目不仅可以贡献自己的专业知识,也可以学习Wikidata的使用方法和社群规范。Wikidata的单语文本语言帮助页面2024年12月版解释了如何在Wikidata中表示不同语言和文字系统的文本。这对于多语言期刊的元数据至关重要同一期刊可能有阿拉伯语、法语和英语的标题每个标题都应该用相应的语言标签正确标注。Wikidata支持数百种语言包括历史语言和少数民族语言这使其特别适合表示复杂的多语言文化遗产。维基媒体基金会的URL缩短器2025虽然是一个看似微不足道的技术工具但它反映了维基生态系统对可访问性和可持续性的重视。长URL不仅不便于分享在某些平台上还可能被截断或破坏。短URL服务确保了Wikidata条目可以通过简洁的链接被引用和访问这对于学术引用和数据共享都很重要。Wittern2013的字符编码综述系统地介绍了数字人文中的文字表示问题。他指出字符编码不仅是技术问题也是文化和政治问题。不同编码标准的竞争反映了不同文化和语言社群的利益博弈。对于阿拉伯文字从早期的专有编码到ISO标准再到Unicode每一次转变都伴随着技术兼容性问题和数据迁移成本。理解这段历史有助于我们在当前的数字化项目中做出明智的技术选择。万维网联盟的调和服务API v0.2规范2023定义了一种用于数据匹配的协议。调和reconciliation是指将本地数据库中的实体与外部知识库如Wikidata中的实体进行匹配的过程。例如当我们有一个期刊名称列表时调和服务可以帮助我们找到每个期刊在Wikidata中对应的QID。这个过程涉及字符串匹配、上下文信息比对和歧义消解是大规模数据整合的关键技术。Zaagsma2023的数字历史与数字化政治一文批判性地审视了数字化过程中的权力关系。他指出什么被数字化、如何被数字化、谁能访问数字化资源这些决策都受到政治、经济和文化因素的影响。大型商业数字化项目往往优先处理有市场价值的资料而边缘化的声音和非主流的历史叙事则被忽视。学术界需要发展批判性的数字素养既利用数字化资源也质疑其背后的选择和排除机制。Zhao2023对数字人文项目中Wikidata应用的系统综述总结了该领域的最新进展。她发现Wikidata在数字人文中的应用主要集中在三个方面作为权威控制和实体识别的工具作为关联开放数据的发布平台以及作为知识图谱分析的数据源。阿拉伯期刊项目综合运用了这三个方面通过Wikidata规范期刊名称和相关实体以开放许可发布元数据并利用知识图谱分析期刊之间的关系网络。深度学术解读从众包到公共领域的范式转变这篇发表在《Transformations》期刊上的论文不仅是一个技术报告更是一份关于数字人文基础设施建设的宣言。它记录了Jarāʾid项目从私有的学术众包平台向公共开放知识图谱Wikidata迁移的完整过程这一迁移本身就体现了数字学术实践中的深刻范式转变。历史语境阿拉伯期刊研究的基础设施困境从历史研究的角度看这个项目处理的是一个极其复杂的研究对象。19世纪末20世纪初的阿拉伯期刊诞生于奥斯曼帝国的晚期危机、欧洲殖民主义的扩张、阿拉伯民族主义的兴起以及现代性观念的传播这一多重历史语境之中。Ayalon、Boyar、Cioeta等学者的研究揭示了这些期刊不仅是信息传播的媒介更是社会变革的推动力量和政治斗争的场域。期刊的创办、审查、停刊、改名、流亡等现象都深深嵌入在帝国政治、宗教改革、教育现代化和公共领域形成的宏大历史进程中。这种历史复杂性直接转化为元数据建模的挑战。一个看似简单的问题——“这份期刊叫什么名字?”——在实践中可能有多个答案阿拉伯语原名、奥斯曼土耳其语名称、法语或英语译名、不同时期的标题变体、审查规避时使用的化名等。Gaskelle和Tildesley讨论的标题变更问题在这个语境下变得更加复杂因为标题的变化不仅反映了编辑决策还可能是政治压力、市场策略或文化认同转变的结果。更严重的问题是基础设施的碎片化。这3000多种期刊的物理副本分散在全球数百个图书馆和档案馆中从开罗到伊斯坦布尔从巴黎到纽约从柏林到莫斯科。每个机构都有自己的编目系统、转写规范和数字化政策。研究者要想获得某份期刊的完整信息往往需要查阅十几个不同的目录对比不同的记录辨别哪些是同一期刊的不同版本哪些是完全不同的刊物。Grallert在2021年的文章中生动地描述了这种追捕游戏的挫败感。从Jarāʾid 1.0到Wikidata技术选择背后的政治经济学Mestyan和Grallert在2012年启动的Jarāʾid项目最初采用的是相对传统的数字人文方法建立一个独立的数据库网站使用定制的数据模型通过众包方式收集和验证信息。这种方法在早期阶段是有效的它允许研究者快速原型化数据结构灵活调整字段定义并建立一个专注于阿拉伯期刊研究的小型社群。然而随着项目的发展这种方法的局限性逐渐显现。首先是可持续性问题维护一个独立的网站需要持续的技术支持和资金投入而学术项目的资助往往是短期的。当项目负责人转换机构或研究重点时网站可能面临关闭的风险。其次是互操作性问题Jarāʾid的数据虽然以CSV格式公开但它与其他数字人文项目、图书馆目录和学术数据库之间缺乏有机联系。研究者需要手动下载数据、转换格式、匹配实体这大大限制了数据的重用潜力。第三是社群规模问题一个专门的小众网站很难吸引足够多的贡献者而没有持续的社群参与数据的更新和质量控制就难以为继。向Wikidata迁移是对这些问题的系统性回应。Wikidata作为维基媒体基金会运营的项目拥有稳定的技术基础设施和长期的资金保障。它的开放数据许可CC0消除了法律障碍任何人都可以自由使用、修改和重新发布数据。它的关联开放数据架构使得每个实体都有唯一的URIWikidata QID可以被其他数据库和应用程序引用和链接。它的多语言支持允许同一实体有数百种语言的标签和描述这对于多语言的历史期刊尤为重要。它的版本控制和来源追踪机制确保了每一次编辑都有记录可以追溯和回滚。最重要的是它拥有一个庞大而活跃的全球社群包括图书馆员、学者、业余爱好者和自动化机器人他们持续地贡献、审核和改进数据。但这种迁移也不是没有代价的。Wikidata的通用性意味着它的数据模型不是为历史期刊研究专门设计的研究者需要在通用属性和专业需求之间找到平衡。Wikidata的社群治理模式意味着数据的结构和内容不是由单个研究团队决定的而是需要与更广泛的社群协商和妥协。Wikidata的开放性意味着任何人都可以编辑数据这既是优势也是风险虽然可以获得更多的贡献但也需要建立质量控制机制来防止错误和破坏。数据模型在标准化与历史真实性之间论文详细阐述了Jarāʾid项目在Wikidata中使用的数据模型这个模型体现了在标准化需求和历史复杂性之间的精心平衡。每个期刊在Wikidata中被表示为一个实体item具有唯一的QID标识符。这个实体有一系列声明statements每个声明表达一个关于期刊的事实例如instance of: newspaper是报纸的实例、“language of work: Arabic”工作语言阿拉伯语、“publication date: 1876”出版日期1876年等。关键的创新在于如何处理时间性和多样性。许多期刊的属性在其生命周期中发生了变化标题可能更改出版地可能迁移主编可能更换语言可能增减。Wikidata的限定符qualifiers机制允许为每个声明添加时间范围、适用条件等上下文信息。例如一个期刊可能有两个title声明一个是1876-1880年使用的标题另一个是1881-1900年使用的标题每个标题都附有start time和end time限定符。这种设计使得数据模型既能满足现代数据库的结构化需求又能保留历史演变的丰富信息。另一个重要的设计选择是如何处理不确定性和争议。历史研究中经常遇到信息不完整或相互矛盾的情况不同的来源可能给出不同的创刊日期学者可能对某份期刊的归属有不同意见。Wikidata的引用reference机制要求每个声明都附带来源信息说明这个事实是从哪里获得的。当存在多个相互矛盾的声明时它们可以同时存在于数据库中每个都有自己的来源引用由数据用户根据自己的研究需求判断哪个更可信。这种设计体现了一种认识论上的谦逊承认知识的不完整性和可争议性而不是强加一个单一的权威版本。多语言处理是数据模型的另一个核心维度。Fortna的研究表明奥斯曼帝国晚期是一个语言和文字高度混杂的时代。许多期刊同时使用阿拉伯语、奥斯曼土耳其语和法语有些甚至在不同版本中采用不同的文字系统。Wikidata允许每个实体有多个标签label、描述description和别名alias每个都可以用不同的语言表达。例如《المقتطف》这份期刊在Wikidata中有阿拉伯语标签المقتطف、英语标签Al-Muqtataf、法语标签Al-Mouqtataf等每个标签都遵循相应语言的转写规范。但转写问题仍然是一个棘手的挑战。Brockelmann的DMG系统、美国国会图书馆的转写表、IJMES标准、ISO 233标准、DIN 31635标准——每一种都有其理据和支持者但它们之间的差异使得数据整合困难。Grallert在2022年的文章中详细分析了这个问题同一个阿拉伯语期刊名称可能有十几种不同的拉丁字母转写形式这使得数据去重和实体识别极为困难。项目采用的策略是多元包容不强制统一转写标准而是将所有常见的转写变体都作为别名添加到Wikidata条目中。这样无论用户使用哪种转写系统搜索都能找到相应的期刊。同时在reference字段中记录每个转写形式的来源使得数据用户可以了解不同转写的学术背景。工作流程半自动化与人工审核的协同论文详细描述了数据导入和维护的工作流程这个流程体现了自动化效率与人工判断之间的精妙平衡。第一步是数据提取从原始的Jarāʾid CSV文件、图书馆MARC记录、学术文献附录等多种来源提取书目信息。这一步主要使用XSLT转换脚本和Python程序将不同格式的数据转换为统一的中间格式。第二步是实体匹配reconciliation判断提取出的期刊名称是否已经在Wikidata中存在。这是整个流程中最具挑战性的环节因为需要处理拼写变体、转写差异、标题变更等复杂情况。项目使用了万维网联盟的调和服务API结合字符串相似度算法如Levenshtein距离和上下文信息如出版地、创刊年份来进行模糊匹配。但算法的准确率有限特别是对于名称相似或信息不完整的期刊因此需要人工审核每一个匹配结果确认是同一期刊还是不同刊物。第三步是数据导入对于Wikidata中尚不存在的期刊创建新的实体对于已存在的期刊补充或更新信息。这一步使用Wikidata的批量编辑工具如QuickStatements、OpenRefine和自定义的Python脚本。每个导入的声明都附带来源引用指向原始数据集或学术文献确保数据的可追溯性。第四步是质量控制使用SPARQL查询检测数据中的不一致性和错误。例如查询所有没有出版地的期刊所有创刊日期晚于停刊日期的期刊所有主编没有生卒年份的期刊等。这些查询生成的问题列表由人工审核逐一修正或补充信息。第五步是社群互动监控Wikidata社群对导入数据的编辑回应质疑和建议参与相关的讨论页面和WikiProject。这一步虽然耗时但对于建立项目在Wikidata社群中的信誉和获得持续支持至关重要。整个工作流程是迭代的而非线性的。随着新的来源被发现、新的期刊被识别、社群反馈被整合数据集不断演化和改进。论文发布的数据集快照v3版本只是这个持续过程中的一个时间切片而不是最终的完成状态。这种活态目录的理念与传统的静态书目出版物形成鲜明对比。可重用性验证奥斯曼土耳其语期刊数据集为了验证方法的可重用性Grallert将同样的工作流程应用于第二个数据集奥斯曼帝国时期出版的土耳其语期刊。这个数据集基于Baykal的研究和Hakkı Tarık Us收藏的编目包含数百种使用奥斯曼土耳其语阿拉伯字母书写的土耳其语出版的期刊。这个验证实验揭示了方法的通用性和局限性。通用性体现在数据模型、转换脚本、匹配算法、质量控制查询等技术组件都可以直接应用于新的数据集只需要调整语言标签和转写规范等参数。局限性体现在奥斯曼土耳其语的语言学特性大量波斯语和阿拉伯语借词、复杂的语法结构使得OCR识别和自动转写更加困难奥斯曼帝国的政治历史多民族构成、频繁的领土变更使得出版地的标注更加复杂土耳其共和国的文字改革从阿拉伯字母到拉丁字母在元数据中引入了额外的复杂性。但正是这些差异使得验证实验更有价值它表明方法不是为特定数据集量身定制的而是具有跨语言、跨文化、跨历史时期的适用性。这对于其他数字人文项目具有重要的示范意义不需要从零开始设计数据模型和工作流程而可以借鉴和改编已有的成功案例。社群效应维基生态系统的协同增益论文的一个重要发现是向Wikidata迁移不仅是数据的单向转移更触发了与更广泛维基媒体社群的持续互动产生了意想不到的协同增益。一旦期刊数据进入Wikidata它就成为整个维基生态系统的一部分可以被维基百科文章引用可以与维基共享资源Wikimedia Commons上的历史图像关联可以被维基数据查询服务WDQS的用户发现和分析。更重要的是Wikidata的开放性吸引了原本不在Jarāʾid项目社群中的贡献者。图书馆员发现他们馆藏的期刊在Wikidata中有条目就会补充馆藏信息和数字化链接。地方历史爱好者发现自己家乡出版的期刊被记录就会添加背景信息和人物传记。维基百科编辑在撰写相关条目时会从Wikidata提取数据并反过来补充新的信息。自动化机器人会定期运行脚本从外部数据库如VIAF、GND导入标识符建立跨平台的链接。这种社群效应显著扩展了数据的覆盖面和深度。论文提到在数据导入后的几个月内社群贡献的编辑数量超过了原始导入的数据量。许多期刊的条目从最初的几个基本声明标题、出版地、日期扩展到包含主编传记、收藏机构列表、数字化链接、相关期刊网络等丰富信息。这种有机增长是封闭的专业数据库难以实现的。但社群互动也带来了挑战。Wikidata社群有自己的规范、惯例和争议解决机制新来者需要学习和适应。不同背景的编辑可能对数据的组织方式有不同的理解和偏好需要通过讨论达成共识。Gray关于维基百科性别偏见的研究提醒我们众包知识生产可能复制现有的社会不平等。Grallert的策略是积极参与社群讨论解释历史期刊研究的专业需求同时也学习和尊重维基社群的文化和价值观。批判性反思技术解决方案的局限性尽管论文展示了向Wikidata迁移的诸多优势但Grallert并没有回避这种方法的局限性和潜在问题。首先是认识论的局限Wikidata的数据模型虽然灵活但它仍然强加了某种本体论结构——实体、属性、值、限定符、引用等概念范畴。这种结构适合表示事实性信息谁在何

网站开发英语词汇国内免费设计素材网站

做网站图片链接到天猫网上注册公司申请流程

网站申请搜狗搜索引擎入口

网站联盟名词解释铜陵县住房和城乡建设局网站

易联网站建设网时网站服务器租赁

无锡网站建设推荐无锡立威云商做同城信息网站怎么赚钱

沈阳网站优化唐朝网络深圳个人做网站

网站开发 英语词汇国内免费设计素材网站

做网站图片链接到天猫网上注册公司申请流程

网站 申请搜狗搜索引擎入口

网站联盟名词解释铜陵县住房和城乡建设局网站

易联网站建设网时 网站服务器租赁

无锡网站建设 推荐无锡立威云商做同城信息网站怎么赚钱

沈阳网站优化 唐朝网络深圳个人做网站

网站开发英语词汇国内免费设计素材网站

网站申请搜狗搜索引擎入口

易联网站建设网时网站服务器租赁

无锡网站建设推荐无锡立威云商做同城信息网站怎么赚钱

沈阳网站优化唐朝网络深圳个人做网站