東亞最大文字圖像資料庫上線 150萬字形可免費下載

中研院歷史語言研究所與數位文化中心日本大學機構合作,共同建置東亞規模最大的「歷史文字資料庫統合檢索系統」,今(13)日正式啓用。(中研院提供/李侑臺北傳真)

中研院歷史語言研究所與數位文化中心2019年起開發「簡牘字典史語所藏居延漢簡資料庫」,今年更進一步,與日本五大學研機構合作建置東亞規模最大的「歷史文字資料庫統合檢索系統」,並於今(13)日正式啓用,整合的5個資料庫約有150萬件高解析度文字圖像,可免費下載。

「歷史文字資料庫統合檢索系統」由中研院史語所、數位文化中心與奈良文化財研究所、東京大學史料編纂所、國文學研究資料館、國立國語研究所、京都大學人文科學研究所等日本學研機構合作建置。整合了源自中國與日本的簡牘與紙本文書典籍抄本刻本紀元前至19世紀的文字圖像數位資源

跨資料庫搜尋,有賴使用相同語法規範。數位文化中心執行秘書陳淑君表示,本次與日本學研機構共同確立文字圖像數位資源共享流通體制,並議定一致的國際圖像互通架構(International Image Interoperability Framework,英文簡稱 IIIF)規範,以供多方共同遵循,如此一來,便可從彼此資料庫中,檢索指定單字圖像。

近年開放資料概念標準化影響數位典藏發展。1990年代開始,中研院史語所便着手進行簡牘影像釋文數位化工作,2002年起,則參與數位典藏國家科技計劃

中研院表示,爲探究以簡牘爲主題開放性資料庫架構,2019年起中研院史語所與數位文化中心導入IIIF規範,結合鏈結開放資料(Linked Open Data, LOD)等技術,開發「簡牘字典—史語所藏居延漢簡資料庫」,不僅發展出強大的圖像縮放瀏覽、提取單字字形、圖像比較、標註功能,改善簡牘研究的工具,更建構中研院史語所藏漢簡圖像、後設資料的開放共享環境,更成爲此次跨國合作「歷史文字資料庫統合檢索系統」的重要基礎

擔任本次計劃主持人的中研院史語所助研究員劉欣寧指出,這項檢索系統是文字圖像典藏機構間首次創新合作模式,本次系統公開上線只是起點,未來將持續號召其他典藏機構加入,並嘗試深化技術。期許在文字圖像資源共享的理念下,突破時空的限制,重現東亞漢字文化圈源流與歷史脈絡