Accepted Paper
Paper short abstract
This paper presents a method for extracting the written contents from historical sources using GenAI. Focusing on Latin epigraphy, it outlines a workflow for extracting and representing them as an RDF-compliant knowledge graph, while highlighting issues of evaluation and quality control.
Paper long abstract
Recent rapid advances in generative AI are significantly transforming approaches to knowledge structuring and information discovery in the study of historical sources. Beyond the metadata traditionally accumulated for such materials, it is becoming increasingly possible to extract concrete semantic content embedded in the sources themselves, including events, relationships, and contextual situations. Although attempts to structure the internal content of historical sources predate the emergence of generative AI, the automatic extraction of diverse and complex information from natural language texts has generally been difficult, requiring extensive manual labor and thus limiting the scale of such efforts.
Generative AI, with its strong capacity for contextual understanding, has the potential to overcome these limitations by extracting fine-grained and usable knowledge from a vast corpora of historical materials that exceed the limits of human reading alone. Some initiatives, in fact, have already produced notable results, including domestic projects that construct knowledge graphs from the Saga texts using generative AI, as well as the Humanitext project, which enables advanced semantic search of Western classical literature through generative AI and retrieval-augmented generation (RAG). At the same time, substantial questions remain regarding the evaluation of AI-extracted information and knowledge, as well as their effective use in actual research practice.
In this background, this paper examines methods for extracting and utilizing structured data from historical sources using generative AI, taking Latin inscriptions as a case study. Many Latin epigraphic texts are already made available as machine-readable data in a comprehensive database. Using these texts, this study designs prompts grounded in domain expertise to extract information such as persons, groups, and places; records of individuals’ careers and political, social, and economic activities; and relationships among entities, producing structured data in JSON format. The extracted data are then mapped, in accordance with an ontology designed to represent the semantic content of inscriptions, into an RDF-compliant knowledge graph.
The presentation will discuss this data construction workflow in detail and, drawing on practical experience, raise issues concerning challenges identified in the process as well as the evaluation and quality control of AI-extracted data, and concrete approaches to its use in historical research.
| Abstract in Japanese (if needed): | 近年の生成AIの急速な発展によって、歴史資料を対象とする知識構造化や情報発見のありようは大きく変化しつつある。すなわち、従来蓄積されてきた資料のメタデータにとどまらず、資料の中に記述されている出来事や関係性、状況といった具体的な意味内容の抽出が可能になりつつある。もちろん、こうした資料の中身を構造化する試みは生成AIの登場以前から行われてきたが、多くの場合、自然言語で記述される歴史資料からの多様かつ複雑な情報を自動的に抽出することは困難であるため、どうしても人手による作業が要求され、その規模は限定的なものにとどまっていた。 高い文脈理解能力を持つ生成AIは、こうした状況を克服し、人間による読解のみでは扱いきれない膨大な資料群から、その記述内容を含む高精細な知識を抽出し、利用可能にする可能性を秘めている。そうした可能性を実際に探求する研究はなお僅かではあるが、国内においても、生成AIを用いてサガのテキストから知識グラフを構築する試みや、生成AIとRAGを用いて西洋古典文献の高度な意味検索を可能にするHumanitextプロジェクトなどがすでに一定の成果をあげている。一方で、生成AIによって抽出された情報や生成された知識の評価や、実際の研究活動における利用のあり方については議論の余地が多分にある。 そうした状況を踏まえ、このpaperではラテン語碑文という歴史資料を事例に、生成AIを用いて、歴史資料の記述内容を構造化データとして抽出・活用する手法についての検討を行う。ラテン語碑文テキストについて、その多くがデータベースに格納され、機械可読なテキストデータとして提供されている。本研究ではこれらのテキストデータを用い、 人物・集団・地名、人物が有する経歴や政治・社会・経済的な活動の記録、人物間および人物-集団間の関係性といった情報を抽出するためのプロンプトを専門的知見に基づいて設計することで、JSON形式の構造化データを抽出した。さらに、抽出された構造化データを、碑文の意味内容記述のために設計したオントロジーに則って、RDF準拠の知識グラフとして利用可能とした。 発表では、以上のデータ構築のワークフローを詳細に論じるとともに、データ構築の過程で見えてきた課題、および生成AIによって抽出されたデータの評価やクオリティコントロールのあり方、また、歴史研究への具体的な利用のあり方について、実践を踏まえた問題提起を行う。 |
New Developments in Digital Humanities in Japan: Digital History