Richtlinien für eine standardisierte Datenstruktur für die Verwendung in sprachvergleichenden Studien

Die „Cross-Linguistic Data Formats“-Initiative empfiehlt neue Standards für linguistische Datenformate, um das Teilen und Vergleichen von Daten zu erleichtern.

16. Oktober 2018

Ein internationales Forschungsteam bestehend aus Mitgliedern der „Cross-Linguistic Data Formats“-Initiative (CLDF) unter der Leitung des Max Planck-Instituts für Menschheitsgeschichte hat einen Vorschlag für neue Richtlinien für sprachvergleichende Datenformate veröffentlicht, um das Teilen und Vergleichen von Daten in der wachsenden Anzahl großer linguistischer Datenbanken auf der ganzen Welt zu erleichtern. Dieses Format liefert ein Softwarepaket, eine Basisontologie und Anwendungsbeispiele.

Eine Weltkarte, die Datenpunkte zeigt, für die die Forscher einheitliche Daten (z. B. direkt vergleichbare Daten) unter Verwendung der im Artikel beschriebenen Richtlinien sammeln wollen.

OpenStreetMap

Eine Weltkarte, die Datenpunkte zeigt, für die die Forscher einheitliche Daten (z. B. direkt vergleichbare Daten) unter Verwendung der im Artikel beschriebenen Richtlinien sammeln wollen.

OpenStreetMap

Es gibt eine wachsende Anzahl von linguistischen Datenbanken auf der ganzen Welt, wodurch neue Möglichkeiten für großflächige sprachvergleichende Studien eröffnet werden. Jedoch werden diese Datenbanken normalerweise unabhängig voneinander erstellt und haben oft einen spezifischen und engen Schwerpunkt. Das bedeutet, dass die Formate, die für die Kodierung der Daten verwendet werden, sich oft unterscheiden, was große Schwierigkeiten dabei verursacht, Datenbanken effizient zu vergleichen.

Um diese Probleme zu lösen, wurde die „Cross-Linguistic Data Formats“-Initiative (CLDF) gegründet. In einem in Scientific Data veröffentlichten Artikel stellt die CLDF-Initiative Richtlinien für ein standardisiertes Format für linguistische Datenbanken vor und liefert auch ein Softwarepaket, eine Basisontologie und Anwendungsbeispiele für deren optimale Nutzung. Das Ziel dieser Bemühungen ist es, das Teilen und die Wiederverwendung von Daten in der sprachvergleichenden Linguistik zu erleichtern.

Standardisierte Dateiformate, um Teilen und Wiederverwendung zu erleichtern

Die CLDF-Initiative stellt ein ihren Empfehlungen zugrundeliegendes Datenmodell bereit, dessen Ziel es ist, einfach aber ausdrucksstark zu sein, und auf dem zuvor für das „Cross-Linguistically Linked Data“-Projekt entwickelten Datenmodell basiert. Dieses Modell besteht aus vier Hauptkomponenten: (a) Sprachen; (b) Parameter; (c) Werte; und (d) Quellen. In dem Modell ist jeder Wert mit einem Parameter und einer Sprache verknüpft und kann auf mehreren Quellen basieren. Zusätzlich gibt es Literaturangaben für Quellen, und Literaturangaben können auch Kontexte haben (beispielsweise Seitenzahlen im Fall von gedruckten Quellen).

In den Richtlinien enthaltene grundlegende Regeln der Datenkodierung, Kognat-Kodierung in Wortlisten als Beispiel. (a) stellt dar, warum lange Tabellen in allen Anwendungen bevorzugt werden sollten. (b) unterstreicht die Wichtigkeit, von mehreren Tabellen mit Metadaten, die ihre Beziehung bestimmen, auszugehen.

Forkel et al. 2018. Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics. Scientific Data.

In den Richtlinien enthaltene grundlegende Regeln der Datenkodierung, Kognat-Kodierung in Wortlisten als Beispiel. (a) stellt dar, warum lange Tabellen in allen Anwendungen bevorzugt werden sollten. (b) unterstreicht die Wichtigkeit, von mehreren Tabellen mit Metadaten, die ihre Beziehung bestimmen, auszugehen.

Forkel et al. 2018. Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics. Scientific Data.

Das CLDF-Datenmodell ist ein Paketformat, in dem ein Datensatz aus einer Gruppe von Dateien mit Tabellen und einer Beschreibungsdatei besteht, welche die Beziehung zwischen den Tabellen bestimmt. Jeder linguistische Datentyp ist einem CLDF-Modul und zusätzlichen Komponenten zugeordnet, die den Teil der Daten im Modul darstellen, der in mehreren Datentypen wiederkehrt. Die CLDF-Module beinhalten auch Begriffe aus der CLDF-Ontologie. Die Ontologie ist eine Liste von Begriffen, die Objekte und Eigenschaften umfasst, die eine sprachübergreifend gut bekannte Bedeutung haben. Das ermöglicht es an der Nutzung Interessierten, auf diese Begriffe einheitlich zu verweisen.

Ein Softwarepaket, um Validierung und Bearbeitung zu ermöglichen

Die CLDF-Spezifizierungen verwenden allgemein-gebräuchliche Dateiformate – beispielsweise CSV, JSON und BibTeX – die breite Unterstützung haben, mit dem Ziel, dass diese Dateien leicht auf vielen Plattformen gelesen und geschrieben werden können. Wichtiger noch ist dabei, dass das standardisierte Format es Forschern ohne Programmierkenntnisse ermöglichen wird, auf Daten mit vorhandenen Tools zuzugreifen und sie zu bearbeiten, anstatt diese Möglichkeit auf Forscher mit ausreichenden Programmierkenntnissen zu beschränken, die ohnehin meist leicht ihre eigenen Tools erstellen können. Um das zu erleichtern, hat die CLDF ein „Cookbook”-Repository für Programmierbeispiele erstellt, die mit den CLDF-Spezifizierungen verwendet werden können.

„Wir wollen ermöglichen, dass ein möglichst großer Kreis von an der Sprachforschung Interessierten einfachen Zugang zu diesen Daten hat, um sie zu vergleichen und zu erforschen“, so Johann-Mattis List vom Max-Planck-Institut für Menschheitsgeschichte. Robert Forkel, treibende Kraft der CLDF-Initiative, weist auch darauf hin, dass das CLDF-Format nicht allein auf linguistische Daten beschränkt ist, sondern auch Datenbanken mit beispielsweise kulturellen und geographischen Daten einbinden kann. “CLDF wird das Überprüfen der Wechselwirkungen zwischen linguistischen, kulturellen und Umweltfaktoren in der Sprach- und Kulturevolution womöglich drastisch erleichtern.”