Datenverwaltung

Ein Märchen als Originalwerk kann gewöhnlich in mehreren Fassungen vorliegen (in Herkunftssprache und/oder übersetzt in ein oder mehrere Sprachen). Durch die Ableitung wird die Zahl alle urheberrechtlich geschützten Texte verdoppelt. Ebenfalls verdoppelt wird die Anzahl von freizugänglichen Texten, sobald sie für die Annotation aufbereitet werden.

Um sich in dieser Vielfalt von Daten fehlerfrei orientieren zu können, haben wir ein spezifisches System der Identifizierung und Distribution der Daten entwickelt. Nach dem System der Identifizierung der Daten wird jede einzelne Fassung des Werkes mit einer eigenen ID versehen. Die Struktur der ID ermöglicht es, die Herkunft von verschiedenen Fassungen aus einem gemeinsamen Werk erkennbar zu machen. Das ist von rechts nach links durch das erste und das dritte Segment der ID möglich. Insgesamt besteht die Text-ID aus vier bzw. fünf Segmenten, z. B. cr_ava_rus_23. Das erste Segment von rechts nach links entspricht der Nummer des Werkes, das nächste Segment deutet auf die Sprache der Fassung hin. Es entspricht der Abkürzung der im ISO 639-3 erfassten Sprache, in diesem Fall rus=russisch. Das Dritte Segment nach derselben Reihenfolge beinhaltet die Information über die Herkunft des Werkes, die Abkürzung folgt demselben ISO 639-3 Standard, nach diesem Beispiel ava = awarisch, also handelt es sich um den Text aus dem Repertoire von Awaren.  Das nächste Segment aus zwei Kleinbuchstaben deutet auf die Lizenzbedingungen hin, cr steht für die urheberrechtlich geschützte Daten, cc hingegen für die Open Access Daten. Der Identifikator kann vom links noch durch ein Präfix ergänzt werden, es ist immer der Abbreviation „zyx“ gleich und weist auf die begonnene, bzw. abgeschlossene Annotation des Textes hin.

Die obenerwähnte erste und das dritte Segment der ID (in die Reihenfolge von rechts nach links) bezeichnen somit zwei allerwichtigste und unveränderbare Identifikatoren des Werkes, sein Herkunftsrepertoire und die Stellung in diesem Repertoire.  

Dank dem im Rahmen des vorliegenden Projekts entwickelte Daten-Management-System können wir unzählige Daten trotzt ihre Heterogenität und Komplexität klar systematisieren und für die barrierefreie Nachnutzung bereitstellen. Die folgende Tabelle veranschaulicht das Verhältnis der Texte und ihrer lokalen Forschungsumgebung zu den publizierten Forschungsdaten und die dabei verwendete Anpassungsszenarien. 

Lokale Infrastruktur

Publizierte Forschungsdaten

 

Fassungen mit Eigenschaften

 

Lizenz

Sprache

Ableitung

Annotation

TextGrid-Rep

LaZAR

XML-Textkorpus (GitHub)

T

E

X

T

E

cr

Os

-

-

-

+

-

OsSmA

+

+

-

-

+

-

-

-

+

-

SmA

+

+

-

-

+

-

-

-

+

-

cc

Os

-

-

+

-

+

OsSmA

-

+

+

-

+

SmA

-

+

+

-

+

 

Tabelle 1. Verteilung von Forschungsdaten zwischen lokalen und Open-Access-Repositorien

 Legende:

Lizenz: cr – Copyright, cc – Open Access;

Sprache: Os – Text in Originalsprache, die nicht als Sprache für die maschinelle Analyse gilt; OsSmA – Text in Originalsprache, die als Sprache für die maschinelle Analyse gilt; SmA – Text in Sprache für die maschinelle Analyse, die nicht als Originalsprache gilt.

Ableitung: abgeleitet (+); nicht abgeleitet (-).

Annotation: Annotierte bzw. für die Annotation bereitgestellte Fassung (+); die nicht zu Annotation geeignete Fassung (-).

Auflösung der in ersten Spalte erfasste Information: Ein unter einer Copyright-Lizenz stehender Text (cr) liegt in der nicht für die maschinelle Analyse anwendbare Originalsprache vor (Os), er hat keine abgeleitete (-) und annotierte (-) Fassungen  und wird allein durch das LaZAR Repositorium (+) zugänglich, TextGrid-Rep (-), XML-Textkorpus (-).