Der künstliche Assistent für die semiautomatische Annotation von Märchen ertahos-23 ist in der Lage, mithilfe einer geringen Anzahl von Trainingsdaten eine Vielzahl von Textdaten zu analysieren und Textabschnitte zu identifizieren, die dem von uns im Vorfeld definierten Motiv oder der Episoden entsprechen.

Die Erkennung des Inhalts erfolgt mithilfe einer eigens für Märchen entwickelten Abfolge aus zwei Algorithmen. Erstmals kommt die Logistik-Regression zum Einsatz: Der Algorithmus vergleicht die in den Trainingsdaten gelabelten Textabschnitte mit den anders gelabelten Abschnitten derselben Daten und erstellt eine rangierte Liste der für die gesuchten Textabschnitte charakteristischen Wörter (positive Merkmale) sowie der nicht charakteristischen Wörter (negative Merkmale).

Da die Textsegmente in den für die maschinelle Analyse herangezogenen Forschungsdaten beide Merk-male enthalten können, ist das auf dieser Klassifikation basierende Modell nicht in der Lage, den gesuchten Inhalt in diesen Abschnitten zu erkennen. Um dieses Hindernis zu umgehen und das Modell dennoch nutzbar zu machen, haben wir folgenden Ansatz gewählt: Wir extrahieren nur die positiven Merkmale als Metainhalt des gesuchten Motivs und vergleichen diese mit allen in den Forschungsdaten vorhandenen Textabschnitten, wobei die Metrik der Kosinus-Ähnlichkeit zur Anwendung kommt.

Zu den wichtigsten Voraussetzungen für die erfolgreiche Anwendung des Assistenten zählen: