Seit dem Jahr 2010 entwickelt der Compass-Verlag das System ONTEASY, das der feingranularen semantischen Analyse von deutschsprachigen Texten dient. Das System ist in der Lage automatisch Bedeutungszusammenhänge aus Texten zu extrahieren und diese in Form von lexikalischen und grammatikalischen Ontologien formalisiert abzubilden. Dadurch ist es möglich Freitexte nachträglich mit geringen Kostenaufwänden und hoher semantischer Präzision zu strukturieren und einer weiterführenden maschinellen Verarbeitung zuzuführen. Das Wissen der dabei entstehenden Ontologie wird durch verschiedene Arten von Relationen beschrieben, die die jeweiligen Begriffe / Konzepte miteinander semantisch verbinden.

Die Abbildung veranschaulicht exemplarisch die generische Architektur und dazugehörigen Prozesse einer Ontology-Based Information Extraction (OBIE):

Schematische Darstellung des ONTEASY Frameworks

Schematische Darstellung des ONTEASY Frameworks

Die ONTEASY-Methode verbessert folgende Aspekte der Textanalyse:

  1. Klassifizierung der Textsorte (z.B. Gesetzestext, Kommentar, Meldung, Bericht, etc.)
  2. Mehrfache inhaltlich-kategoriale Zuordnung eines Textes
  3. Verbesserung der Eigennamenerkennung (Named Entity Recognition)
  4. Extraktion der Kerninhalte eines Textes bzw. Zusammenfassung (Automatic Summarization).

Damit diese Aufgaben von der Ontologie unterstützt werden, werden folgende Relationen in der Ontologie gespeichert:

Wie die Ontologie Informationen aus einem Text extrahiert, ist hier anhand eines Beispiels erklärt.

• Hierarchische Substantiv-/Instanz-/Teil-Von- Relationen (z.B. Institution => Unternehmen => Ges.m.b.H.)

• Synonym-Relationen zu den einzelnen Wortarten (z.B. Weihnachtsgeld – Weihnachtsremuneration)

• Antonym-Relationen zu den einzelnen Wortarten (z.B. Anstellung <=> Kündigung)

• Prädikats-Relationen (Subjekt, Prädikat, Objekt, Adverbialbestimmung, z.B. Belegschaft wählt Betriebsrat in geheimer Wahl.)

• Ereignis-Relationen (Handlungen, z.B. Arbeitgeber spricht Kündigung aus => Arbeitnehmer empfängt Kündigung => Kündigungsfrist beginnt zu laufen.)

• Zustands-Relationen (Ausgangs- und die Endsituation eines Ereignisses, z.B. Anstellung: arbeitsuchend => beschäftigt)

Die Erstellung der Ontologie mittels ONTEASY erfolgt semi-automatisch. Dazu werden große Textkorpora zu einem Themenbereich analysiert, um die jeweiligen allgemeinen Muster der Textsorten zu erkennen (spezielle Satzstrukturen, spezielles Vokabular etc.). Beschrieben werden dann die Konzepte durch die im Text verwendeten Wörter sowie durch die verschiedenen Relationen, die diese mit den anderen Wörtern im Satz/Satzgefüge haben. Dabei sollen die Ergebnisse der automatischen Textanalyse auf der Wort- und Satzebene vom Anwender verwendet werden, um den Aufwand bei der Erstellung der Ontologie auf ein Minimum zu begrenzen.

Sobald die Ontologie über genügend Begriffe und Relationen verfügt, wird dieses Wissen für die Textanalyse genutzt, indem die Wörter eines Textes und die jeweilige Grammatik der Sätze mit den gespeicherten Strukturen und Konzepten der Ontologie verglichen werden.

Quelle: “Vernetzte Rechtsinformation – Der Einsatz von Linked Data Technologien am Beispiel des ÖBG-Verlags” von Tassilo Pellegrini, Christian Wachter, Andreas Blumauer und Jürgen Paulus