Das Textanalyseprogramm ONTEASY des Compass-Verlags kann etwas, von dem viele Schüler wohl träumen: Es beherrscht die komplette deutsche Grammatik. Für das Projekt NOLDE werden damit die Kollektivverträge des ÖGB-Verlags analysiert und in ihre sprachlichen Einzelteile zerlegt. Jürgen Paulus, Senior Softwareentwickler beim Compass-Verlag, hat aber noch mehr vor. Sein Programm soll ihm einen Fantasy-Roman schreiben.

jürgen paulusJürgen Paulus, Softwareentwickler beim Compass-Verlag, erklärt, wie das Textanalysetool ONTEASY funktioniert und wie es eingesetzt wird.

Es hat eine Weile gedauert, bis ein geeigneter Use-Case gefunden war, bei dem der Compass-Verlag sein Textanalysetool ONTEASY in der Praxis einsetzen konnte. Ursprünglich war geplant, für den Monopol-Verlag Userpostings zu analysieren – doch dafür war die Community zu klein. Dann wollte man aus den Kollektivverträgen des ÖGB-Verlags Extracts erstellen. Doch die Textanalyse ist für ausgeschriebene Sätze in korrektem Deutsch gemacht, und Kollektivverträge sind voller Juristensprache, ökonomischer Schreibweisen und Tabellen.

Letztendlich wurde doch ein Anwendungsfeld gefunden: Aus Kollektivverträgen und „dem Löschnigg“, dem Standardwerk des österreichischen Arbeitsrechts, werden sämtliche Begriffe in eine Datenbank aufgenommen. Auf linguistischen Regeln beruhend, werden Formulierungen in ihre Einzelteile zerlegt. Dann kann ausgewertet werden: Wie oft kommen Wörter wie „Arbeitnehmer“ und „Feiertagsruhe“ in den jeweiligen Dokumenten vor, und in welchem Textzusammenhang? Auch Synonyme werden einem Überbegriff zugeordnet. „Wenn Besucher auf der Website zum Beispiel nach bestimmten vertraglichen Passagen suchen, ‚Mindestlohn‘ etwa, dann muss das Programm auch automatisch nach ‚Mindestgehalt‘ suchen“, erklärt Jürgen Paulus, Softwareentwickler beim Compass-Verlag.

Software beherrscht sämtliche Regeln der deutschen Grammatik

ONTEASY ist ein Textanalyse-System, das seit 2002 entwickelt wird. „Es geht darum, Texte zu analysieren. Und mit den Ergebnissen Texte weiterzuverarbeiten“, sagt Paulus. Der erste Teil, die Textanalyse, ist fertig entwickelt. ONTEASY beherrscht sämtliche Regeln der deutschen Grammatik auf der Wort-, Satz- und Textebene – dank dreier Grammatikwälzer, deren Inhalte das Programm eins zu eins verinnerlicht hat.

Wie es funktioniert? Paulus erklärt: „Wir erfassen einen Text, dann werden zunächst einmal sämtliche Worte extrahiert, die Sätze und dann wiederum die Teilsätze. Am Ende der Analyse habe ich die Wörter in ihrer Grundform und zu jedem Wort die Wortfunktion, z.B. ein Adjektiv, das im Satz die Funktion einer Adverbialbestimmung hat. Daraus ergibt sich die Satzgrammatik. Man kann erkennen, wie die Sätze aufgebaut sind. Diese Grammatik, alle Informationen auf der Wort-, Satz- und Textebene, kann ich abspeichern. Und wenn ich das mit verschiedenen Dokumenten mache, kann ich die danach miteinander vergleichen.“

20 Romane liest das Programm, den 21. schreibt es selbst

So weit, so gut. Doch Paulus dreht die Sache noch weiter: Wenn das Programm erst einige Texte erfasst hat, könnte es mit den Informationen automatisch weitere Texte nach dem gleichen Prinzip erstellen. Dem Softwareentwickler schwebt Besonderes vor: „Die Idee war, dass ich Bücher eines bestimmten Genres analysiere, beispielsweise Fantasy-Romane, die sind immer irgendwie gleich strukturiert, die haben immer denselben inhaltlichen Aufbau. Die Idee war, aus zwanzig analysierten Fantasy-Romanen den einundzwanzigsten automatisch zu generieren.“

Wie kann ein Computer einen Roman schreiben? „Wir speichern in unserer Ontologie sogenannte Prädikatsrelationen ab, den Kern eines Satzes. Ich habe dann ein Kerngerüst, und ich habe verschiedene sprachliche Ausdrücke für etwa eine Liebesszene. Oder verschiedene sprachliche Ausdrücke, wie man von A nach B durch einen Wald kommt. Wenn man genügend solcher Vorlagen hat, schreibt man ein Skript: etwa eine Waldszene, die so und so lang sein soll und eher düster als lustig. Personen und Orte definiere ich natürlich, und dann erstellt das Programm aus den vorhandenen Möglichkeiten neue. Und so erschaffe ich dann ein Buch.“

Dabei könnte man sogar verschiedene Schreibstile anwenden: „Man kann analysieren, wie bestimmte Schriftsteller schreiben, und warum sich manche Stellen schnell oder lustig lesen.“ Ein Western-Roman im Kafka-Stil? „Ja, wenn ich das zuvor analysiert habe.“

Bessere Suche für Nachrichtenagenturen

Noch ist das Tool nicht bereit für die Welt der Literatur – zunächst muss eine Vorlage entwickelt werden, um Buchtexte einzuscannen und diese nach bestimmten Merkmalen zu sortieren. Die Anwendungsfelder von ONTEASY gehen jedoch auch über die Erstellung von Groschenromanen hinaus. Da mithilfe der Texterkennung auch die Suchfunktion optimiert wird, könnte das Tool etwa für Medien oder Nachrichtenagenturen interessant sein. „Was da gesucht wird, sind meist Kategorien wie Sport, Wirtschaft, Politik. Wir haben gezeigt, dass wir alleine in der Kategorie Wirtschaft/Unternehmensnachrichten 60 verschiedene Unterkategorien finden konnten“, so Paulus. „Jemand kann dann ganz gezielt suchen: Ich möchte nur Texte haben, in denen es darum geht, dass Produkte von einer Firma zurückgenommen wurden, also ein Werksrückruf. Wenn man so gezielt suchen kann, kann man die Informationen auch viel genauer extrahieren und automatisch weiterverarbeiten.“

Mehr Informationen zur Funktionsweise von ONTEASY gibt es hier.