OFAI

OREX: Ontologiebasierte Informationsextraktion und Suche

Ziel des Projektes ist die Entwicklung von Methoden zur Verbesserung domänen-spezifischer Informationsextraktion und Suche. Dabei soll als wesentliche Innovation der durchgängige Einsatz ontologiebasierter Techniken gemeinsam für beide Bereiche, Informationsextraktion (IE) und Suche (Information Retrieval, IR), untersucht werden. Mit diesem Ansatz wird einerseits die Qualität der Informationsextraktion verbessert und der Aufwand für Wartung und Domänentransfer werden verringert. Andererseits wird mit diesem Ansatz auch eine wesentliche Verbesserung des IR, insbesondere der domänen-spezifischen Suchmöglichkeiten für den Endanwender erreicht.

Die angestrebten Verbesserungen sind domänenunabhängig, sollen aber im Rahmen des Projektes anhand von zwei konkreten Beispielsanwendungen erprobt werden. Die erste Anwendung erlaubt die Auswertung von Internet-Stellenanzeigen aus beliebigen Webdokumenten und die einfache Suche in den so gewonnenen Daten. Sie ist bereits in einer ersten Version (ohne Verwendung von Ontologien) im Einsatz. Anhand dieser Anwendung sollen die Verbesserungen durch den Einsatz von Ontologien untersucht werden und prototypisch Strategien zum vereinfachten Domänentransfer entwickelt werden. Die zweite Anwendung zur automatischen Extraktion von Immobilienanzeigen und ontologiegestützten Suche in den Ergebnisdaten, wird für dieses Projekt neu entwickelt. Anhand dieser Anwendung sollen insbesondere auch die im Rahmen des Projekts entwickelten Methoden zur Vereinfachung des Domänentransfers demonstriert werden.

Die beiden Hauptziele in diesem Projekt sind einerseits eine Verbesserung und kostengünstigere Wartung und Domänenadaptierung von Informationsextraktion, andererseits die Verbesserung einer domänenspezifischen Suche in den durch die Informationsextraktion ermittelten Daten. Die wesentliche Strategie zur Erreichung dieser Ziele ist der durchgängige Einsatz von ontologiebasierten Verfahren, wodurch die einzelnen Komponenten auf ein gemeinsames Wissensrepräsentationsframework zugreifen und eine gemeinsame Repräsentationssprache verwenden können. Aus Sicht des Anwenders soll damit eine intelligente domänenspezifische semantische Suche in den relevanten Webseiten der Domäne möglich werden. Diese Suche geht über die konventionelle Stichwortsuche weit hinaus, da gezielt nach den domänenrelevanten Fakten im jeweils relevanten Kontext gesucht werden kann. Eine Erhöhung der Qualität der erhaltenen Daten soll durch eine bessere Auswahl der domänenrelevanten Seiten (Erhöhung des Recalls beim Webcrawler) und durch eine Verbesserung der Extraktionsergebnisse selbst (Erhöhung der Precision) erreicht werden. Gleichzeitig soll der Aufwand für die Anpassung und Wartung der Extraktionspipeline möglichst gering bleiben. Sobald die extrahierten Daten zur Verfügung stehen, soll es für den Anwender einfach sein domänentypische Suchanfragen zu formulieren und möglichst viele relevante Informationen zu erhalten (Verbesserung des F-Maßes). Durch die prototypische Anwendung der entwickelten Techniken auf den unterschiedlichen Domänen soll insbesondere untersucht und demonstriert werden, wie die ontologiebasierten Methoden zu Vereinfachung des Domänentransfers konkret in einer kommerziellen Anwendung umsetzbar sind.