Antwortextraktion für die linguistisch basierte Informationsgewinnung aus maschinenlesbaren Dokumenten

Editorial

Für den Inhalt der Angaben zeichnet die Projektleitung verantwortlich.

Cooperation

Diese Rubrik wird erst seit 2010 erfasst.

Project data

Project no: GRS-043/98
Amount of funding: CHF 500'000
Approved: 30.03.1999
Duration: 09.1999 - 10.2001
Area of activity: Swiss Baltic Net, 1999 - 2010

Project management

Prof. Dr. Michael Hess, Computerlinguistik
Universität Zürich
Institut für Informatik
BIN 2.B.02, Binzmühlestr. 14
8050 Zürich (Schweiz)
mhess@cl.notexisting@nodomain.comuzh.notexisting@nodomain.comch

Project description

Das Projekt mit Titel „Antwortextraktion für die linguistisch basierte Informationsgewinnung aus maschinenlesbaren Dokumenten“, bei dem die Universitäten Zürich und Tartu (Estland) partnerschaftlich beteiligt sind, will konventionelle Text-Zugriffsysteme mit einem neuen linguistischen Antwortextraktionssystem kombinieren. Die Anwendungen - insbesondere im Dienstleistungsbereich - sind vielversprechend.

What is special about the project?

Computerlinguistik ist eine interdisziplinärer Fachbereich zwischen Linguistik und Informatik mit grossem Potential. In der Schweiz ist diese neue Schnittstellendisziplin noch wenig entwickelt. Das Projekt steht im Zusammenhang mit dem geplanten Baltikum-Engagement der Gebert Rüf Stiftung und dient als eines der Pilotprojekte dem Erfahrungsaufbau.

Status/Results

Mit der Expansion des WWW ist die Menge von schriftlicher Information, die in maschinenlesbarer Form verfügbar ist, explosionsartig gewachsen. Es ist völlig unmöglich, in diesem Ozean von Texten ohne Hilfe von Computern gezielt Informationen zu finden. Die klassischen sog. “Informationsretrieval”-Methoden (die den Suchdiensten auf dem WWW zugrundeliegen) genügen aber schon lange nicht mehr, weil sie viel irrelevantes Material finden.
Dringend erforderlich sind Methoden, die sehr viel präziser nach Informationen in Texten suchen können. Eine derartige Methode ist die sog.
Antwortextraktion. Dabei kann ein Benutzer sein Informationsbedürfnis als umgangssprachliche Frage formulieren, und der Computer findet alle Sätze in den Dokumenten, welche die explizite Antwort auf die Frage sind (oder enthalten).
Um dies zu ermöglichen, muss der Computer den Inhalt von Fragen und Dokumenten zumindest umrissweise verstehen können. Dazu muss er die grammatikalische Struktur aller Sätze analysieren, daraus die Bedeutung errechnen und diese in einer geeigneten Reprä- sentation ablegen. In dieser Datenbank von Bedeutungrepräsentationen sucht das System dann die Antworten auf gegebene Fragen. Ein solches System, auf dem das vorliegende Projekt aufbaut, kann unter der Adresse http://www.cl.unizh.ch/extrans eingesehen werden (siehe links).
Im vorliegenden Projekt wurde in einer ersten Projektphase dieses schon bestehende Antwortextraktionsystem auf einen neuen Anwen- dungungsbereich und auf eine neue Textbasis portiert, und zwar auf das “Aircraft Maintenance Manual” des Airbus 320. Das gesamte, sehr umfangreiche, Unterhaltshandbuch ist nunmehr in natürlicher (englischer) Sprache befragbar. Diese Arbeit wurde am Standort Zürich geleis- tet.
In einer zweiten Projektphase hat die Arbeitsgruppe in Tartu umfangreiche lexikalische Ressourcen aus dem Handbuch extrahiert (u.a. die spezifische Terminologie, vor allem die sehr wichtigen und schwierigen Mehrwort-Fachterme, aber auch Abkürzungen, Synonyme und Druckfehlerlisten). Diese sind für eine effiziente Verarbeitung von Texten unerlässlich. Sie wurden von der Gruppe in Zürich ins System integriert und haben zu einer Reduktion der Rechenzeit und des Speicherbedarfs von durchschnittlich 50% geführt.
In einer dritten Projektphase hat die Gruppe in Zürich noch zwei zusätzliche Probleme angepackt: Erstens hat sie versucht, bessere (und v.a. weitergehend automatisierbare) Methoden der Extraktion von Fachtermini aus Texten und des Aufbaus von fachspezifischen Thesauri zu entwickeln, als jene, welche z.Zt. existieren (und die weitgehend auf manueller Arbeit beruhen). Zweitens hat sie angefangen, das Antwortextraktionssystem so zu modifizieren, dass auch die praktisch unbegrenzten Textmengen, wie sie über das WWW verfügbar sind,
in vernünftiger Zeit verarbeit werden können. Das erfordert ein zweistufiges Vorgehen: Ein klassisches Informationsretrievalsystem findet im Web Dokumente, die möglicherweise eine Antwort enthalten, und darüber wendet man das Antwortextraktionssystem an. Beide Aufga- ben sind allerdings sehr schwierig, und die Ergebnisse bei Projektende sind daher als vorläufig zu bezeichnen.
Die Hoffnung auf eine weitere Zusammenarbeit mit lokalen Firmen aus dem Flugzeugbereich hat sich wegen des Kollapses der SAir Group zerschlagen. Die Arbeiten des Projekts werden aber im Rahmen des EU-Forschungsprogramms “PARMENIDES: Ontology driven temporal text mining” weitergeführt und für die Zwecke des “Text Mining” angepasst.
Die Zusammenarbeit mit der Universität Tartu war sehr erfolgreich und hat, über das eigentliche Projekt hinaus, in einem halbjährigen
Forschungssaufenthalt eines jungen Forschers aus Estland am Institut für Computerlinguistik der Universität Zürich seine Weiterführung gefunden.

Publications

Fabio Rinaldi, James Dowdall, Michael Hess, Kaarel Kaljurand, Mare Koitand, Neeme Kahusk: Terminology as Knowledge in Answer Extraction. TKE-2002: 6th International Conference on Terminology and Knowledge Engineering, 28th-30th, August 2002 Nancy, France
Fabio Rinaldi, James Dowdall, Michael Hess, Diego Molla and Rolf Schwitter: Towards Answer Extraction: An application to Technical Domains. ECAI-2002, Lyon, 21-26 July, 2002. In: F. van Harmelen (ed.), ECAI 2002. Proceedings of the 15th European Conference on Artificial Intelligence, IOS Press, Amsterdam, 2002.
Michael Hess, James Dowdall, Fabio Rinaldi: The Challenge of Technical Text. LREC-2002, Workshop on Question Answering: Stategy and Resources, Las Palmas, 29-31 May 2002.
James Dowdall, Michael Hess, Neeme Kahusk, Kaarel Kaljurand, Mare Koit, Fabio Rinaldi and Kadri Vider: Technical Terminology as a Critical Resource. LREC-2002, Las Palmas, 29-31 May 2002.
Fabio Rinaldi, Michael Hess, Diego Molla, Rolf Schwitter, James Dowdall, Gerold Schneider, and Rachel Fournier: Answer Extraction in Technical Domains. CICLing-2002, Mexico City, 17-23 February, 2002. Available from Springer Verlag: Computational Linguistics and Intelligent Text Processing. Lecture Notes in Computer Science. VOL. 2276., pp. 360-369.
Diego Mollá Aliod and Michael Hess: Dealing with ambiguities in an answer extraction system. In: Proc. of ATALA Workshop on Representation and Treatment of Ambiguity in Natural Language Processing. Paris. 2000.
D. Mollá, R. Schwitter, M. Hess, R. Fournier: ExtrAns, an Answer Extraction System.T.A.L., special issue on Information Retrieval oriented Natural Language Processing, 2000. Pages: 495-522.
Diego Mollá Aliod, Gerold Schneider, Rolf Schwitter and Michael Hess: Answer Extraction Using a Dependency Grammar in ExtrAns. In: Traitement Automatique de Langues (T.A.L.), Special Issue on Dependency Grammar, 2000. Pages: 145-178.

Media

Die Satzzerleger, Artikel in Tele, Nr. 29, 2002
Intelligente Suchmaschine, Artikel in Unireport, 2001

Links

Last update to this project presentation 21.04.2022

PORTFOLIO

Project presentations on the website