Language Models and Smoothing Methods for Information Retrieval

Dateibereich 25462

1,80 MB in einer Datei, zuletzt geändert am 04.11.2010

Dateiliste / Details

DateiDateien geändert amGröße
Abdulmutalib_Diss.pdf04.11.2010 13:27:201,80 MB
Language Models and Smoothing Methods for Information Retrieval (Sprachmodelle und Glättungsmethoden für Information Retrieval) Najeeb A. Abdulmutalib Kurzfassung der Dissertation Retrievalmodelle bilden die theoretische Grundlage für effektive Information-Retrieval-Methoden. Statistische Sprachmodelle stellen eine neue Art von Retrievalmodellen dar, die seit etwa zehn Jahren in der Forschung betrachtet werde. Im Unterschied zu anderen Modellen können sie leichter an spezifische Aufgabenstellungen angepasst werden und liefern häufig bessere Retrievalergebnisse. In dieser Dissertation wird zunächst ein neues statistisches Sprachmodell vorgestellt, das explizit Dokumentlängen berücksichtigt. Aufgrund der spärlichen Beobachtungsdaten spielen Glättungsmethoden bei Sprachmodellen eine wichtige Rolle. Auch hierfür stellen wir eine neue Methode namens 'exponentieller Glättung' vor. Der experimentelle Vergleich mit konkurrierenden Ansätzen zeigt, dass unsere neuen Methoden insbesondere bei Kollektionen mit stark variierenden Dokumentlängen überlegene Ergebnisse liefert. In einem zweiten Schritt erweitern wir unseren Ansatz auf XML-Retrieval, wo hierarchisch strukturierte Dokumente betrachtet werden und beim fokussierten Retrieval möglichst kleine Dokumentteile gefunden werden sollen, die die Anfrage vollständig beantworten. Auch hier demonstriert der experimentelle Vergleich mit anderen Ansätzen die Qualität unserer neu entwickelten Methoden. Der dritte Teil der Arbeit beschäftigt sich mit dem Vergleich von Sprachmodellen und der klassischen tf*idf-Gewichtung. Neben einem besseren Verständnis für die existierenden Glättungsmethoden führt uns dieser Ansatz zur Entwicklung des Verfahrens der 'empirischen Glättung'. Die damit durchgeführten Retrievalerexperimente zeigen Verbesserungen gegenüber anderen Glättungsverfahren.
Lesezeichen:
Permalink | Teilen/Speichern
Dokumententyp:
Wissenschaftliche Abschlussarbeiten » Dissertation
Fakultät / Institut:
Fakultät für Ingenieurwissenschaften » Informatik und Angewandte Kognitionswissenschaft
Dewey Dezimal-Klassifikation:
000 Informatik, Informationswissenschaft, allgemeine Werke » 000 Informatik, Wissen, Systeme » 004 Datenverarbeitung; Informatik
Beitragende:
Prof. Dr.-Ing. Fuhr, Norbert [Betreuer(in), Doktorvater]
Prof. Dr. -Ing. Weikum, Gerhard [Gutachter(in), Rezensent(in)]
Sprache:
Englisch
Kollektion / Status:
Dissertationen / Dokument veröffentlicht
Datum der Promotion:
29.10.2010
Dokument erstellt am:
04.11.2010
Promotionsantrag am:
05.07.2010
Dateien geändert am:
04.11.2010
Medientyp:
Text