Authors: Baumann, Björn
Böhmer, Martin
Firstein, Roman
Fritsch, Regina
Günal, Emel
Güner, Mustafa
Kaz, Erkan
Koloch, Rafael
Kubatz, Marius
Viefhues, Alexander
Zhu, Qingchui
Title: Intelligence Service
Language (ISO): de
Abstract: Ziel der PG ist das automatische Erstellen eines Pressespiegels für eine bestimmte Person (z.B. einen Politiker) oder eine bestimmte Firma aus dem Internet bzw. aus Datenbanken. Daraus sollen dann gezielt Antworten auf bestimmte Fragen extrahiert werden. Methoden zu einem solchen Intelligence Service werden untersucht und implementiert. Allerdings ist das Spektrum der Informationen für eine einzige Anfrage hierbei zu gross. Das Problem ist, die interessanten Daten zwischen den uninteressanten Daten herauszufinden. Dies ist das Problem des Information Retrieval. Der zu entwickelnde Intelligence Service soll natürlich über das Information Retrieval von Suchmaschinen hinausgehen. Das grundsätzliches Problem ist, dass Suchmaschinen nicht konkrete Antworten liefern. Vielmehr wird eine Auswahl an Dokumenten geliefert, die die Antwort zu gestellten Anfrage höchstwahrscheinlich enthält. Was man aber oft möchte, ist auf eine Frage wie: Welcher Bundeskanzler stellte als letztes das Misstrauensvotum? Antwort: Gerhard Schröder (zusammen mit der URL, auf der die Information gefunden wurde, zu erhalten.) Für solche Fragebeantwortung muss man nicht nur die relevanten Dokumente finden, sondern auch die relevanten Passagen,dies ist ein weiterer Punkt, der von Suchmaschinen nicht erbracht wird. Wenn die Dokumente durch eine Auszeichnungssprache (XML) annotiert sind, ist die Suche in den relevanten Dokumenten erleichtert, so dass gezielt etwa nach Investitionen, Erfolgen, neuen Produkten, Börsenzahlen gesucht werden kann. Die meisten Dokumente sind aber nicht annotiert. Man muss also algorithmisch nach Entitäten eines bestimmten Typs (z.B. Person, Ort, Firma) suchen. Das Gebiet, das sich mit der Erkennung der Entitäten eines inhaltlichen Typs in Texten befasst, ist die Named Entity Recognition (NER) und verwendet statistische Verfahren und solche des maschinellen Lernens bzw. Data Mining. Somit ist die NER ein weiterer Bereich, mit dem sich die PG befassen muss. Die Abfolge von Anfragen sollte jedoch automatisiert erfolgen, um ein allgemein nutzbares System zu scha en. Für Politiker bietet sich hierfür beispielsweise die Internetseite Bundestag.de an. Hier sind zu jedem Abgeordneten die jeweiligen Biographien hinterlegt. Zusätzlich zu diesen offensichtlichen Daten kann man jedoch auch noch die digital vorliegenden Drucksachen (z.B. Anträge) und Protokolle verarbeiten. Nach durchgeführter NER über diesen Dokumenten sollen dann konkrete Fragen beantwortet werden.
URI: http://hdl.handle.net/2003/25958
http://dx.doi.org/10.17877/DE290R-5085
Issue Date: 2009-01-05T11:48:59Z
Appears in Collections:Projektgruppenberichte

Files in This Item:
File Description SizeFormat 
PG520_Endbericht.pdfDNB11 MBAdobe PDFView/Open


This item is protected by original copyright



All resources in the repository are protected by copyright.