Wartungsarbeiten: Am 13.04..2026 zwischen 10:30 und 11:30 Uhr kommt es zu Unterbrechungen. Bitte stellen Sie sich entsprechend darauf ein. Maintenance: at 2026-04-13 the system will experience outages from 10.30 a.m. until 11.30 a.m. Please plan accordingly.

Smart Harvesting with OXPath

dc.contributor.authorDulisch, Nadine
dc.contributor.authorNeumann, Mandy
dc.contributor.authorMichels, Christopher
dc.date.accessioned2018-04-25T12:53:43Z
dc.date.available2018-04-25T12:53:43Z
dc.date.issued2018-02-22
dc.description.abstractIm DFG-geförderten Projekt Smart Harvesting II werden softwarebasierte Lösungen zur Erfassung und Aufbereitung von semistrukturierten Webdaten, z.B. die Inhaltsverzeichnisse von wissenschaftlichen Zeitschriften oder Konferenzbänden für Literaturdatenbanken wie dblp oder sowiport , entwickelt. Durch die vorherrschende Heterogenität solcher Rohdaten ist diese Arbeit im Falle der manuellen Erfassung sehr personal- und zeitintensiv. In Fällen, in denen bereits auf technische Unterstützung gesetzt wird, werden hierfür spezialisierte Programme, sogenannte Wrapper, eingesetzt, die von fachkundigen Softwareentwicklern erstellt und gewartet werden müssen. Ein Teil unseres Projektes ist es daher, wartungsarme Wrapper zu entwickeln, die auch von Nicht-Informatikern, z.B. Bibliothekaren oder Dokumentaren, einfach bedient und auf häufig neugestaltete, dynamische Webapplikationen angepasst werden können. Hierfür setzen wir auf die quelloffene Abfragesprache OXPath – eine Erweiterung von XPath, die eine deklarative Nachahmung der Interaktion mit einer Website erlaubt und in diesem Zuge Daten gezielt extrahieren kann. Erste Erfahrungen in einem Workshop mit Bibliothekaren und in Übungsgruppen mit Studierenden haben gezeigt, dass bereits Grundkenntnisse in XML und XPath ausreichen, um in den Prozess der Erstellung, Wartung und Pflege von OXPath-Wrappern einzusteigen. Die gewonnenen Daten können vielseitig eingesetzt werden. In Smart Harvesting II werden zusätzliche Internetquellen z.B. in das Datenbankmonitoring integriert oder zur Bereinigung und Aufbereitung der Datenbestände verwendet, z.B. indem weitere Felder wie Kurzbiografien mit Named Entity Recognition nach möglichst vollständigen Autorennamen durchsucht werden, um die Autorendisambiguierung zu verbessern. Im ersten Teil bietet dieser Vortrag neben dem Gesamtüberblick über das Projekt einen Kurzeinstieg und Erfahrungsberichte zu OXPath. Außerdem werden Einsatzbeispiele von OXPath aus dem Arbeitsalltag der Projektteilnehmer dblp computer science bibliography , GESIS und TH Köln demonstriert. Bei Interesse findet zum Abschluss ein praktischer Teil mit dem gemeinsamen Entwickeln eines OXPath-Ausdrucks statt.de
dc.identifier.urihttp://hdl.handle.net/2003/36849
dc.identifier.urihttp://dx.doi.org/10.17877/DE290R-18850
dc.language.isode
dc.relation.ispartof14. InetBib-Tagung vom 21. bis 23. Februar in Wiende
dc.subjectMetadaten-Harvestingde
dc.subjectWeb-Scrapingde
dc.subjectMetadatengewinnungde
dc.subject.ddc000
dc.titleSmart Harvesting with OXPathde
dc.typeText
dc.type.publicationtypeconferenceObject
dcterms.accessRightsopen access
eldorado.dnb.deposittruede
eldorado.secondarypublicationfalse

Dateien

Originalbündel

Gerade angezeigt 1 - 1 von 1
Lade...
Vorschaubild
Name:
Neumann_Michels_Präsentation_SH2_final.pdf
Größe:
4.17 MB
Format:
Adobe Portable Document Format
Beschreibung:
DNB

Lizenzbündel

Gerade angezeigt 1 - 1 von 1
Lade...
Vorschaubild
Name:
license.txt
Größe:
4.85 KB
Format:
Item-specific license agreed upon to submission
Beschreibung: