FDMLab@LABW – Etablierung eines Forschungsdatenzentrums am Landesarchiv Baden-Württemberg

Handlungsfelder des FDMLab

Laufzeit: Juli 2020 bis Juni 2022

Das Projekt FDMLab@LABW unternimmt einen großen Schritt in Richtung Zukunft und soll maschinelles Lernen in Form automatisierter Erkennung und Annotation digitaler Texte und Bilder in den Archivalltag integrieren. Maschinelles Lernen bezeichnet den Vorgang, dass ein aus Algorithmen bestehendes System mit Trainingsdaten gefüttert wird und dadurch die Muster eines Sachverhalts lernt. Nach Abschluss der Lernphase kann das System auch Beispiele erkennen, die bisher nicht im Training vorgekommen sind. So können enorme Datenmengen miteinander in Beziehung gesetzt und analysiert werden.


Zielsetzung

Das durch die Baden-Württemberg-Stiftung im Rahmen der Zukunftsoffensive III geförderte Projekt (Laufzeit von Juli 2020 bis Juni 2022) soll ein Forschungsdatenzentrum und entsprechende Infrastruktur im Bereich E-Science und Forschungsdatenmanagement aufbauen und dabei folgende Fragen klären:

  • Wie können aus digitalisiertem Archivgut Informationen (Metadaten, Volltexte) generiert werden?
  • Wie können die Daten für alle auffindbar, zugänglich, interoperabel und wiederverwendbar gemacht werden (FAIR-Prinzipien)?
  • Wie können die generierten Daten weiter ausgewertet, strukturiert und angereichert werden (Entitätenerkennung, Normdatenverknüpfungen, automatisierte Klassifikation)?
  • Welche Verfahren/Technologien sind dafür geeignet?
  • Wie können die Verfahren in die Digitalisierungs-/Erschließungsworkflows im Landesarchiv integriert werden?

Das Projekt leistet einen Beitrag zur Nationalen Forschungsdateninfrastruktur (NFDI). Durch eine verbesserte Standardisierung, Sicherung und Zugänglichkeit von Daten sollen der Forschung und allen Interessierten übergreifend auswertbare digitale Daten zur Verfügung gestellt werden.


Arbeitspakete

Die einzelnen Arbeitspakete und Maßnahmen befassen sich mit den Anwendungsbereichen maschinellen Lernens in der archivischen Erschließung und Forschung:

  • Recherchierbarkeit von Volltexten: Handschriftliches und gedrucktes Archivgut wird durchsuchbar gemacht (Volltextsuche, Hervorhebung von Treffern), wodurch die verfügbare Datenmenge für die Forschung diversifiziert und maßgeblich gesteigert wird.
    • Evaluierung und Einsatz einschlägiger Technologien zur Erkennung, Erfassung und Strukturierung von Volltexten (optical character recognition (OCR), handwritten text recognition (HTR))
    • Konzeptentwicklung zur Anpassung der Datenhaltung sowie der Recherche- und Präsentationsoberflächen

  • Werkzeuge zur Datenanalyse, -auswertung und -anreicherung: Die Datenqualität wird durch Datenauswertung und Generierung zusätzlicher Erschließungsinformationen mittels maschinellem Lernen verbessert. Außerdem wird Bildmustererkennung eingesetzt, um digitalisierte Fotobestände automatisch mit zusätzlichen Erschließungsinformationen anzureichern.
    • Aufbau einer leistungsfähigen Hard- und Software-Umgebung
    • Weiterentwicklung vorhandener Werkzeuge
    • Evaluierung von Werkzeugen zur Annotation und Transkription historischer Quellen

  • Austausch zwischen verschiedenen Systemen mittels Schnittstellen: Es besteht ein Bedarf zur Nachnutzung von Forschungsdaten im Kontext der jeweiligen Forschungsfrage. Das bedeutet, dass einheitliche Lizenzierungsmodelle notwendig sind und offene Schnittstellen (APIs) für die Bereitstellung von Daten an Bedeutung gewinnen, um einfachen Zugang zu den Daten zu ermöglichen. Die Bereitstellung archivalischer Daten über Schnittstellen ermöglicht deren Integration, Auswertung und Anreicherung in anderen Forschungsumgebungen (Transkriptionen, Annotationen, Georeferenzierungen der digital vorliegenden historischen Quellen etc.)
    • Erarbeitung einer Schnittstelle zur standardisierten Bereitstellung von Digitalisaten eines Bestandes
    • Erarbeitung einer Schnittstelle zur bedarfsspezifischen Auslieferung von Erschließungsdaten

Das Landesarchiv freut sich über ein spannendes Projekt. Fragen und Anregungen zum Projekt werden gerne entgegengenommen.

Kontakt: fdmlab@la-bw.de