Vom PDF ins Archiv: Automatisierte Dokumentenverarbeitung mit KI

Sabrina Schenardi

14.02.2024

3 Min.

Die vollständige Extraktion aus zuvor völlig unbekannten PDFs mithilfe fortschrittlicher KI ist bahnbrechend, der Hauptantrieb dahinter ist Machine Learning (ML). Dadurch wird es erstmals möglich, dokumentenbasierte Prozesse vollständig zu automatisieren und wertvolle Fachkräfte von sich wiederholenden Aufgaben zu befreien.

Symbolbild mit KI erstellt

Wissen Sie eigentlich, was Mitarbeitende in Shared Service Centers in Asien den ganzen Tag machen? Sie sind beispielsweise damit beschäftigt, aus Kreditorenrechnungen Preise mit den Stammdaten im ERP zu validieren – manuell, Zeile pro Zeile, Position um Position. Sie kontieren vor oder ergänzen Information, die das OCR (Optische Zeichenerkennung) aus dem PDF-Dokument nicht rauslesen konnte. Wahrlich kein Traumjob.

Auch in der Schweiz fallen solche repetitiven Arbeiten an, die dann aber meist von ausgebildeten Fachkräften erledigt werden müssen, wie zum Beispiel Buchhalterinnen oder Einkäufern. Als hätten diese nichts Besseres zu tun.

Machine Learning statt monotone Arbeiten

Muss man Rechnungen kontrollieren? Selbstverständlich, aber das muss nicht mehr von Menschen erledigt werden. Ein Quantensprung in der technologischen Entwicklung von Künstlicher Intelligenz und Machine Learning ermöglicht es, diese wiederkehrenden Aufgaben komplett zu automatisieren. Der Mensch kommt nur noch zum Zug, wenn wirklich eine menschliche Entscheidung gefragt ist.

Was bedeutet das für Unternehmen? Sofortige Effizienzsteigerung, Fehlerreduzierung und Kosteneinsparungen, wenn man seine Backoffice Prozesse mit KI automatisiert. Und KMU-Fachkräfte haben wieder mehr Zeit für wertschöpfende Tätigkeiten.

Es sind viele einzelne technologische Pionierleistungen, die hier zusammenkommen. Und sie funktionieren so gut, dass sie die Verarbeitung von PDF-Dokumenten auch in Schweizer KMU fundamental verändern.

Die wichtigste Technologie dabei ist die Optische Zeichenerkennung (OCR). Bereits in den 1930er Jahren erfand der ungarische Ingenieur Emanuel Goldberg eine optomechanische Vorrichtung namens «Statistische Maschine», die erstmals Fotos in maschinenlesbaren Text umwandelte.

Die Technologie entwickelte sich stetig weiter. Ergänzend dazu wurde beispielsweise in den 1990er Jahre von Adobe das global bekannte Portable Document Format (PDF) eingeführt.

Ursprünglich war die Extraktion allerdings auf bestimmte Schriftarten und Layouts begrenzt. Daher wurden starre Vorlagen (Templates) eingeführt, um das Erkennen von Zeichen zu unterstützen und die extrahierten Daten zu strukturieren.

OCR wird durch KI angereichert

Heutzutage nutzen Unternehmen eine Kombination aus PDF, OCR und Templates, um Text aus Dokumenten zu extrahieren und in bearbeitbare Formate zu konvertieren. Bei Layout- oder Dokumentenänderungen ist jedoch die Erstellung neuer Templates erforderlich, um weiterhin präzise strukturierte Informationen zu erfassen. Und noch wichtiger: Die Templates kommen bei steigender Komplexität der Informationen auf einem PDF schnell an ihre Grenzen.

Doch das ändert sich dank Machine Learning. Dies ist ein Zweig der künstlichen Intelligenz (KI), bei dem mathematische Modelle verwendet werden, um Computern das Lernen ohne menschliche Anweisungen zu ermöglichen. So können die Maschinen basierend auf den vorhandenen Daten Vorhersagen für die Zukunft treffen.

Wenn man nun Machine Learning mit OCR-Software vereint, kann das System den allgemeinen Kontext eines Dokuments nicht nur erkennen, sondern inhaltlich verstehen. Die Konsequenz: Der Einsatz von modernen, KI-gestützten OCR-Technologien und maschinellem Lernen hat seit einigen Jahren die Notwendigkeit von Templates überflüssig gemacht. Gleichzeitig hat sich der Anwendungsbereich deutlich vergrössert, weil die KI auch komplexere Strukturen, wie zum Beispiel verschachtelte Tabellen, versteht.

Machine Learning in OCR-Systemen bietet viele Vorteile:

Flexibilität: KI kann verschiedenste Dokumententypen ohne vordefinierte Templates verarbeiten.
Unstrukturierte Daten: KI kann relevante Informationen aus unstrukturierten oder variablen Daten (z. B. Tabellen) erkennen.
Skalierbarkeit: Weil die KI strukturell antrainiert wird und deshalb keine unternehmensspezifischen Trainings nötig sind, sind die OCR-Systeme der neusten Generation höchst skalierbar.
Anpassungsfähigkeit: KI kann sich kontinuierlich verbessern und an neue oder sich ändernde Dokumente anpassen.

Gerade in Zeiten des Fachkräftemangels ist es sehr wertvoll, wenn Mitarbeitende ihre Arbeitszeit für wertschöpfende Tätigkeiten nutzen können – dies erhöht nicht zuletzt auch die Arbeitszufriedenheit und damit auch die Attraktivität als Arbeitgeber.

Und ja – solche KI-basierten ERP Automationslösungen für Dokumente werden von Unternehmen schon eingesetzt. Somit sind sie keine Zukunftsmusik, sondern bereits bei vielen Unternehmen ein fester Bestandteil im Tagesgeschäft. Vielleicht auch bald bei Ihnen?

Die Autorin

Sabrina Schenardi ist Mitgründerin des ETH- und HSG-Spin-off BLP Digital, das seit 2019 eingehende PDF-Dokumente ins ERP mit KI automatisiert. Sie engagiert sich als Board-Member bei WE SHAPE TECH, einer Non-Profit Organisation, die sich für mehr Innovation und Diversität in Tech-Berufen einsetzt, und verfügt über einen Executive MBA der Universität St. Gallen HSG in Business Engineering. www.blp-digital.com

Der Beitrag erschien im topsoft Fachmagazin 23-4

Das Schweizer Fachmagazin für Digitales Business kostenlos abonnieren

Abonnieren Sie das topsoft Fachmagazin kostenlos. 4 x im Jahr in Ihrem Briefkasten.

ECM/DMS