KI

Belegerfassung automatisieren: Von OCR zu KI-Erkennung

Wie moderne KI die Belegerfassung revolutioniert: Evolutionsstufen von OCR bis Vision-Language-Modelle, Accuracy-Vergleich und Einführungsleitfaden.

||4 Min. Lesezeit
BelegerfassungOCRKIVLMAutomatisierung

Die Belegerfassung ist das Nadelöhr der Finanzbuchhaltung. Jede Minute, die in das Abtippen von Rechnungsdaten fließt, fehlt für Beratung und Mandantenbetreuung. Die gute Nachricht: Die Technologie hat sich in den letzten Jahren radikal weiterentwickelt.

Sechs Evolutionsstufen der Belegerfassung

Stufe 1: Manuelle Erfassung

Der Buchhalter liest den Beleg und tippt die Daten in das Buchhaltungssystem. Accuracy: 97–99 % (abhängig von Konzentration und Übung). Nachteil: Langsam, teuer, nicht skalierbar.

Stufe 2: Klassische OCR (Tesseract, ABBYY)

Optische Zeichenerkennung extrahiert Text aus dem Bild. Accuracy: 60–80 %. Problem: Die OCR „sieht" Buchstaben, versteht aber weder Layout noch Kontext. „Rechnungsnummer" und „Bestellnummer" werden leicht verwechselt.

Stufe 3: Template-basierte Erkennung

Für jeden Lieferanten wird ein Template erstellt, das definiert, wo welches Feld auf der Rechnung steht. Accuracy: 95 % bei bekannten Templates, 30 % bei neuen. Problem: Pflegeintensiv – jeder neue Lieferant braucht ein neues Template.

Stufe 4: Layout-ML (LayoutLMv3)

Machine-Learning-Modelle, die Layout, Text und Position gemeinsam analysieren. Accuracy: 85–95 %. Vorteile: Generalisiert besser als Templates. Nachteile: Benötigt großen Trainingsdatensatz, aufwändig zu trainieren.

Stufe 5: End-to-End VLM (Donut, Pix2Struct)

Vision-Language-Modelle, die direkt vom Bild zum strukturierten Output arbeiten – ohne separaten OCR-Schritt. Accuracy: 88–95 %. Vorteile: Keine separaten OCR-Fehler. Nachteile: Komplexe Architektur, hoher Rechenaufwand.

Stufe 6: Moderne LLM/VLM (GPT-4V, Claude Sonnet Vision, Gemini)

Die aktuelle Spitze der Entwicklung. Multimodale Large Language Models verarbeiten Belege wie ein erfahrener Buchhalter: Sie „sehen" das gesamte Dokument und verstehen den Kontext. Accuracy: 90–98 %.

Vorteile:

  • Sofortige Erkennung unbekannter Formate
  • Kontextverständnis (z. B. „Reverse Charge" erkannt)
  • Natürliche Buchungstexte
  • Pflichtfeld-Prüfung nach § 14 UStG

Herausforderungen:

  • Kosten pro API-Call
  • Halluzinationsrisiko (muss durch Validierung abgefangen werden)
  • Datenschutz erfordert EU-Hosting

Technologievergleich im Überblick

StufeAccuracyStärkenSchwächen
Manuell97–99 %FlexibelLangsam, teuer
OCR60–80 %GünstigKein Layout-Verständnis
Template95 % / 30 %Präzise bei BekanntemPflegeintensiv
LayoutLMv385–95 %GeneralisiertTrainingsaufwand
Donut/Pix2Struct88–95 %Keine OCR-FehlerKomplex
LLM/VLM90–98 %KontextverständnisKosten, Halluzination

Pflichtfelder bei der Belegerfassung

Unabhängig von der Technologie müssen folgende Felder zuverlässig erkannt werden:

  1. Lieferant (Name, Anschrift)
  2. Datum (Rechnungsdatum, Leistungszeitpunkt)
  3. Rechnungsnummer (fortlaufend)
  4. Nettobetrag / Bruttobetrag
  5. Steuersatz (0 %, 7 %, 19 %)
  6. USt-IdNr. (für Vorsteuerabzug)
  7. Positionen (Menge, Bezeichnung, Einzelpreis)

Bei XRechnung/ZUGFeRD entfällt OCR vollständig – alle Felder liegen strukturiert im XML vor.

Einführungsleitfaden für Kanzleien

Pilotphase (Monat 1–3)

  1. Mandantenauswahl: 3–5 Mandanten mit 200–500 Belegen pro Monat
  2. Belegmix: Mischung aus Eingangsrechnungen, Bankauszügen, Kassenbelegen
  3. Baseline messen: Zeit pro Beleg, Fehlerquote, STP-Quote

Kennzahlen definieren

KennzahlDefinitionZielwert
STP-QuoteAnteil fehlerfrei verarbeiteter Belege> 80 %
Zeit pro BelegDurchschnittliche Bearbeitungszeit< 30 Sekunden
FehlerquoteAnteil fehlerhafter Buchungsvorschläge< 5 %
LernkurveVerbesserung über Zeit+5 % pro Monat

Rollout (Monat 4–6)

  1. Lernregeln übertragen: Erkenntnisse aus dem Pilot auf weitere Mandanten anwenden
  2. Teamschulung: Umgang mit KI-Vorschlägen, Review-Prozess, Eskalation
  3. Mandanten-Onboarding: Upload-Wege einrichten, Qualitätserwartungen kommunizieren

Tool-Landschaft 2026

ToolTechnologieDATEV-IntegrationPreis
DATEV (intern)OCR + RegelnNativIn DUO enthalten
KlaroFlowLLM/VLMBelegbilder + CSVAb 0,15 €/Buchungszeile
CandisML + RegelnRDS 1.0Auf Anfrage
FinmaticsML + KIAPI + CSVAb 4 €/Beleg
BuchhaltungsButlerMLMarktplatz-APIAb 34 €/Monat
RossumML EnterpriseAPIEnterprise-Pricing

Grenzen der automatisierten Belegerfassung

  • Scan-Qualität: Thermopapier, unscharfe Fotos, verblasste Tinte begrenzen jede Erkennung
  • Ungewöhnliche Belege: Spezialformate, ausländische Rechnungen, Eigenbelege
  • Handschrift: Wird besser erkannt, aber mit höherer Fehlerquote
  • Fachliche Kontierung: Die Zuordnung zum richtigen Sachkonto bleibt eine menschliche Entscheidung bei komplexen Fällen

Weiterführende Artikel

Fazit

Die Belegerfassung hat sich von der manuellen Tipparbeit zum KI-gestützten Prozess entwickelt. Stufe 6 – multimodale LLMs – liefert heute die beste Kombination aus Accuracy, Flexibilität und Skalierbarkeit. Für Kanzleien bedeutet das: Weniger Routine, mehr Beratung.


KlaroFlow nutzt LLM-Vision für exzellente Belegerfassung – sofort einsatzbereit, ohne Training. Demo anfragen →


Quellen: Xu et al. LayoutLMv3 (2022); Kim et al. Donut (2022); Bitkom 2024; § 14 UStG.