Die Belegerfassung ist das Nadelöhr der Finanzbuchhaltung. Jede Minute, die in das Abtippen von Rechnungsdaten fließt, fehlt für Beratung und Mandantenbetreuung. Die gute Nachricht: Die Technologie hat sich in den letzten Jahren radikal weiterentwickelt.

Sechs Evolutionsstufen der Belegerfassung

Stufe 1: Manuelle Erfassung

Der Buchhalter liest den Beleg und tippt die Daten in das Buchhaltungssystem. Accuracy: 97–99 % (abhängig von Konzentration und Übung). Nachteil: Langsam, teuer, nicht skalierbar.

Stufe 2: Klassische OCR (Tesseract, ABBYY)

Optische Zeichenerkennung extrahiert Text aus dem Bild. Accuracy: 60–80 %. Problem: Die OCR „sieht" Buchstaben, versteht aber weder Layout noch Kontext. „Rechnungsnummer" und „Bestellnummer" werden leicht verwechselt.

Stufe 3: Template-basierte Erkennung

Für jeden Lieferanten wird ein Template erstellt, das definiert, wo welches Feld auf der Rechnung steht. Accuracy: 95 % bei bekannten Templates, 30 % bei neuen. Problem: Pflegeintensiv – jeder neue Lieferant braucht ein neues Template.

Stufe 4: Layout-ML (LayoutLMv3)

Machine-Learning-Modelle, die Layout, Text und Position gemeinsam analysieren. Accuracy: 85–95 %. Vorteile: Generalisiert besser als Templates. Nachteile: Benötigt großen Trainingsdatensatz, aufwändig zu trainieren.

Stufe 5: End-to-End VLM (Donut, Pix2Struct)

Vision-Language-Modelle, die direkt vom Bild zum strukturierten Output arbeiten – ohne separaten OCR-Schritt. Accuracy: 88–95 %. Vorteile: Keine separaten OCR-Fehler. Nachteile: Komplexe Architektur, hoher Rechenaufwand.

Stufe 6: Moderne LLM/VLM (GPT-4V, Claude Sonnet Vision, Gemini)

Die aktuelle Spitze der Entwicklung. Multimodale Large Language Models verarbeiten Belege wie ein erfahrener Buchhalter: Sie „sehen" das gesamte Dokument und verstehen den Kontext. Accuracy: 90–98 %.

Vorteile:

Sofortige Erkennung unbekannter Formate
Kontextverständnis (z. B. „Reverse Charge" erkannt)
Natürliche Buchungstexte
Pflichtfeld-Prüfung nach § 14 UStG

Herausforderungen:

Kosten pro API-Call
Halluzinationsrisiko (muss durch Validierung abgefangen werden)
Datenschutz erfordert EU-Hosting

Technologievergleich im Überblick

Stufe	Accuracy	Stärken	Schwächen
Manuell	97–99 %	Flexibel	Langsam, teuer
OCR	60–80 %	Günstig	Kein Layout-Verständnis
Template	95 % / 30 %	Präzise bei Bekanntem	Pflegeintensiv
LayoutLMv3	85–95 %	Generalisiert	Trainingsaufwand
Donut/Pix2Struct	88–95 %	Keine OCR-Fehler	Komplex
LLM/VLM	90–98 %	Kontextverständnis	Kosten, Halluzination

Pflichtfelder bei der Belegerfassung

Unabhängig von der Technologie müssen folgende Felder zuverlässig erkannt werden:

Lieferant (Name, Anschrift)
Datum (Rechnungsdatum, Leistungszeitpunkt)
Rechnungsnummer (fortlaufend)
Nettobetrag / Bruttobetrag
Steuersatz (0 %, 7 %, 19 %)
USt-IdNr. (für Vorsteuerabzug)
Positionen (Menge, Bezeichnung, Einzelpreis)

Bei XRechnung/ZUGFeRD entfällt OCR vollständig – alle Felder liegen strukturiert im XML vor.

Einführungsleitfaden für Kanzleien

Pilotphase (Monat 1–3)

Mandantenauswahl: 3–5 Mandanten mit 200–500 Belegen pro Monat
Belegmix: Mischung aus Eingangsrechnungen, Bankauszügen, Kassenbelegen
Baseline messen: Zeit pro Beleg, Fehlerquote, STP-Quote

Kennzahlen definieren

Kennzahl	Definition	Zielwert
STP-Quote	Anteil fehlerfrei verarbeiteter Belege	> 80 %
Zeit pro Beleg	Durchschnittliche Bearbeitungszeit	< 30 Sekunden
Fehlerquote	Anteil fehlerhafter Buchungsvorschläge	< 5 %
Lernkurve	Verbesserung über Zeit	+5 % pro Monat

Rollout (Monat 4–6)

Lernregeln übertragen: Erkenntnisse aus dem Pilot auf weitere Mandanten anwenden
Teamschulung: Umgang mit KI-Vorschlägen, Review-Prozess, Eskalation
Mandanten-Onboarding: Upload-Wege einrichten, Qualitätserwartungen kommunizieren

Tool-Landschaft 2026

Tool	Technologie	DATEV-Integration	Preis
DATEV (intern)	OCR + Regeln	Nativ	In DUO enthalten
KlaroFlow	LLM/VLM	Belegbilder + CSV	Ab 0,15 €/Buchungszeile
Candis	ML + Regeln	RDS 1.0	Auf Anfrage
Finmatics	ML + KI	API + CSV	Ab 4 €/Beleg
BuchhaltungsButler	ML	Marktplatz-API	Ab 34 €/Monat
Rossum	ML Enterprise	API	Enterprise-Pricing

Grenzen der automatisierten Belegerfassung

Scan-Qualität: Thermopapier, unscharfe Fotos, verblasste Tinte begrenzen jede Erkennung
Ungewöhnliche Belege: Spezialformate, ausländische Rechnungen, Eigenbelege
Handschrift: Wird besser erkannt, aber mit höherer Fehlerquote
Fachliche Kontierung: Die Zuordnung zum richtigen Sachkonto bleibt eine menschliche Entscheidung bei komplexen Fällen

Weiterführende Artikel

Fazit

Die Belegerfassung hat sich von der manuellen Tipparbeit zum KI-gestützten Prozess entwickelt. Stufe 6 – multimodale LLMs – liefert heute die beste Kombination aus Accuracy, Flexibilität und Skalierbarkeit. Für Kanzleien bedeutet das: Weniger Routine, mehr Beratung.

KlaroFlow nutzt LLM-Vision für exzellente Belegerfassung – sofort einsatzbereit, ohne Training. Demo anfragen →

Quellen: Xu et al. LayoutLMv3 (2022); Kim et al. Donut (2022); Bitkom 2024; § 14 UStG.