Die Belegerfassung ist das Nadelöhr der Finanzbuchhaltung. Jede Minute, die in das Abtippen von Rechnungsdaten fließt, fehlt für Beratung und Mandantenbetreuung. Die gute Nachricht: Die Technologie hat sich in den letzten Jahren radikal weiterentwickelt.
Sechs Evolutionsstufen der Belegerfassung
Stufe 1: Manuelle Erfassung
Der Buchhalter liest den Beleg und tippt die Daten in das Buchhaltungssystem. Accuracy: 97–99 % (abhängig von Konzentration und Übung). Nachteil: Langsam, teuer, nicht skalierbar.
Stufe 2: Klassische OCR (Tesseract, ABBYY)
Optische Zeichenerkennung extrahiert Text aus dem Bild. Accuracy: 60–80 %. Problem: Die OCR „sieht" Buchstaben, versteht aber weder Layout noch Kontext. „Rechnungsnummer" und „Bestellnummer" werden leicht verwechselt.
Stufe 3: Template-basierte Erkennung
Für jeden Lieferanten wird ein Template erstellt, das definiert, wo welches Feld auf der Rechnung steht. Accuracy: 95 % bei bekannten Templates, 30 % bei neuen. Problem: Pflegeintensiv – jeder neue Lieferant braucht ein neues Template.
Stufe 4: Layout-ML (LayoutLMv3)
Machine-Learning-Modelle, die Layout, Text und Position gemeinsam analysieren. Accuracy: 85–95 %. Vorteile: Generalisiert besser als Templates. Nachteile: Benötigt großen Trainingsdatensatz, aufwändig zu trainieren.
Stufe 5: End-to-End VLM (Donut, Pix2Struct)
Vision-Language-Modelle, die direkt vom Bild zum strukturierten Output arbeiten – ohne separaten OCR-Schritt. Accuracy: 88–95 %. Vorteile: Keine separaten OCR-Fehler. Nachteile: Komplexe Architektur, hoher Rechenaufwand.
Stufe 6: Moderne LLM/VLM (GPT-4V, Claude Sonnet Vision, Gemini)
Die aktuelle Spitze der Entwicklung. Multimodale Large Language Models verarbeiten Belege wie ein erfahrener Buchhalter: Sie „sehen" das gesamte Dokument und verstehen den Kontext. Accuracy: 90–98 %.
Vorteile:
- Sofortige Erkennung unbekannter Formate
- Kontextverständnis (z. B. „Reverse Charge" erkannt)
- Natürliche Buchungstexte
- Pflichtfeld-Prüfung nach § 14 UStG
Herausforderungen:
- Kosten pro API-Call
- Halluzinationsrisiko (muss durch Validierung abgefangen werden)
- Datenschutz erfordert EU-Hosting
Technologievergleich im Überblick
| Stufe | Accuracy | Stärken | Schwächen |
|---|---|---|---|
| Manuell | 97–99 % | Flexibel | Langsam, teuer |
| OCR | 60–80 % | Günstig | Kein Layout-Verständnis |
| Template | 95 % / 30 % | Präzise bei Bekanntem | Pflegeintensiv |
| LayoutLMv3 | 85–95 % | Generalisiert | Trainingsaufwand |
| Donut/Pix2Struct | 88–95 % | Keine OCR-Fehler | Komplex |
| LLM/VLM | 90–98 % | Kontextverständnis | Kosten, Halluzination |
Pflichtfelder bei der Belegerfassung
Unabhängig von der Technologie müssen folgende Felder zuverlässig erkannt werden:
- Lieferant (Name, Anschrift)
- Datum (Rechnungsdatum, Leistungszeitpunkt)
- Rechnungsnummer (fortlaufend)
- Nettobetrag / Bruttobetrag
- Steuersatz (0 %, 7 %, 19 %)
- USt-IdNr. (für Vorsteuerabzug)
- Positionen (Menge, Bezeichnung, Einzelpreis)
Bei XRechnung/ZUGFeRD entfällt OCR vollständig – alle Felder liegen strukturiert im XML vor.
Einführungsleitfaden für Kanzleien
Pilotphase (Monat 1–3)
- Mandantenauswahl: 3–5 Mandanten mit 200–500 Belegen pro Monat
- Belegmix: Mischung aus Eingangsrechnungen, Bankauszügen, Kassenbelegen
- Baseline messen: Zeit pro Beleg, Fehlerquote, STP-Quote
Kennzahlen definieren
| Kennzahl | Definition | Zielwert |
|---|---|---|
| STP-Quote | Anteil fehlerfrei verarbeiteter Belege | > 80 % |
| Zeit pro Beleg | Durchschnittliche Bearbeitungszeit | < 30 Sekunden |
| Fehlerquote | Anteil fehlerhafter Buchungsvorschläge | < 5 % |
| Lernkurve | Verbesserung über Zeit | +5 % pro Monat |
Rollout (Monat 4–6)
- Lernregeln übertragen: Erkenntnisse aus dem Pilot auf weitere Mandanten anwenden
- Teamschulung: Umgang mit KI-Vorschlägen, Review-Prozess, Eskalation
- Mandanten-Onboarding: Upload-Wege einrichten, Qualitätserwartungen kommunizieren
Tool-Landschaft 2026
| Tool | Technologie | DATEV-Integration | Preis |
|---|---|---|---|
| DATEV (intern) | OCR + Regeln | Nativ | In DUO enthalten |
| KlaroFlow | LLM/VLM | Belegbilder + CSV | Ab 0,15 €/Buchungszeile |
| Candis | ML + Regeln | RDS 1.0 | Auf Anfrage |
| Finmatics | ML + KI | API + CSV | Ab 4 €/Beleg |
| BuchhaltungsButler | ML | Marktplatz-API | Ab 34 €/Monat |
| Rossum | ML Enterprise | API | Enterprise-Pricing |
Grenzen der automatisierten Belegerfassung
- Scan-Qualität: Thermopapier, unscharfe Fotos, verblasste Tinte begrenzen jede Erkennung
- Ungewöhnliche Belege: Spezialformate, ausländische Rechnungen, Eigenbelege
- Handschrift: Wird besser erkannt, aber mit höherer Fehlerquote
- Fachliche Kontierung: Die Zuordnung zum richtigen Sachkonto bleibt eine menschliche Entscheidung bei komplexen Fällen
Weiterführende Artikel
- Finmatics Alternative: Welche KI-Lösungen können es aufnehmen?
- KI in der Buchhaltung 2026: Wo wir wirklich stehen
- Buchhaltung automatisieren: 7 Hebel, die 2026 wirklich Zeit sparen
- Vorsteuerabzug bei Rechnungen: Häufige Fehler und wie KI sie verhindert
Fazit
Die Belegerfassung hat sich von der manuellen Tipparbeit zum KI-gestützten Prozess entwickelt. Stufe 6 – multimodale LLMs – liefert heute die beste Kombination aus Accuracy, Flexibilität und Skalierbarkeit. Für Kanzleien bedeutet das: Weniger Routine, mehr Beratung.
KlaroFlow nutzt LLM-Vision für exzellente Belegerfassung – sofort einsatzbereit, ohne Training. Demo anfragen →
Quellen: Xu et al. LayoutLMv3 (2022); Kim et al. Donut (2022); Bitkom 2024; § 14 UStG.