Wie Sie mit modernen KI-Systemen Zeichnungen, PDFs und Scans in strukturierte Daten umwandeln, und wo die Stolpersteine liegen.
Jede Kundenanfrage in anderem Format
Montagmorgen: Es sind neue Kundenanfragen eingegangen, mit technischen Zeichnungen, Skizzen und Stücklisten. Manche haben 5 Positionen, andere 60, und gelegentlich kommt eine mit über 100 Zeilen auf den Schreibtisch.
Das Problem: Jede Stückliste kommt in einem anderen Format. Manche kommen als PDF mit eingebettetem Scan, andere als Foto einer Papierzeichnung oder als Excel-Tabelle in einem nicht-standardisierten Layout. Manche Zeilen sind handschriftlich ergänzt. Und alle müssen für die Angebotserstellung in eine geeignete digitale Form gebracht oder in das ERP-System übernommen werden. Und das möglist sauber, vollständig und fehlerfrei.

Wer das manuell abtippen muss, weiß, wie aufwändig das ist. Eine lange Stückliste mit 100 oder mehr Positionen kostet den zuständigen Mitarbeiter vier bis sechs Stunden. Für kleinere Anfragen mit 10 bis 20 Positionen ist der Aufwand geringer. Aber er summiert sich bei zehn anfragen pro Woche zu einem erheblichen Zeitblock, in dem fähige Ingenieure ihre Zeit mit stupidem Abtippen von Tabellen verbringen.
Hier setzt die Digitalisierung mit multimodalen KI-Modellen an.
Grenzen klassischer OCR-Tools
Mit OCR-Software (Optical Character Recognition) kann man eingescannte Dokumente in maschinenlesbaren Text umwandeln. Klassische OCR funktioniert gut für gleichförmige, saubere Dokumente. Doch technische Stücklisten sind vielfältig und haben:
- mehrspaltige Layouts mit Positionsnummern, Teilenummern, Bezeichnungen, Mengen;
- verschachtelte Tabellen oder Unterbaugruppen;
- unterschiedliche Zellgrößen und Zeilenumbrüche innerhalb von Zellen.
Klassische OCR erkennt zwar Zeichen, aber nicht zuverlässig die Tabellenstruktur.
Vorteile multimodaler LLMs
Multimodale „Large Language Models“ (LLMs, große Sprachmodelle) nutzen sowohl visuelle als auch spracheliche Hinweise, um Tabellen-Strukturen zu „verstehen“. Sie sind daher robuster bei variablen Layouts. Sie können implizit erkennen, wo in einem eingescannten Bild eine Tabelle ist und welche Werte zusammengehören. Durch das in den Sprachmodellen enthaltene Weltwissen können sie auch bei mehrdeutigen Pixel-Daten anhand von Kontext und Bedeutung Bezeichner besser erkennen.
Typischer Workflow
Ein typischer Workflow sieht so aus:
- Eingabe: Kundenanfrage (Bild, PDF oder Scan) wird an das KI-System übergeben (z.B. mit Klick im Kontext-Menü im Windows-Explorer)
- KI-Anfrage: Die Datei wird zusammen mit einer aufgabenspezifischen Anweisung („Prompt“) an das KI-Modell geschickt. Darin wird das KI-Modell z.B. aufgefordert, aus dem Bild Daten in einem bestimmten Output-Format (JSON, CSV) zu extrahieren.
- Parsing und Rendering: Der Output des KI-Modells („Tokens“) wird verarbeitet und in der vom Benutzer gewünschten Form dargestellt. Z.B. als editierbare Tabelle neben dem Original-Bild.
- Validierung: Ein Mitarbeiter prüft und korrigiert das KI-Ergebnis.
- Import: Die geprüften Daten werden z.B. an das ERP-System weitergeleitet oder an einen Workflow, der einen Angebotsentwurf erstellt.

Zum selbst ausprobieren als Browser-Demo: stueckliste.inhouse-ai.de
Die entscheidende Entlastung ist, dass der Mitarbeiter die Rohdaten nicht mehr mühsam abtippen muss. Er vergleicht nur noch das KI-Ergebnis mit dem Original-Bild und korrigiert eventuelle Fehler. Bei einer langen Stückliste sinkt der Aufwand von mehreren Stunden auf eine überschaubare Kontrolldurchsicht.
Realistisches Einsparpotential
Wenn pro Woche zehn bis zwanzig Anfragen eingehen und die dazugehörigen Stücklisten jeweils 5 bis 120 Positionen beinhalten, kann sich eine Entlastung von mehreren Personentagen pro Monat ergeben. Hier eine Beispielrechnung:
| Szenario | Manuell (abtippen + Kontrolle) | Mit KI-Unterstützung (nur Kontrolle) |
| Kurze Stückliste (10 Pos.) | 7 – 15 Min. | 2 – 3 Min. |
| Mittlere Stückliste (50 Pos.) | 1 – 1,5 Std. | 15 – 30 Min. |
| Lange Stückliste (120 Pos.) | 4 – 6 Std. | 45 – 60 Min. |
Die Zeit, die beim Abtippen eingespart wird, können Ihre hochqualifizierten Mitarbeiter für anspruchsvollere Aufgaben verwenden.
In dieser Web-basierten Demo können Sie mit Beispieldaten oder auch eigenen Bildern ausprobieren, wie gut aktuelle KI-Modelle wie Qwen3.6 oder Gemma-4 eingescannte Stücklisten digitalisieren können:
Grenzen und Schwächen von KI-Digitalisierungs-Tools
Auch wenn auf einem Tool „KI“ draufsteht, sind solche Systeme nicht fehlerfrei.
Bildqualität: Bei schlechter Datengrundlage, also z.B. unleserlicher Handschrift oder mangelhafter Bildqualität, werden weder Mensch noch Maschine zum richtigen Ergebnis kommen.
Haluzinationen: LLMs („großen Sprachmodellen“) sind darauf trainiert, das jeweils das – aufgrund des Inputs und der eingespeicherten Trainingsdaten – wahrscheinlichste nächste Wort vorherzusagen. Aber das statistisch wahrscheinlichste nächste Wort ist nicht automatisch richtig oder die Wahrheit. So kann es vorkommen, dass das System ein Ergebnis produziert, welches zwar plausibel aussieht, aber im konkreten Kontext falsch ist.
Auf KI-Ergebnisse sollte man sich daher nicht blind verlassen, sondern sie immer noch von einem Mensch prüfen lassen, der die Verantwortung für die Richtigkeit übernimmt. Dieses Vorgehen wird als „Human-in-the-Loop“ (HITL) bezeichnet und ist in manchen Bereichen sogar rechtlich vorgeschrieben (siehe EU AI Act).
Unternehmensspezifisches Wissen: Interne Kürzel, Materialcodes, Klassifizierungen oder Sonderbauformen kennt ein extern vortrainiertes KI-Modell zunächst nicht. Damit ein KI-System solche Informationen bei seinen Antworten berücksichtigen kann, müssen diese in die jeweilige Anfrage (Prompts) mit eingespeist werden, oder im Rahmen eines Fine-Tunings in das Modell-Wissen aufgenommen werden.
Komplexe mehrseitige Dokumente: Wenn Stücklisten und Zeichnungen über zehn Seiten verteilt sind und aufeinander verweisen, steigt die Komplexität für die saubere Extraktion der Informationen erheblich. Von einem generischen KI-Tool wird man hier „out-of-the-box“ noch keine befriedigenden Antworten erwarten können.
Diese Probleme sind lösbar. Aber hier sind spezifische Anpassungen und auf den Anwendungsfall zugeschnittene KI-Systeme nötig. Vereinbaren Sie gerne ein kostenloses Strategiegespräch, in dem wir Ihre konkreten Anforderungen gemeinsam analysieren.
Umsetzung von KI-gestützten Digitalisierungsprojekten
Für die erfolgreiche Umsetzung eines KI-gestützten Digitalisierungsprojekts sind u.a. folgende Fragen zu klären:
- Analyse des Ist-Zustandes: Wie sind aktuell die Arbeitsabläufe vom Eingang der Anfrage über die Zuweisung an den zuständigen Mitarbeiter, Abtippen der Stücklisten … bis zur Erstellung eines Angebots und dem Einpflegen in das ERP-System? Denn eine KI-gestützte Automatisierung soll sich in bestehende Abläufe integrieren und diese für Mitarbeiter vereinfachen und nicht neuen Zusatzaufwand generieren.
- Datenformate und Schnittstellen: In welchem Format kommen die Daten bisher an und in welchen Systemen werden sie später weiterverarbeitet? Welche Schnittstellen haben die bisher genutzten internen Systeme (E-Mail-System, ERP, CRM, Dokumenten-Management, …)?
- Benutzerfreundlichkeit: Wie müssen Arbeitsabläufe und Benutzeroberflächen gestaltet sein, damit sie Ihre Mitarbeiter optimal unterstützen?
- Validierung: Welche Testdaten aus echten Geschäftsabläufen können genutzt werden, um die Zuverlässigkeit des Systems zu prüfen? Denn synthetische Testdaten spiegeln nie die Vielfältigkeit des Arbeitsalltages wieder. Und auch nach der Einführung des Systems ist ein Feedback-Mechanismus notwendig, mit dem die Nutzer Fehler oder ungenaue KI-Ergebnise melden können.
Die Klärung solcher Fragen ist entscheidend dafür, dass ein KI-Projekt tatsächlich den Arbeitsalltag erleichtert und nicht nach drei Monaten ungenutzt liegen bleibt.
Fazit: Die Technologie ist bereit – die Umsetzung entscheidet
Die Digitalisierung von Stücklisten durch multimodale KI-Modelle ist keine Zukunftsmusik mehr. Die Technologie ist reif für die Praxis, und die potenziellen Zeiteinsparungen sind zu groß, um sie zu ignorieren. Der Weg zu einer zuverlässigen Datenextraktion führt jedoch selten über Standard-Tools von der Stange, sondern über eine präzise Anpassung an die eigenen Systeme und Schnittstellen.
Wer die Implementierung strukturiert angeht und die bekannten Stolpersteine umschifft, befreit hochqualifizierte Fachkräfte von stupidem Abtippen und beschleunigt den gesamten Angebotsprozess drastisch.
Vereinbaren Sie jetzt einen kostenlosen Termin für ein Erstgespräch, um zu prüfen, wie Ihr Digitalisierungsprojekt erfolgreich starten kann.
