Werking van klassieke OCR
Klassieke OCR ('optical character recognition') verwerkt gescande of afbeeldingsgerichte tekst door visuele patronen te herkennen. Eerst wordt het document rechtgezet en gesegmenteerd in tekstblokken, kolommen en regels. De software analyseert vervolgens elk teken en vergelijkt patronen met voorgetrainde voorbeelden. Op basis van waarschijnlijkheid bepaalt de OCR-engine welke karakters het meest overeenkomen. Een woordenlijst of taalmodel corrigeert eventuele onwaarschijnlijkheden. Het resultaat is platte tekst met coördinaten, zodat de oorspronkelijke plaatsing in het document behouden blijft.
Beperkingen van klassieke OCR
Klassieke OCR kent structurele nadelen bij complexe documenten zoals facturen, orders of creditnota's. De output is contextloos: het systeem herkent tekens, maar kent geen betekenis toe. Velden als factuurnummer of totaalbedrag worden niet automatisch geïdentificeerd. Veel OCR-toepassingen werken met vaste sjablonen en zijn daardoor gevoelig voor kleine layoutverschillen. Bovendien daalt de nauwkeurigheid bij afwijkende fonts, scheve scans of tabellen met meerdere kolommen. Belangrijkste beperkingen:
- Contextloosheid: geen onderscheid tussen soorten gegevens; alleen tekst.
- Rigiditeit: afhankelijk van vaste posities en sjablonen.
- Lay-outgevoeligheid: kleine variaties of slechte kwaliteit leiden tot fouten.
PDF2XML: van visueel naar semantisch
PDF2XML maakt deel uit van het bredere veld van Intelligent Document Processing (IDP) en vormt de schakel tussen digitale documenten en semantische data-analyse. PDF2XML vertrekt niet vanuit beelden, maar uit de digitale PDF-structuur zelf. De tool leest tekst- en vectorinformatie rechtstreeks uit het bestand en zet die om in XML. Er is geen OCR nodig; de originele tekens, fonts en coördinaten blijven behouden. PDF2XML groepeert tekens automatisch tot woorden en getallen, zodat de output direct bruikbare en gestructureerde inhoud oplevert. Tekst wordt geëxtraheerd ongeacht of deze in tabellen, kolommen of kopregels staat.
Terwijl OCR enkel visueel analyseert, werkt PDF2XML semantisch-inhoudelijk. Labels als "Factuurnummer:" of "Totaal:" verschijnen letterlijk in de uitvoer en kunnen direct worden geïnterpreteerd door verwerkingsregels. De identificatie van velden is gebaseerd op betekenis, niet op positie.
Van positioneel naar inhoudelijk, van rigide naar adaptief
PDF2XML is niet afhankelijk van sjablonen en kan met uiteenlopende lay-outs omgaan. Analyse-algoritmen herkennen factuurnummers, bedragen of datums op basis van semantische context. Moderne documentverwerking wordt hierdoor adaptief: het systeem leert van voorbeelden in plaats van voor elke leverancier een nieuw sjabloon te vereisen. In essentie biedt PDF2XML:
- Semantische herkenning in plaats van visuele patroonherkenning
- Inhoudelijke classificatie in plaats van positionele benadering
- Adaptiviteit in plaats van rigide velddetectie.
Verwerkingsarchitectuur van PDF2XML
- Tekstextractie Het brondocument wordt ontleed en de tekstinhoud wordt geëxtraheerd, inclusief getallen, tabellen en sleutelwoorden. Deze fase lijkt op klassieke OCR, maar is geoptimaliseerd voor digitaal gegenereerde PDF’s. De brondata worden niet alleen gelezen, maar ook gepositioneerd op basis van hun context.
- Semantische herkenning Een getraind model herkent de betekenis van elementen in de tekst en detecteert typische factuur- of orderkenmerken: bedragen, btw-percentages, datums en factuurnummers leveranciersgegevens, IBAN’s, btw-nummers en referenties documenttype (factuur, creditnota, order, pakbon, etc.) Deze semantische laag maakt het systeem robuust voor variaties in opmaak en taal.
- Validatie en normalisatie Herkenningsresultaten worden gecontroleerd aan de hand van interne validatieregels: Controle op consistentie van bedragen en btw-berekeningen Normalisatie van datums en valuta Matching met bestaande stamdata Zo ontstaat een dataset die voldoet aan interne verwerkings- en boekingsregels.
- Structurering naar XML De gevalideerde data wordt vertaald naar XML conform de vereiste standaard (bijv. UBL of Peppol BIS). Deze syntaxis sluit direct aan op downstream-processen zoals boeking, goedkeuring of verdere workflowverwerking.
- Feedback en verbetering Elke verwerking levert metadata over herkenningsnauwkeurigheid en uitzonderingen. Deze data voedt het zelflerende model, waardoor de herkenning steeds nauwkeuriger wordt.
Samenvatting
Klassieke OCR biedt een visueel-technische oplossing, maar mist begrip van context en betekenis. PDF2XML overbrugt deze kloof door tekst direct uit digitale bronnen te halen en semantisch te interpreteren binnen het domein van Intelligent Document Processing (IDP). Dankzij lagen voor herkenning, validatie en zelflerende verbetering vormt PDF2XML een flexibele, schaalbare en toekomstbestendige aanpak voor betrouwbare documentverwerking.
