Hoe werkt OCR?
Je hebt een factuur. Op papier, als pdf, of misschien als afbeelding. Voor jou is het duidelijk: bedragen, crediteur, factuurnummer, het staat er allemaal op. Voor een computer? Een plaatje, niet meer dan een verzameling pixels. En daar kun je weinig mee, tenzij je een tool als OCR gebruikt. OCR doorloopt een aantal stappen om van pixels tot bruikbare data te komen:
Stap 1: Beeld vastleggen
Het OCR-proces begint met het maken van een afbeelding van het document meestal door een document te scannen of er een foto van te maken.
Stap 2: Voorbewerking
In de voorbewerking wordt de kwaliteit van de afbeelding verbeterd. Denk aan ruis verminderen, contrast verbeteren, scheve pagina's rechtzetten.
Stap 3: Tekst herkennen
Slimme algoritmes zoeken patronen die lijken op letters, cijfers en symbolen. Moderne OCR-software gebruikt aanvullend machine learning om dit steeds beter te doen.
Stap 4: Data extraheren
De herkende tekens worden samengevoegd tot woorden, zinnen en alinea's. Zo ontstaat een machinaal leesbare versie van jouw document.
Het resultaat?
Een bestand dat je kunt doorzoeken. Tekstinformatie wordt bewaard op een verborgen laag in de gescande afbeelding, zodat het bestand kan worden doorzocht, terwijl het uiterlijk van het origineel behouden blijft.
Maar let op: OCR kan niet toveren. De kwaliteit van de scan, het lettertype en de opmaak van het document bepalen hoe goed de herkenning werkt. En handschriften? Die blijven een uitdaging net zoals dat voor het blote oog ook het geval kan zijn.
Toepassingen van OCR
OCR-technologie is breed inzetbaar. Wij zetten het al jaren in als hulpmiddel in het purchase to pay-proces, maar het is ook geschikt voor andere processen:
- Digitalisering van documenten
Overvolle archieven? Stapels papieren contracten? OCR maakt ze doorzoekbaar én digitaal. Weg met die stoffige archiefmappen.
- Automatisering van gegevensinvoer
Facturen, bonnen, formulieren en eigenlijk elk ander document waar gegevens op staan die je moet verwerken; OCR haalt de data eruit en zet het klaar voor verwerking. Minder handwerk, minder fouten.
- Toegankelijkheid
Gedrukte of geschreven tekst omzetten naar leesbare digitale tekst of spraak. Voor wie slechtziend is, maakt OCR een wereld van verschil.
- Zoeken en analyseren
OCR maakt documenten doorzoekbaar. Handig als je niet een heel document wilt doorlezen op zoek naar dat ene stukje informatie.
- Mobiele toepassingen
OCR zit in apps waarmee je visitekaartjes scant, tekst vertaalt of informatie uit een foto haalt. Ook onze declaratie-app gebruikt OCR om foto's van bonnetjes automatisch te verwerken.
- Bankwezen en financiën
In de financiële sector en in financiële processen wordt OCR gebruikt voor de verwerking van cheques, facturen en andere financiële documenten. Alles om snelheid en nauwkeurigheid te verhogen.
OCR-software: welke opties zijn er?
OCR-software is er in vele soorten, met verschillen in prijs, snelheid, functionaliteit en nauwkeurigheid. Een paar opties:
- Freeware - Simpel maar beperkt. Meestal geschikt voor één pagina tegelijk en de output is beperkt tot bijvoorbeeld alleen TXT- of DOC-formaat.
- Desktop OCR - Voor kleine volumes. Je hebt hier vaak nog wel handmatige acties tijdens de conversie.
- Batch- of server OCR - Voor grotere volumes. Deze software verwerkt hele mappen met documenten, in verschillende bestandsformaten en talen tot exacte kopieën in een formaat naar keuze.
Waar let je op bij het kiezen van OCR-software?
- Nauwkeurigheid van herkenning
- Ondersteuning van talen
- Snelheid en batchverwerking
- Output bestandsformaten (Word, Excel, PDF, eBook, etc.)
- Gebruiksvriendelijkheid
- OCR-snelheid en ondersteuning voor multi-core CPU's
- Geavanceerde pdf-codering of compressie
Belangrijk om te weten: geen enkele OCR-tool kan 100% nauwkeurigheid garanderen. Documenten met complexe lay-outs, ongebruikelijke lettertypen of variabele tekstoriëntaties kunnen uitdagingen vormen. Maar ook scaninstellingen, lettertypen en documentkwaliteit spelen een grote rol. Een goede scan (300 dpi, zwart-wit) maakt het verschil.
OCR & factuurverwerking, hoe werkt dat?
Je ontvangt facturen, bijvoorbeeld als pdf per e-mail. Die pdf is voor de factuurverwerkingssoftware niet meer dan een plaatje. Daar kan de software bijzonder weinig mee. Overtypen wil je natuurlijk niet.
OCR voor factuurverwerking doorloopt grofweg drie stappen:
- Papieren facturen scan je handmatig, pdf- en andere digitale facturen worden automatisch gescand vanuit een e-mailbox.
- De gegevens op de facturen worden na het scannen uitgelezen en herkend door de OCR-software.
- De facturen worden vervolgens doorgezet naar je factuurverwerkingssoftware voor verdere verwerking, waar zoveel mogelijk informatie automatisch wordt ingevuld. Denk aan:
- Headerdata zoals factuurnummer, factuurdatum, netto-, bruto- en btw-bedragen.
- Line level data zoals aantal, prijs per stuk, regeltotaal, omschrijving.
Voor optimaal gebruik van OCR in het factuurverwerkingsproces, maak je sjablonen aan. Deze sjablonen vertellen de OCR-software waar informatie zich bevindt en op die plekken wordt dan ook gezocht naar de informatie.
Weet wel, zodra een leverancier zijn facturen in een nieuwe layout giet, moet je opnieuw aanwijzen waar de informatie staat.
Intelligent Document Processing (IDP): de slimme opvolger van OCR
Sinds de komst van OCR is er veel veranderd, tecnologie staat niet stil. Intelligent Document Processing (IDP) is de volgende stap in documentverwerking. Waar OCR vooral tekst herkent, gaat IDP verder. Het combineert OCR met AI en machine learning. Op deze manier is het minder afhankelijk van sjablonen en is het in staat om te gaan met variabele documentindelingen. Waar IDP echt het verschil maakt is dat het tekst snapt, het begrijpt de context.
Wat betekent dat in de praktijk?
- Meer flexibiliteit: IDP leert van jouw documenten en past zich aan.
- Minder handmatige correcties: slimme algoritmes herkennen patronen, ook als een document anders is opgebouwd.
IDP is een hele interessante optie voor organisaties die meer flexibiliteit nodig hebben dan OCR ooit kan bieden.
E-facturatie: het alternatief
OCR is handig, IDP is slimmer, maar beide zijn niet het eindstation. E-facturatie gaat een paar stappen verder. Geen scans, geen herkenning, maar direct gestructureerde data. Facturen komen binnen in een standaardformaat zoals XML of UBL en kunnen zonder tussenstap verwerkt worden.
Waarom is e-facturatie dan nog niet overal standaard?
- Leveranciers moeten meewerken
- Er zijn veel verschillende standaarden die geconverteerd moeten worden naar de standaard waar jouw organisatie mee werkt
- Het vraagt om afspraken en soms om systeemaanpassingen.
Toch is e-facturatie de richting waarin veel organisaties bewegen. Deels vanwege wetgeving, maar hopelijk vooral vanwege de voordelen, minder handwerk, meer grip, meer snelheid.
Wat is de beste keuze voor jouw organisatie?
Ontvang je nog veel papieren facturen of pdf's? Dan is OCR een logische stap. Je kunt er flink wat handmatig werk mee besparen. Maar als je klaar bent voor een volgende fase, kijk dan naar e-facturatie. Het levert meer op dan alleen tijdwinst, het geeft je inzicht, compliance en controle.
En dan is er nog Intelligent Document Processing (IDP). Het combineert scan- en herkentechniek met AI, waardoor je niet afhankelijk bent van sjablonen en beter kunt omgaan met variabele documentindelingen. Voor organisaties die verder willen kijken dan OCR, is dit een interessante ontwikkeling.