DocbyteFacebookPixel
wit logo van docbyte

Voortdurende training

[tta_listen_btn]
Voortdurende training

Inhoudsopgave

In ons platform voor Intelligente Documentverwerking maken we gebruik van Machine Learning (ML) technologie. Een aanpak op basis van ML houdt de startinspanning laag en verbetert toch voortdurend de efficiëntie. Dit is waar continue training om de hoek komt kijken. 


Een meer diepgaande beschrijving van IDP is besproken in een vorig artikel. Wat zijn de belangrijkste stappen van een IDP-oplossing?

Documentenverzameling: 

scannen, e-mails ophalen, WhatsApp-berichten lezen, enz. Deze stap omvat ook achtergrondstappen zoals automatisch opschonen, denoising, bijsnijden, roteren van het document en toepassing van OCR.


Classificatie: 

de documenten automatisch indelen in vooraf gedefinieerde categorieën

Extractie: 

automatisch relevante informatie extraheren, zoals namen, adressen, nummers, enz.

Validatie

Validatie van de informatie is ofwel geautomatiseerd door het gebruik van integraties met externe systemen of door een mens in de lus te hebben.

Extraheren en interpreteren

Nadat de informatie verwerkt, geëxtraheerd en geïnterpreteerd is, kan deze naar de juiste bestemming gerouteerd worden, hetzij een persoon of een bedrijfslijntoepassing.

De laatste stap is dat het bedrijfsproces het beheer van de rest van de informatiestroom overneemt.

 
 

foto 1


Stappen 2 en 3 maken uitgebreid gebruik van ML-technologieën. De reden hiervoor is de grote verscheidenheid aan invoerdocumenten en berichten die binnenkomen en verwerkt moeten worden. 


Hoewel u uw leveranciers kunt vragen om hun facturen naar een invoices@ mailbox te sturen en klanten Inkooporders naar een PO@ mailbox kunnen sturen, is het onmogelijk om alles vooraf te filteren. 


En zelfs als er al enige filtering plaatsvindt, hebt u in uw interne verwerking waarschijnlijk nog steeds veel verschillende categorieën en afhandelingen nodig.


Als verzekeraar gebruikt u wellicht een algemene claims@ mailbox. Claims voor auto-, zorg-, opstal- en levensverzekeringen worden echter vaak behandeld door verschillende afdelingen en agenten in uw organisatie. 


Het categoriseren van informatie zal daarbij enorm helpen. Daarnaast is het categoriseren van documenten ook van belang bij het beslissen welke informatie uit de gegevens gehaald moet worden. 


Als het documenttype een ID-kaart is, wilt u andere informatie uit het document halen dan wanneer u een factuur of een verzekeringsclaim verwerkt.


Het classificeren van informatie is van toepassing op meerdere aspecten van binnenkomende gegevens.


  • Waar gaat de informatie over? Een verzekeringsclaim voor een auto-ongeluk vs een verzekeringsclaim voor een levensverzekering)
  • Met wat voor soort documenten en informatie werken we? Een identiteitskaart, paspoort, Europese Ongevallenverklaring, factuur, ...
 

De extractie van informatie is van toepassing op:

Zeer specifieke informatie om te extraheren: 

Een factuurnummer, de naam van een persoon of organisatie, een unieke identificatiecode, een streepjescode, een bedrag op een bankafschrift, enz.

Contextuele informatie: 

het identificeren van specifieke delen van een document, terminologie of een combinatie daarvan die gebruikt kunnen worden om de categorisatie van informatie verder te categoriseren of te verfijnen.

Verbanden vinden tussen verschillende gegevenswaarden in één of meerdere documenten. Bijv. is de geboortedatum op de ID-kaart dezelfde als op de geboorteakte die werd verstrekt, enz. in Bijscholing?

 

Hoewel we conceptueel gezien altijd onderscheid maken tussen classificatie en informatie-extractie, zijn beide met elkaar verbonden en kunnen we door beide te combineren de resultaten die we bij verdere automatisering kunnen bereiken, nog verder verbeteren.


De voordelen van het gebruik van ML

 

In ons platform hebben we een aantal op ML gebaseerde microservices die we in onze oplossingen gebruiken.

Andere oplossingen gebruiken vaak sjablonen om documenten te herkennen of informatie te extraheren die altijd op dezelfde plek in een document staat.


 Helaas is dit niet erg schaalbaar. Voor elk nieuw type document moet u een nieuwe sjabloon maken, anders wordt er helemaal geen informatie uitgehaald.


Met een ML-gebaseerde oplossing kunt u het systeem "trainen" om de documenten te identificeren en te herkennen, net zoals een mens dat zou doen, en de informatie te interpreteren. 


Dit betekent dat een wijziging in de lay-out van een document, of een nieuw type document nog steeds herkend en verwerkt kan worden. Misschien met een lagere betrouwbaarheid, maar het is nooit alleen maar "waar" of "onwaar" zoals bij een oplossing op basis van sjablonen.


Bovendien kan een ML-gebaseerde oplossing ongestructureerde gegevens zoals e-mails, rechtstreekse berichten enz. verwerken en relevante informatie classificeren en extraheren zonder dat er sjablonen of complexe reguliere expressies nodig zijn.


Het gebruik van ML lijkt de juiste weg te zijn, omdat het veelvoorkomende problemen met traditionelere oplossingen oplost, zoals het gebruik van sjablonen en reguliere expressies om informatie te extraheren of documenten te classificeren op basis van eenvoudige trefwoorden.


Uitdagingen van het gebruik van ML

 

Hoewel een ML-gebaseerde aanpak enorme voordelen heeft, is het helaas niet perfect. Zoals altijd is de uitdaging bij elke ML-gebaseerde technologie de beschikbaarheid van invoergegevens om het model te trainen. 


Voordat u een ML-model kunt trainen, is het nodig om gegevens te annoteren die gebruikt kunnen worden als voorbeeld voor het ML-model om van te leren. Hoe meer invoergegevens beschikbaar zijn, hoe beter het verwachte resultaat kan zijn.


Het creëren van geannoteerde gegevens is echter zelden een leuke taak die alleen gedaan kan worden door iemand met de relevante domeinkennis. Zoals bij elk type training dat een mens krijgt, moet u getraind worden door iemand met kennis van zaken. Leren gebeurt aan de hand van voorbeelden, en dit is niet anders voor een typisch ML-model.


Een uitzondering hierop is Deep Learning, waarbij de machine kan leren van enorme hoeveelheden gegevens. Toch is dit voor de meeste informatie-extractiedoeleinden niet haalbaar vanwege het gebrek aan beschikbare gegevens en de enorme hoeveelheden verwerkingskracht die nodig zijn. 


Daarnaast is het vooral geschikt voor het soort problemen waarbij het mogelijk is om veel simulaties uit te voeren, bijvoorbeeld specifieke spellen (zie de voorbeelden van Deep Learning-oplossingen die een schaak- of Go-kampioen worden).


Een belangrijke uitdaging bij het gebruik van een ML-gebaseerde oplossing is het managen van de verwachtingen. Het is belangrijk om te weten dat:


  • Er moeten eerst invoergegevens worden aangemaakt voor de training van een eerste model.
  • Het model zal, net als ieder ander mens, fouten maken.
 Moeten we dus investeren in een ML-gebaseerd model?

Voortdurende training:

 

Gelukkig is er een manier om alle voordelen van het gebruik van een ML-gebaseerde aanpak te benutten en toch de startinspanning laag te houden en de efficiëntie voortdurend te verbeteren. Dit is waar continue training om de hoek komt kijken.


De mens in de lus:

 

Ten eerste moeten we duidelijk stellen dat we er weliswaar naar streven om het automatiseringsniveau te verhogen en vooral de hoeveelheid vervelend werk voor de mensen in de lus te verminderen.


 Wij willen onze tijd niet besteden aan het kopiëren van verschillende gegevensvelden of het classificeren van documenten. Ons hoofddoel is om Computer Aided AI-oplossingen te bieden, waarbij de ML-modellen proberen om zoveel mogelijk gegevens vooraf in te vullen. 


 Zo kan de persoon die de documenten verwerkt snel zien wat er vooraf is ingevuld, indien nodig correcties aanbrengen en ontbrekende gegevens toevoegen.


Dit is al een eerste optimalisatie in vergelijking met een volledig handmatige flow. De logische uitbreiding die vaak meteen geïmplementeerd kan worden, is het identificeren van die documenten waarbij het niet mogelijk was om alle gewenste informatie te extraheren en deze alleen aan een echte persoon voor te leggen voor verdere verwerking.

Er is echter een belangrijk verschil in de manier waarop dit wordt gecommuniceerd:


  • We hebben een AI-gebaseerde oplossing geïmplementeerd die u als agent probeert te helpen bij het uitvoeren van uw werk door een aantal vervelende taken weg te nemen, zodat u zich kunt concentreren op het eigenlijke werk. Bijvoorbeeld het helpen van onze klanten.
  • Wij hebben een AI-gebaseerde oplossing geïmplementeerd en het is uw taak om de gemaakte fouten te herstellen.
 

In het laatste geval plaatst het de AI-oplossing boven de mens in de lus in plaats van andersom, wat niet het geval is.


Continue training zegt u?

 

Een ML-project mag niet eindigen na een eerste Continue Training. Zoals vaak het geval is, begint een ML-project met het verzamelen van gegevens, het trainen van een model en dit vervolgens in productie te nemen wanneer een bepaald slagingspercentage is bereikt. In werkelijkheid resulteert dit in een afnemende prestatie na verloop van tijd als gevolg van veranderingen in de invoer.


idp


Zoals besproken, voegt de mens in de lus extra informatie toe en corrigeert fouten die het ML-model heeft gemaakt. U creëert dus eigenlijk extra gelabelde en gecorrigeerde gegevens die op hun beurt weer gebruikt kunnen worden om een getraind model verder te verbeteren.


Door rekening te houden met deze extra annotaties wordt het mogelijk om de kwaliteit van de getrainde ML-modellen voortdurend te verbeteren. Alle extra annotaties kunnen en zullen de kwaliteit van het model verder verbeteren. Dit creëert dus een positieve spiraal waarbij de hoeveelheid informatie die automatisch verwerkt kan worden, toeneemt.


Met deze aanpak creëren we per definitie een self-service oplossing waarbij nieuwe soorten documenten en gegevens aan de stroom kunnen worden toegevoegd en in nieuwe iteraties van de ML-modellen kunnen worden opgenomen.


Conclusies:

 

Het implementeren van ML in een IDP stroom heeft een aantal enorme voordelen om de documentverwerking te optimaliseren. En het grootste voordeel is dat het slechts een kleine verandering is om continue training van het platform mogelijk te maken. Dit betekent dat elke correctie of wijziging die door een gebruiker bijdraagt aan een beter presterende oplossing.


Neem contact met ons op

Bij Docbyte nemen we uw privacy ernstig. We gebruiken uw persoonlijke gegevens alleen om uw account te beheren en de producten en diensten te leveren die u bij ons hebt aangevraagd.

Heb je interesse om bij te dragen aan onze blog?

Docbyte

Kortrijksesteenweg 1144 B

9051 Gent

België

BTW: BE0880119503

Telefoon: +32 9 242 87 30

GDPR