De sluier oplichten: Mysteries van machinaal leren

Kunstmatige intelligentie (AI) en machinaal leren (ML) zijn de nieuwe hippe technologieën. Toch bestaat AI al een tijdje.

Bij Docbyte hebben we op regels gebaseerde AI gebruikt om het sorteren van documenten in categorieën te automatiseren voor onze digitale postkamer.

Wat ML betreft, hier wordt het interessant, want de potentiële voordelen zijn enorm voor elk onboarding- of postkamerproces.

WHITEPAPER - INTELLIGENTE POSTKAMER

Een Intelligent Mailroom (IM) is een technologie die snel alle inkomende documenten in elk formaat verwerkt en ze vervolgens distribueert naar de relevante afdelingen binnen uw organisatie. Het ondersteunt activiteiten, bespaart tijd en voorkomt fouten en verliezen. De overstap naar een Intelligent Mailroom zal uw operationele uitmuntendheid verbeteren en uw reactievermogen vergroten.

Downloaden

Maar voor de meeste mensen is machine learning net zo mysterieus als gebouwen in de verte op een donkere, mistige dag.

Hun wazige contouren geven ons misschien een algemeen idee van waar het om gaat, maar het onderscheiden van een ziekenhuis van een kantoorgebouw of het tellen van de ramen is alleen mogelijk door beter te kijken.

Hetzelfde geldt voor machinaal leren. Aangezien deze technologie steeds belangrijker wordt en zich een weg baant in ons dagelijks leven, is het hoog tijd om een tipje van de sluier op te lichten en enkele mysteries eromheen te ontrafelen.

Machinaal leren:

Het wereldberoemde Merriam-Webster woordenboek definieert machinaal leren als "het proces waarbij een computer zijn eigen prestaties kan verbeteren door voortdurend nieuwe gegevens in een bestaand statistisch model op te nemen.,

Wikipedia wordt technischer: "Algoritmen voor machinaal leren bouwen een wiskundig model op basis van voorbeeldgegevens, bekend als 'trainingsgegevens', om voorspellingen of beslissingen te maken zonder dat ze expliciet geprogrammeerd zijn om de taak uit te voeren."

Beide definities kloppen precies en benadrukken de belangrijkste kenmerken van ML:

Een wiskundige en op statistiek gebaseerde methode
Weinig tot geen menselijke tussenkomst bij het trainen van het model
Zelfverbeteringsmogelijkheden van het algoritme

ML vs AI:

Een uitstapje naar het gebied van machine learning kan al snel tot verwarring leiden, omdat het onderscheid tussen gelijksoortige technologische concepten - bijvoorbeeld tussen ML en AI - vaag kan zijn.

Eenvoudig gezegd is AI de overkoepelende term voor de theorie en ontwikkeling van computersystemen die taken uitvoeren waarvoor normaal gesproken menselijke intelligentie nodig is, d.w.z. intelligent gedrag in computers proberen te simuleren. Op deze basis is ML een hulpmiddel om AI te creëren.

Twee soorten machinaal leren:

De twee meest voorkomende en belangrijkste benaderingen voor het maken van een model met machinaal leren zijn supervised en unsupervised.

1. Onder toezicht:

Dit type ML kan worden vergeleken met een leerling-leraar relatie. De leraar, een menselijke programmeur, levert input waaruit de leerling, het ML-model, onderliggende patronen leert afleiden.

De leerling past vervolgens het geleerde toe op nieuwe oefeningen en past zijn model aan telkens als de antwoorden fout zijn. Hoe meer voorbeelden van gegevens de leerling krijgt, hoe beter hij wordt.

Twee voorbeelden van dit type zijn classificatie en regressie.

Classificatie:

U geeft uw algoritme itemkenmerken en een reeks categorieën waarin deze items kunnen worden gesorteerd.

Het algoritme zoekt vervolgens naar patronen in hoe deze itemkenmerken zijn gecategoriseerd, zodat het ook nieuwe items correct kan categoriseren op basis van zijn bevindingen.

Als bloemen met een bepaalde hoogte en kleur bijvoorbeeld in een bepaalde regio groeien, dan moeten nieuwe bloemen met die kenmerken in de categorie vallen die in deze regio kunnen groeien.

Regressie:

Analyseert de relatie tussen variabelen en hun effect op bepaalde kenmerken.

Wat is bijvoorbeeld de invloed van de kleur van een bloem op de prijs? Door deze causale effecten te ontdekken, kan het algoritme nauwkeurig de prijs bepalen voor nieuwe bloemen.

2. Onbewaakt:

Terwijl modellen met supervisie een vorm van menselijke interactie en vooraf gedefinieerde regels met zich meebrengen, hebben modellen zonder supervisie dat niet.

Gegevens worden aan een algoritme gegeven, dat vervolgens zelf patronen en kenmerken uitzoekt. Opnieuw twee voorbeelden:

Clusteren:

In plaats van het algoritme te vragen om artikelkenmerken te sorteren in vooraf gedefinieerde categorieën, geeft u gegevens en laat u het algoritme de categorieën definiëren waarin het de artikelkenmerken sorteert.

Onderwerp Modellering:

Net als bij clusteren halen algoritmen voor onderwerpmodellering een vooraf gedefinieerd aantal onderwerpen uit de gegevens die ze hebben gekregen.

Achter de Buzz:

Machine learning is een onderwerp dat bol staat van de modewoorden, zonder dat mensen altijd weten wat ze betekenen. Wij leggen er een paar uit:

Gegevensverwerking

Waarschijnlijk het meest gehoorde en verwarrende modewoord. In tegenstelling tot wat de naam doet vermoeden, gaat datamining niet over het opgraven van nieuwe gegevens uit verschillende systemen.

Het is eigenlijk graven door uw bestaande berg gegevens om de meest bruikbare informatie te vinden, waardoor het meer lijkt op gegevens filteren dan op mijnbouw.

Neuraal Netwerk

Een algoritme voor machinaal leren dat de werking van het menselijk brein nabootst. In wezen is het een netwerk van neuronen waarbij elke neuron een mogelijke parameter vertegenwoordigt die de uitkomst van een analyse door het netwerk beïnvloedt. Op basis van training kunnen parameters worden in- of uitgeschakeld om de invoer in de juiste uitvoer om te zetten.

Diep Leren of DL

Een andere overkoepelende term voor technieken en modellen die complexe problemen aanpakken waarvoor een enorme hoeveelheid gegevens nodig is. Met deep learning is het de bedoeling om neurale netwerken te gebruiken om menselijk denken te simuleren.

Een diep neuraal netwerk onderscheidt zich van andere neurale netwerken door zijn enorme omvang. Terwijl een normaal netwerk bijvoorbeeld 1000 neuronen kan hebben, lopen de neuronen in deep learning-scenario's meestal in de honderdduizenden.

Het nieuwste geavanceerde model voor natuurlijke taalverwerking (zie hieronder) van Google heeft bijvoorbeeld 340 miljoen parameters. Dit maakt deep learning natuurlijk behoorlijk complex en vereist een aanzienlijke inspanning om te implementeren.

Aan de andere kant produceren diepe neurale netwerken veel betere resultaten dan andere ML-benaderingen.

BijvoorbeeldIn ruil voor extra complexiteit krijgen we het vermogen om taal extreem goed te interpreteren via algoritmen.

Dit betekent dat we de documentverwerking nu tot een ongekend niveau kunnen automatiseren. DL blinkt ook uit in zijn vermogen om ongestructureerde gegevens, zoals afbeeldingen en video, correct te analyseren.

Dit maakt een nog hoger automatiseringsniveau mogelijk, waardoor we geavanceerde zoekmogelijkheden voor afbeeldingen, gezicht-ID, beeldclassificatie en nog veel meer krijgen.

Natuurlijke taalverwerking of Nlp

Een overkoepelende term die alle technieken omvat die betrekking hebben op de interacties tussen computers en menselijke/natuurlijke talen.

Het doel is om machines te leren menselijke taal te lezen, ontcijferen, begrijpen en begrijpen. Recente ontwikkelingen op het gebied van deep learning hebben algoritmen gecreëerd die precies dat kunnen.

Dit opent de deur naar het gebruik van ML om ongestructureerde tekst te taggen, labelen en er informatie uit te halen.

Chat- en stembots, callcenteranalyses en meer hebben NLP allemaal geholpen om bestaande processen verder te automatiseren en nieuwe te creëren die de efficiëntie verbeteren.

Patroonherkenning

Als het aankomt op het onderscheiden van patronen in grote hoeveelheden gegevens, hebben kunstmatige intelligentie en machinaal leren geen gelijke.

Ze kunnen correlaties ontdekken die mensen normaal gesproken zouden missen of nooit zouden kunnen zien vanwege de enorme hoeveelheid beschikbare informatie.

Patroonherkenning is vooral waardevol voor uw postkamer, omdat u hiermee gegevens kunt extraheren, ongeacht de lay-out die u gebruikt.

Veel postkamers gebruiken al een vorm van AI om informatie te extraheren, maar dit is vaak beperkt tot vooraf gedefinieerde sjablonen.

Zelfs beperkte veranderingen aan de lay-out kunnen een goede werking in de weg staan. Postkamers met patroonherkenning, zoals Docbytekan elk document dat wordt ingevoerd, ongeacht de lay-out, extraheren en correct categoriseren.

Waarom Machine Learning gebruiken?

Het doel van ML is om geavanceerde statistische verbanden en patronen te vinden. Hoewel we dat ook met vooraf gedefinieerde regels kunnen doen, is het proces gewoon veel moeilijker, tijdrovender en uiteindelijk niet zo nauwkeurig.

Zodra het algoritme van een ML-model geprogrammeerd is, leert het bovendien vanzelf, wat minder werk betekent voor de ontwikkelaar.

Nauwkeurigheid is een ander voordeel van technologie. In één use case gaven regelgebaseerde modellen ons ongeveer 50 procent correcte antwoorden, terwijl machine learning 80 procent behaalde! ML-algoritmen kunnen patronen ontdekken die mensen gewoon niet kunnen ontdekken.

Robotische en intelligente procesautomatisering:

Traditioneel automatiseren ontwikkelaars processen door een overzicht van taken te maken en vervolgens de benodigde stappen voor automatisering te koppelen en te scripten.

Met robotische procesautomatisering (RPA), ontwikkelt een computer deze actielijst zelf door te kijken hoe gebruikers de taken uitvoeren. Het is dus mogelijk om uw bedrijfsstromen te automatiseren zonder menselijke interactie.

Mensen bepalen echter nog steeds wanneer en welk proces RPA moet uitvoeren. Intelligente procesautomatisering (IPA) breidt RPA verder uit door AI- en ML-mogelijkheden toe te voegen, zoals zoeken naar afbeeldingen, stemherkenning en gezichtsherkenning.

Deze nieuwe technologieën bieden veel mogelijkheden om de automatisering tot nooit eerder geziene niveaus op te voeren.

Bijvoorbeeld systemen die automatisch bedrijfssjablonen invullen, zoals facturen op basis van informatie uit gedigitaliseerde documenten.

De toekomst van ML bij Docbyte:

Modellen met handmatig gedefinieerde regels kunnen prima werken. Maar naarmate de problemen die we met AI willen oplossen complexer worden, merken we dat we hun grenzen hebben bereikt.

Ingewikkelde use cases vereisen duizenden regels, en die met de hand coderen is gewoon een onnodig titanenwerk.

Machine learning kan helpen om het werk te verminderen, dus het zal zeker een veel prominentere plaats innemen in toekomstige AI-projecten.

Dat gezegd hebbende, is het nog niet gedaan met de regels. ML vereist nog steeds een aanzienlijke investering in tijd en moeite, dus voor basisproblemen blijven regels, nou ja, regels.

Machine-leren in een digitale postkamer:

Als we kijken welk type ML het meeste potentieel heeft voor Docbyte, lijken classificatie en onderwerpmodellering de beste keuze.

Onze digitale postkamerintegreert bijvoorbeeld al classificatiealgoritmen om het sorteren van e-mail in verschillende categorieën efficiënter te maken.

Met name in complexe sorteergevallen zijn we afgestapt van sorteren op basis van regels en hebben we machine learning geïntroduceerd om de snelheid en nauwkeurigheid van het categoriseren te verbeteren.

Onboarding versnellen met ML:

Onderwerpmodellering haalt gemeenschappelijke onderwerpen uit documenten van onze klanten en maakt een betere en snellere classificatie van nieuwe bestanden mogelijk, waardoor informatie gemakkelijker kan worden opgeslagen en teruggevonden.

We zijn dit soort ML zelfs al aan het implementeren om het digitale onboardingproces voor klanten te verbeteren, omdat het aanvragen veel sneller kan afhandelen.

Andere toepassingen van machine learning helpen ook om het onboardingproces vlotter te laten verlopen.

Classificatiealgoritmen in combinatie met OCR helpen ons bijvoorbeeld om gegevens uit formulieren te halen, zoals rijbewijzen of identiteitsbewijzen bij het aanvragen van een lening.

Via een app voor mobiel vastleggen kunnen klanten ter plekke een foto van hun ID maken, waarna machine-learningtechnieken zoals NLP helpen bij het extraheren van gegevens zoals de naam, het adres en meer.

De informatie wordt dan naar de juiste systemen gestuurd en kan de trigger of basis zijn voor verdere automatisering.

VRAAG ONZE WHITE PAPER AAN OVER INTELLIGENTE POSTKAMERS

Frederik Rosseel

Hallo, ik ben Frederik, CEO van Docbyte. Ik heb jarenlang baanbrekend werk verricht op het vlak van digitale archivering en gekwalificeerde vertrouwensdiensten. Die onschatbare ervaring verwerk ik in mijn teksten. Mijn doel is om bedrijven te helpen robuuste gegevensbeveiliging en naadloze naleving van de regelgeving te bereiken door middel van kristalheldere inzichten.

Contact

Bij Docbyte nemen we uw privacy ernstig. We gebruiken uw persoonlijke gegevens alleen om uw account te beheren en de producten en diensten te leveren die u bij ons hebt aangevraagd.

De sluier oplichten: De mysteries van Machine Learning blootleggen

Inhoudsopgave