DocbyteFacebookPixel
logo blanc de docbyte

Formation continue

[tta_listen_btn]
Formation continue

Table des matières

Dans notre plateforme de traitement intelligent des documents, nous utilisons la technologie de l'apprentissage automatique. Une approche basée sur l'apprentissage automatique permet de réduire l'effort de départ tout en améliorant continuellement l'efficacité. C'est là que la formation continue entre en jeu. 


Une description plus détaillée de l'IDP a été présentée dans un document de travail de la Commission européenne. article précédent. Pour résumer, quelles sont les principales étapes d'une solution de PDI :

Collection de documents : 

la numérisation, la collecte d'e-mails, la lecture de messages WhatsApp, etc. Cette étape comprend également des étapes en arrière-plan telles que le nettoyage automatisé, le débruitage, le recadrage, la rotation du document et l'application de l'OCR.


Classification : 

classer automatiquement les documents dans des catégories prédéfinies

Extraction : 

extraire automatiquement des informations pertinentes telles que des noms, des adresses, des numéros, etc.

Validation

La validation des informations est soit automatisée par l'utilisation d'intégrations avec des systèmes externes, soit par la présence d'un humain dans la boucle.

Extraction et interprétation

Après avoir traité, extrait et interprété les informations, celles-ci peuvent être acheminées vers la bonne destination, soit une personne, soit une application métier.

L'étape finale est la prise en charge du reste du flux d'informations par le processus commercial.

 
 

image 1


Les étapes 2 et 3 font largement appel aux technologies de ML. La raison en est la grande variété de documents d'entrée et de messages qui arrivent et doivent être traités. 


Bien que vous puissiez demander à vos fournisseurs d'envoyer leurs factures à une boîte aux lettres invoices@ et à vos clients d'envoyer leurs bons de commande à une boîte aux lettres PO@, il est impossible de tout filtrer à l'avance. 


Et même si un certain filtrage est déjà en cours, il est très probable que votre traitement interne nécessite encore un grand nombre de catégories et de traitements différents.


En tant qu'assureur, vous pouvez utiliser une boîte aux lettres générique claims@. Cependant, les demandes d'assurance automobile, d'assurance maladie, d'assurance construction et d'assurance vie sont souvent traitées par différents services et agents de votre organisation. 


La catégorisation des informations sera d'une aide précieuse à cet égard. En outre, la catégorisation des documents est importante pour décider des informations à extraire des données. 


Si le type de document est une carte d'identité, vous souhaitez extraire d'autres informations du document que lorsque vous traitez une facture ou une demande d'indemnisation.


La classification des informations s'applique à de multiples aspects des données entrantes.


  • De quoi s'agit-il ? Une demande d'indemnisation pour un accident de voiture ou une demande d'indemnisation pour une assurance-vie)
  • Quels sont les types de documents et d'informations avec lesquels nous travaillons ? Une carte d'identité, un passeport, une déclaration européenne d'accident, une facture, ...
 

L'extraction d'informations s'applique à :

Des informations très spécifiques à extraire : 

Un numéro de facture, le nom d'une personne ou d'une organisation, un identifiant unique, un code-barres, un montant sur un relevé bancaire, etc.

Informations contextuelles : 

l'identification de parties spécifiques d'un document, d'une terminologie ou d'une combinaison de ces éléments qui peuvent être utilisés pour catégoriser davantage ou affiner la catégorisation des informations.

Trouver des liens entre différentes valeurs de données dans un ou plusieurs documents. Par exemple, la date de naissance figurant sur la carte d'identité est-elle la même que celle figurant sur le certificat de naissance qui a été fourni, etc. dans le cadre de la formation continue ?

 

Bien que, d'un point de vue conceptuel, nous fassions toujours la distinction entre la classification et l'extraction d'informations, les deux sont liées et, en les combinant, nous pouvons améliorer les résultats que nous pouvons obtenir dans le cadre d'une automatisation plus poussée.


Les avantages de l'utilisation du ML

 

Dans notre plateforme, nous avons un certain nombre de microservices basés sur le ML que nous utilisons dans nos solutions.

D'autres solutions utilisent souvent des modèles pour reconnaître les documents ou extraire des informations qui se trouvent toujours au même endroit dans un document.


 Malheureusement, cette méthode n'est pas très évolutive. Pour chaque nouveau type de document, vous devrez créer un nouveau modèle, sinon aucune information ne sera extraite.


En utilisant une solution basée sur la ML, vous pouvez "former" le système à identifier et reconnaître les documents, comme le ferait un humain, et à interpréter les informations. 


Cela signifie qu'une modification de la mise en page d'un document ou un nouveau type de document peut toujours être reconnu et traité. Peut-être avec une fiabilité moindre, mais ce n'est jamais simplement "vrai" ou "faux" comme avec une solution basée sur des modèles.


En outre, une solution basée sur la ML peut traiter des données non structurées telles que des e-mails, des messages directs, etc. et classer et extraire des informations pertinentes sans qu'il soit nécessaire de recourir à un modèle ou à des expressions régulières complexes.


L'utilisation de la ML semble être la voie à suivre car elle permet de résoudre des problèmes communs avec des solutions plus traditionnelles telles que l'utilisation de modèles et d'expressions régulières pour extraire des informations ou classer des documents sur la base de simples mots-clés.


Défis liés à l'utilisation de la ML

 

Même si une approche basée sur la ML présente d'énormes avantages, elle n'est malheureusement pas parfaite. Comme toujours, le défi de toute technologie basée sur la ML est la disponibilité des données d'entrée pour entraîner le modèle. 


Avant de pouvoir entraîner un modèle de ML, il est nécessaire d'annoter les données qui peuvent servir d'exemple pour l'apprentissage du modèle de ML. Plus les données d'entrée sont nombreuses, meilleurs sont les résultats escomptés.


Cependant, la création de données annotées est rarement une tâche amusante qui ne peut être réalisée que par une personne possédant l'expertise du domaine concerné. Comme dans tous les types de formation qu'un humain reçoit, vous devez être formé par quelqu'un de compétent. L'apprentissage se fait par l'exemple, et il en va de même pour un modèle ML typique.


L'apprentissage en profondeur (Deep Learning) constitue une exception : la machine peut apprendre à partir de grandes quantités de données. Cependant, cela n'est pas réalisable pour la plupart des objectifs d'extraction d'informations en raison du manque de données disponibles et des énormes quantités de puissance de traitement nécessaires. 


En outre, il est particulièrement adapté au type de problèmes pour lesquels il est possible d'effectuer un grand nombre de simulations, par exemple des jeux spécifiques (voir les exemples de solutions de Deep Learning devenant un champion d'échecs ou de go).


La gestion des attentes constitue un défi important dans le cadre de l'utilisation d'une solution basée sur la ML. Il est important de savoir que :


  • Il nécessite un effort initial de création de données d'entrée pour la formation d'un modèle initial.
  • Comme tout être humain, le modèle commettra des erreurs.
 Faut-il alors investir dans un modèle basé sur la ML ?

Formation continue :

 

Heureusement, il existe un moyen de récolter tous les avantages d'une approche basée sur la ML tout en maintenant l'effort de départ à un faible niveau et en améliorant continuellement son efficacité. C'est là que la formation continue entre en jeu.


L'homme dans la boucle :

 

Tout d'abord, il convient d'indiquer clairement que notre objectif est d'augmenter le niveau d'automatisation et surtout de réduire la quantité de travail fastidieux pour les humains dans la boucle.


 Nous ne voulons pas passer notre temps à copier différents champs de données ou à classer des documents. Notre objectif principal est de fournir des solutions d'IA assistée par ordinateur, où les modèles de ML tentent de pré-remplir autant de données que possible. 


 Ainsi, la personne qui traite les documents peut rapidement jeter un coup d'œil sur ce qui a été pré-rempli, apporter des corrections si nécessaire et ajouter les données manquantes.


Il s'agit déjà d'une première optimisation par rapport à un flux manuel complet. L'extension logique, qui peut souvent être mise en œuvre immédiatement, consiste à identifier les documents pour lesquels il n'a pas été possible d'extraire toutes les informations souhaitées et à ne présenter ces documents qu'à une personne réelle pour la suite du traitement.

Il existe toutefois une distinction importante dans la manière dont ces informations sont communiquées :


  • Nous avons mis en place une solution basée sur l'IA qui tente de vous aider, en tant qu'agent, à effectuer votre travail en vous déchargeant de certaines tâches fastidieuses afin que vous puissiez vous concentrer sur le travail à accomplir. Par exemple, aider nos clients.
  • Nous avons mis en œuvre une solution basée sur l'IA et c'est à vous de réparer les erreurs qu'elle a commises.
 

Dans ce dernier cas, la solution d'IA est placée au-dessus de l'humain dans la boucle, et non l'inverse, ce qui n'est pas le cas.


Formation continue, dites-vous ?

 

Un projet de ML ne devrait pas se terminer après une formation continue initiale. Comme c'est souvent le cas, un projet de ML commence par la collecte de données, l'entraînement d'un modèle, puis son déploiement en production lorsqu'un certain taux de réussite est atteint. En réalité, cela se traduit par une dégradation des performances au fil du temps en raison des modifications apportées aux données d'entrée.


idp


Comme nous l'avons vu, l'humain dans la boucle ajoute des informations supplémentaires et corrige les erreurs commises par le modèle ML. Ainsi, vous créez en fait des données étiquetées et corrigées supplémentaires qui peuvent à leur tour être utilisées pour améliorer tout modèle formé.


La prise en compte de ces annotations supplémentaires permet d'améliorer en permanence la qualité des modèles ML formés. Toutes les annotations supplémentaires peuvent améliorer et amélioreront encore la qualité du modèle. Cela crée donc une spirale positive dans laquelle la quantité d'informations pouvant être traitées automatiquement augmente.


En utilisant cette approche, nous créons par définition une solution en libre-service où de nouveaux types de documents et de données peuvent être ajoutés au flux et être inclus dans les nouvelles itérations des modèles de ML.


Conclusions :

 

La mise en œuvre de la ML dans un flux IDP présente d'énormes avantages pour l'optimisation du traitement des documents. Le plus grand avantage est qu'il suffit d'un petit changement pour permettre une formation continue de la plateforme. En d'autres termes, chaque correction ou changement apporté par un contribue à une solution plus performante.


Nous contacter

Chez Docbyte, nous prenons votre vie privée au sérieux. Nous n'utiliserons vos informations personnelles que pour gérer votre compte et vous fournir les produits et services que vous nous avez demandés.

Vous souhaitez contribuer à notre blog ?

Docbyte

Kortrijksesteenweg 1144 B

9051 Gent

Belgique

TVA : BE0880119503

Téléphone : +32 9 242 87 30

GDPR