Après avoir (re-)découvert les calculs de régression non linéaire et les méthodes de détection d’anomalies, nous allons parler aujourd’hui des algorithmes de classification automatique.
SOMMAIRE
Partager l’article
Là encore, nous constaterons que
- Ces algorithmes sont accessibles sans avoir fait un doctorat en mathématiques
- Ils peuvent grandement faciliter le travail de l‘expert-comptable
Prenons un exemple : l’audit de TVA pour identifier les montants de TVA qui n’ont pas été correctement récupérés. L’approche traditionnelle consiste à passer en revue l’ensemble des factures et à tenter d’identifier les éventuelles erreurs, facture après facture. Une approche un peu moins « laborieuse » consiste à d’abord regrouper les factures qui se « ressemblent » pour ensuite, analyser les raisons pour lesquelles une « famille » de factures s’est quelque peu éloignée du reste de la « population » des factures. Ces raisons sont peut-être tout à fait justifiées d’un point de vue fiscal mais dans le cas contraire, une erreur a sans doute été commise dans la déclaration de TVA.
Pour réaliser ces regroupements par « famille » de factures, il existe plusieurs méthodes de classification automatique. Le qualificatif « automatique » signifie que l’auditeur n’a pas besoin d’avoir de critère de classification a priori : c’est l’algorithme qui se charge « tout seul » d’effectuer les regroupements de factures similaires. Reste ensuite à interpréter les résultats et à comprendre pourquoi certaines familles de factures se différencient du lot. Cela reste le travail de l’auditeur. Cette compréhension le mènera éventuellement à l’identification d’erreurs.
Classification Ascendante Hiérarchique
Un des algorithmes de classification les plus utilisés est la classification ascendante hiérarchique (CAH pour les « initiés »).
Imaginons que nous souhaitions classifier 100 factures. Chacune de nos factures peut être décrites par au moins 2 variables : son montant hors taxes et son montant de TVA. Si nous représentons nos factures sur un graphe avec comme abscisse le montant HT et comme ordonnée le montant de la TVA, nous obtenons un nuage de 100 points.
L’objectif de l’algorithme de classification va être de rassembler ces points dans des « groupes » homogènes.
A l’initialisation, l’algorithme suppose que chaque facture est seule et isolée dans son groupe : nous avons donc 100 groupes constitués d’une seule facture.
L’algorithme calcule ensuite la distance entre chaque groupe. L’algorithme fusionne alors les deux groupes les plus proches : nous n’avons plus que 99 groupes, dont un groupe de deux factures.
L’algorithme va ensuite réitérer le calcul des distances entre les groupes et la fusion des deux groupes les plus proches.
Et ainsi de suite… jusqu’à aboutir à un certain nombre de groupes, fixé par l’auditeur. L’objectif est d’obtenir des groupes homogènes en nombre limité pour être exploitables. Dans notre exemple, pour obtenir des groupes de factures relatives à une même typologie de produits ou de services, une douzaine de groupes suffit généralement.
L’auditeur reprend alors la main pour comprendre et interpréter les « classes » de factures proposées par l’algorithme. L’audit est ainsi facilité par l’identification des classes « aberrantes » réalisée grâce à l’algorithme de classification.
Bien sûr, pour obtenir des résultats probants, il faut décrire le plus fidèlement possible les factures que nous souhaitons catégoriser. Les deux seules variables « montant HT » et « montant TVA » ne sont peut-être pas suffisantes pour représenter la facture de façon pertinente. Rajoutons alors une troisième variable comme le « taux de TVA » pour permettre d’identifier les familles de factures dont le taux de TVA a été mal saisi. Notre nuage de points sera alors en 3D : notre algorithme manipulera un tableau à 3 colonnes, mais quelle que soit la dimension de ce tableau, la technique de classement automatique restera la même.
Un peu perdu ? Prenons un exemple chiffré et déroulons l’algorithme CAH « à la main ».
Considérons 5 factures (F1, F2, F3, F4 et F5) avec 3 coordonnées dans notre espace à dimensions :
F1 (1, 2, 3)
F2 (4, 2, 5)
F3 (4, 3, 7)
F4 (8, 9, 6)
F5 (4, 2, 3)
Étape 0 : Calculons la distance entre F1 et F2
Distance (F1,F2) = Racine carrée ((1-4)^2+(2-2)^2+(3-5)^2) = 3,61
Si nous calculons toutes les distances inter-factures, nous obtenons les résultats suivants :
Distance (F1, F3) = 5,10
Distance (F2, F3) = 2,24
Distance (F1, F4) = 10,34
Distance (F2, F4) = 8,12
Distance (F3, F4) = 7,28
Distance (F1, F5) = 3,00
Distance (F2, F5) = 2,00
Distance (F3, F5) = 4,12
Distance (F4, F5) = 8,60
A chaque étape, les 2 objets les plus proches (ici les factures F2 et F5 séparées d’une distance de 2) peuvent être regroupés.
Étape 1 : Regroupons les factures F2 et F5 pour former le groupe G1
Avant de passer à l’étape suivante, il faut maintenant calculer les distances entre les nouveaux objets (F1, F3, F4 et G1) :
Distance (F1, G1) = min (distance (F1, F2) ; distance (F1, F5)) = min (3,61 ; 3,00) = 3,00
Distance (F3, G1) = min (distance (F3, F2) ; distance (F3, F5)) = min (2,24 ; 4,12) = 2,24
Distance (F4, G1) = min (distance (F4, F2) ; distance (F4, F5)) = min (8,12 ; 8,60) = 8,12
Ce qui fait qu’à la prochaine itération, ce sont les objets F3 et G1 que nous allons regrouper en une seule famille G2 puisque F3 et G1 ne sont distants que de 2,24.
Et ainsi de suite, nous réitérons à chaque fois ces calculs simples de distance et de minimum pour toujours regrouper les objets les plus proches.
Cet exemple d’audit de TVA assisté par un algorithme de classification n’est pas de la science-fiction. Il nous a récemment permis d’identifier plusieurs centaines de k€ d’erreurs dans les déclarations de TVA d’un de nos clients.
Comme pour la régression linéaire ou la détection d’anomalies, nul n’est besoin d’avoir un fort niveau en mathématiques pour utiliser l’algorithme CAH : pas de calculs d’intégrales triples ni de calculs différentiels ni même de résolution d’équation du 3ème degré. Juste des calculs de distances et de minima. Certes les calculs à la main vous ont peut-être paru fastidieux mais un petit programme informatique de 15 lignes à peine permettra de les automatiser sans problème.
J’espère que ces quelques exemples vous auront convaincu que la data science et même l’intelligence artificielle sont de nouveaux outils à la portée de tous les professionnels des métiers du chiffre.
J’espère surtout qu’ils vous donneront envie d’expérimenter ces nouvelles techniques et d’améliorer encore et toujours l’efficacité et la qualité de vos prestations.