Le Lab50 lance une série sur la data science pour vous aider à l’appréhender de manière pratique grâce aux éclairages d’experts et de data scientists travaillant au sein de cabinet d’expertise-comptable et de commissariat aux comptes.
Prêt à jouer avec les algorithmes ? Jean-Michel Denys, membre du GT Audit Informatique de la CRCC de Paris et du Lab50, va faire chauffer vos méninges avec trois cas pratiques comptables avec Excel pour mieux comprendre la logique mathématique derrière la data science.
SOMMAIRE
Partager l’article
Force est de constater que le buzz de l’intelligence artificielle (IA) et du machine learning alimente abondamment les publications des professions comptables. Les titres sont accrocheurs : « Quels sont les enjeux de l’IA pour l’expertise comptable ? », « Quelles opportunités pour l’audit ? », « Machine learning : menace ou opportunité ? », « L’expertise comptable augmentée », « L‘audit 4.0 », « La nouvelle ère de l’IA » etc, etc, etc… Les dossiers de presse se multiplient, les conférences aussi, mais il ressort de ces lectures très peu d’informations exploitables.
Par contre, ce qui semble admis à chaque fois, c’est que :
- les métiers de commissaire aux comptes ou d’expert-comptable vont radicalement changer, voire disparaître, à cause de l’IA ;
- qu’il faut faire l’acquisition de nouveaux outils ;
- qu’en plus, il faudra recruter des informaticiens…
Pour la plupart, ces lectures sont peu instructives mais totalement anxiogènes. Les titres parlent d’eux-mêmes : « quel avenir pour les cabinets d’audit ? », « quels impacts sur les métiers de l’audit ? », « quel devenir pour les collaborateurs ? » etc, etc.
En fait, tout cela témoigne de la méconnaissance du sujet traité.
Pour dédramatiser le sujet, j’ai préparé une série de 3 posts pour montrer que :
- Nul n’est besoin d’avoir fait un doctorat en mathématiques pour faire de l’analyse de données. Un expert-comptable est tout à fait à même de bâtir des modèles prédictifs ou de détection d’anomalies avec ses propres connaissances mathématiques ;
- Nul n’est besoin d’outils informatiques très sophistiqués pour mettre en œuvre ce type d’analyse. Dans la très grande majorité des cas, Excel suffit pour des volumétries inférieures au million de lignes ;
- Quand bien même de très fortes volumétries de données exigeraient la mise en œuvre d’algorithmes de calcul à la place d’Excel, nul n’est besoin d’avoir fait une école d’informatique pour programmer ces algorithmes.
A travers ces trois exemples d’application dans le domaine comptable, j’espère pouvoir donner un peu plus de contenu à ce que peut être l’analyse de données appliquée à l’expertise-comptable. J’espère surtout pouvoir démystifier ce sujet. L’intelligence artificielle n’est pas une révolution : c’est une évolution normale qui est tout à fait gérable par les professionnels en place.
Pour notre premier exemple, nous allons nous intéresser aux charges d’exploitation d’une PME. Imaginons qu’un auditeur externe soit amené à se prononcer sur la pertinence du business plan de la PME, notamment des prévisions de ses charges d’exploitation. Pour challenger les prévisions de la PME, l’auditeur demande le montant des charges sur les 5 dernières années. En l’occurrence, ces charges ont été croissantes sur ces 5 années : 500k€, il y a 5 ans, puis 580k€, 650k€, 690k€ jusqu’à atteindre 740k€ l’année dernière.
Si vous tracer le graphique représentant l’évolution des charges en fonction des années écoulées, vous verrez que ces points sont vaguement disposés sur une droite que vous devinez. Il existe une méthode rigoureuse pour tracer cette droite qui s’appelle la droite de régression. Cette méthode de calcul fait partie d’une grande famille de méthodes, dites de régressions, qui peuvent être soit linéaire, soit polynomiale, soit logarithmique ou même exponentielle. Ces méthodes permettent de trouver la courbe (une droite, une courbe polynomiale etc) qui passe au plus près de l’ensemble des points.
En l’espèce, la représentation graphique des charges d’exploitation nous permet de penser qu’une droite fera l’affaire. Nous allons donc utiliser une méthode de régression linéaire appelée aussi méthode des moindres carrés. Je suis certain que beaucoup d’entre vous utilisent cette méthode : ceux-là font déjà un peu de « data science » sans le savoir.
Pour les autres, je rappelle rapidement la méthode des moindres carrés. Si nous notons xi les valeurs des années i : x1=1, x2=2, x3=3, x4=4 et x5=5. Nous noterons également X, l’ensemble des valeurs x1, x2, x3, x4 et x5. Si nous notons yi les montants des charges d’exploitation passées : y1=500, y2=580, y3=650, y4=690 et y5=740. Nous noterons Y, l’ensemble des valeurs y1, y2, y3, y4 et y5. Alors le graphique représentant les yi en fonction des xi peut s’approcher par une droite d’équation y=ax+b avec :
a = covariance (X,Y) / variance (X) et b = moyenne des yi – a x moyenne des xi
A partir de là, différentes options s’offrent à vous pour calculer a et b…
a = [(x1y1+x2y2+x3y3+x4y4+x5y5)/5 – (x1+x2+x3+x4+x5)/5 * (y1+y2+y3+y4+y5)/5] / [(x1^2+x2^2+x3^2+x4^2+x5^2)/5 – ((x1+x2+x3+x4+x5)/5)^2]
Le calcul numérique donne dans notre cas : a = (10 070/5 – 3*632) / (55/5 -3^2) = 59 et b = 632 – 59*3 = 455
Sur ces bases, nous pouvons donc « prévoir » les charges de l’année prochaine (la 6ème année) : 59*6+455 = 809 k€. Cette valeur permettra à l’auditeur de challenger le business plan proposé par la PME.
a = covariance.pearson (xi ; yi) / var.p.n (xi) et b = moyenne (yi) – a * moyenne (xi).
Une autre fonction statistique d’Excel (« droitereg ») fournit même directement le couple (a,b) sous forme d’une matrice ligne où il est possible de venir récupérer les valeurs de a et b grâce à la fonction index :
a = index (droitereg (yi ; xi) ;1 ;0) et b = index (droitereg (yi ; xi) ;1 ;2)
Voici un exemple d’algorithme des moindres carrés :
====== Algorithme des moindres carrés ====
Variable a en double
Variable b en double
Variable xsomme en double
Variable ysomme en double
Variable xysomme en double
Variable xxsomme en double
Variable n en entier
Variable i en entier
Début
n=5
i=0
xsomme=0
ysomme=0
xysomme=0
xxsomme=0
TantQue i=<n
i=i+1
xsomme = xsomme +xi
ysomme = ysomme +yi
xysomme = xysomme +xi*yi
xxsomme = xxsomme +xi*xi
FinTantQue
a = (n*xysomme – xsomme*ysomme) / (n*xxsomme – xsomme*xsomme)
b = ysomme – a*xsomme
Fin
===========================
Si vous avez pris le temps de faire le calcul à la main, vous n’aurez aucune difficulté à comprendre cet algorithme sans pour autant avoir fait une école d’informatique ! Et la programmation de cet algorithme dans le langage informatique de votre choix permettra de faire la régression linéaire sur un très grand nombre de données.
Votre série de points ne ressemble pas à une droite d’équation y=ax+b ? Eh oui, la vie serait trop simple, si tout pouvait être modélisé par une droite. Par contre, vous pouvez sans doute approcher le nuage de points avec une régression non linéaire :
- logarithmique : y=a lnx + b
- polynomiale : y = ai x^i + b
- puissance : y = a x^b
- exponentielle : y = a exp(bx)
Pas de panique, là encore, Excel permet de calculer tout cela de façon automatique : pour cela, tracer le nuage de points, faites apparaître la courbe de tendance (qui, par défaut, est proposée par Excel sous la forme d’une droite de régression) avec la fonction «dispositions rapides du graphique », et avec un clic droit sur la courbe de tendance, faites apparaître la régression non linéaire de votre choix. En plus de la courbe de tendance, Excel affiche l’équation de la courbe et calcule le coefficient R2 de détermination. Plus R2 est proche de 1, meilleure sera la qualité prédictive de votre courbe de tendance. Vous pouvez ainsi prévoir l’avenir en utilisant l’équation de la courbe de tendance qui a le meilleur coefficient R2.
En conclusion, à travers cet exemple, vous venez de réaliser que vous êtes déjà un peu « data scientist » et que vous disposez des ressources et des outils nécessaires pour mettre en œuvre des analyses et des extrapolations de données.
Trop facile mon exemple ? Les modèles de régression constituent pourtant l’un des trois piliers de l’analyse de données. Je vous présenterai prochainement les deux autres piliers : la classification automatique et la détection d’anomalies. Vous pourrez ainsi constater que ces concepts restent accessibles à tout bon expert-comptable ou auditeur qui se respecte.
Article initialement publié sur le compte LinkedIn de Jean-Michel Denys.