Revoir la quantité à l’aune de la qualité

Interview réalisé avec Christian Hartz, directeur des opérations d’Infhotep. Il est spécialiste de l’architecture technique des systèmes d’information.

La valeur de la donnée est potentielle. Pour la concrétiser, il faut réussir à l’exploiter, en l’état contraire, on obtient une perte de qualité de la donnée et un éparpillement favorisant la pollution. Essayons de trouver des solutions pour éviter ce gâchis et tenter de répondre à la question suivante : comment exploiter correctement et écologiquement la donnée ?

Comment valoriser la donnée pour éviter le gâchis ayant un impact sur la bonne santé des entreprises ?

CHA : J’utiliserai le terme de mise en cohérence des informations plutôt que “d’assemblage” de la donnée. La mise en cohérence des informations est la capacité de mettre en lien des données de différentes sources.

La problématique que l’on rencontre souvent sur ce sujet-là, est le rapprochement des identifiants. Par exemple, deux applications qui gèrent des clients. Comment faire le lien entre les données de ces deux applications ? L’identifiant pour le premier sera le nom et le prénom. Pour le second, ce sera l’adresse mail. Là se trouve l’impact sur ce que l’on appelle l’écologie de la donnée qui voudrait qu’on ait qu’une seule fois l’information à un endroit donné pour éviter de la dupliquer, de la démultiplier et de la décorréler. En réalité, on a plusieurs fois la même information dans son système.

C’est toute la problématique liée à cette maîtrise de ce qui identifie la donnée ainsi que de toutes les règles de réconciliation de ces informations pour donner une vue à 360 degrés sur n’importe quel sujet.

Le CRM est un élément important. Dans cette illustration se pose la question de la réconciliation des données sur les agents ou les collaborateurs d’une entreprise puisqu’ils sont à la fois dans le SIRH, dans l’intranet et dans beaucoup d’autres outils différents. De cette problématique de multiplication d’une même information se trouve l’annuaire d’entreprise qui est un vrai casse-tête : les données sont à quinze endroits différents, comment fait-on pour les réconcilier ? Et au-delà de pouvoir faire le lien entre elles, il y a le périmètre de couverture de ces informations qui va avoir un impact. En effet, il y a souvent des bases de données où se trouvent 50 % des données et une autre base de données où se trouve 60 % des données. Il y a 20 % en commun et la question se pose de savoir ce qu’on fait du reste.

Comment les DSI répondent à ces problématiques de multiplication des informations dans les systèmes d’information ?

Sur la problématique d’identification de la donnée, ils essaient de le faire. Sauf qu’ils ne couvrent en général qu’un aspect puisque le DSI est préoccupé pour donner des accès aux ressources informatiques en premier lieu.

Il y a beaucoup d’organisation qui rencontrent d’autres problématiques. Par exemple, s’agissant d’un intervenant externe ponctuel, comment lui donne-t-on accès ? La première approche en général est la centralisation de l’ensemble des collaborateurs dans le SIRH, puis la synchronisation pour alimenter l’annuaire d’entreprise. Mais pour quelqu’un qui fait une seule intervention, un sous-traitant, un vacataire, celui-là n’est pas dans cette optique.

C’est un premier point, qui est assez emblématique des problématiques de réconciliation d’informations, sur l’identité des individus.

Cette nécessité de réconciliation des informations ne concernerait que les données personnelles ?

Non, il est possible de l’étendre à tous les autres types de données.

Un cas que j’ai pu traiter est le référentiel des structures immobilières d’une organisation. Certains nomment un bâtiment du nom de la rue, d’autres lui donnent un code ou encore la référence du cadastre. Là aussi, il faut réussir à refaire le lien entre ces informations-là. Il y a également des différences sur la définition des concepts métiers. Les structures immobilières sont pour certains un site géographique, pour d’autres les différents bâtiments d’un site. Cela pose des questions sur la granularité des données qui sont mises en cohérence dans ce cas.

La réconciliation de deux informations peut-elle être créatrice d’une nouvelle information ?

C’est ce qu’on cherche à faire depuis très longtemps pour alimenter les systèmes d’information décisionnelle. On définit toutes les règles qui viennent réconcilier ces informations pour les mettre en cohérence et reconstituer une donnée supplémentaire qui est beaucoup plus riche, ou du moins plus complète.

Mais c’est un sujet qui a 30 ans. Aujourd’hui, la difficulté n’est pas que l’on soit encore en recherche de solutions. Les principes sont là. La difficulté est que c’est perpétuellement en mouvement. Les systèmes informatiques, les systèmes qui permettent de reconnaître ou d’identifier un objet, une chose ou une information changent en permanence et cela implique très souvent les règles de réconciliation.

Que faudrait-il mettre en place pour que ces règles se stabilisent dans le temps ?

Il y a tout ce qui touche à la gouvernance de la donnée. Notamment sur la gestion de la sémantique ou de la définition de la donnée. Globalement, on définit pour chaque donnée, quelles informations elle porte et à quoi cela correspond. Puis, on essaie de reconstituer un modèle de donnée d’un point de vue métier, avec un sens métier. Ensuite, on indique dans quel système informatique cette information se trouve. Enfin, on définit qui est propriétaire de cette information.

Si on rejoint l’écologie de la donnée, il faudrait que les entreprises prennent le temps de redéfinir les notions et les concepts qu’ils rencontrent dans leur système d’information pour reconstituer ce modèle (qu’on qualifie normalement de modèle conceptuel ou modèle métier des données) auquel on va associer différentes sources d’alimentation pour ensuite pouvoir arbitrer celle qui est maître et celle qui ne l’est pas, et alors définir les règles de réconciliation.

Avez-vous pu mettre cette technique en place dans une de vos missions ?

On met en place ce qu’on appelle du rapprochement. Tous les projets décisionnels qui touchent à la mise en place de référentiel de données ont cette préoccupation-là.

On a réalisé une mission pour le Conseil Général du Val d’Oise. Le cas pratique concernait un agent ou un membre du personnel arrivant dans le conseil départemental. Il fallait lui donner accès à des ressources (ordinateur, téléphone, locaux…). Se pose la question de l’attribution des habilitations et des autorisations d’accès au système d’information.

Souvent, ce qui est initiateur c’est la création de la fiche de l’individu dans le système de gestion de paie. Mais cela pose aussi un problème. La création de fiche de l’individu dans un système de gestion de paie est en général créée avant la première paye (autour du 20–25 du mois). Or l’agent arrive souvent en début de mois et a besoin d’accéder aux ressources à ce moment-là…

Il est donc nécessaire de revoir tout le processus de collecte de cette information pour fiabiliser la récupération de la donnée et son entrée effective dans le système informatique. Il faut maîtriser complètement la chaîne, retravailler sur le vocabulaire, la sémantique, le glossaire d’entreprise, afin d’élaborer ce qu’on appelle le « méta-dictionnaire ».

Quelles autres solutions pour éviter le gâchis avec la multiplication des données ?

Ce qui manque réellement dans les organisations, ce sont des personnes en charge de la gouvernance de la donnée. Responsabiliser certains pour gérer la définition de l’ensemble des données de l’entreprise, comme le Chief Data Officer (CDO) qui est en relation avec le Chief Protection Officer (CPO) ou le Data Protection Officer (DPO).

Il faut concentrer l’énergie sur l’amélioration de la qualité de la donnée si on veut être capable de la réconcilier. Il est nécessaire de définir des règles de correspondance ou d’uniformiser les nomenclatures.

Pour de multiples raisons, une même information peut être représentée, dans nos systèmes de gestion, différemment : parce que ce sont des éditeurs différents ou encore parce que ce sont des structures de stockage différentes.

Concrètement, lorsque je suis en charge d’une entreprise, pour prendre des décisions, je veux pouvoir m’appuyer sur des données que je considère comme fiables et réconciliées. Il faut pouvoir avoir une vision complète du système d’information, en travaillant sur la qualité de la réconciliation. Ainsi, tout élément qui ne rentre pas dans le champ standard doit être identifié et traité pour remettre en qualité l’information. La remettre en qualité, c’est simplement redéfinir, compléter la définition et s’assurer qu’elle est bien viable pour éviter les doublons.

Pour résumer, on n’a pas pris le temps d’apprendre à maîtriser les systèmes d’information. Alors que maîtriser son système d’information, c’est maîtriser les données qui sont à l’intérieur. C’est primordial. Quand je dis « maîtriser », c’est notamment connaître le niveau de qualité de la donnée.

Que vous inspire l’énoncé : revoir la quantité à l’aune de la qualité ?

Aujourd’hui on parle beaucoup de Big Data. Le Big Data amène beaucoup de questions, car c’est récupérer des sources de données dont on ne connaît pas forcément l’exhaustivité, le niveau de qualité, de complétude. Or, il faut essayer d’en tirer des enseignements et idéalement les rapprocher avec d’autres données collectées.

Il est alors très facile de collecter un grand volume de données pour s’assurer d’avoir quelque chose d’à peu près fiable. C’est pour cela qu’il existe des Data Analyst et Scientist, qui ont des connaissances en statistique très fortes pour créer des modèles statistiques qu’ils ont éprouvés et validés. Ils sont capables de dire que telle donnée à une qualité qu’il va valider. Ils seront capables également d’identifier ce qu’on appelle les « biais » d’analyse : ils définissent le niveau de qualité pour un usage spécifique. Enfin, ils décident des modèles d’extrapolation : j’ai un fichier qui représente 80 % ou 20 % d’une population de données, je sais que sur ces 80 % ou 20 %, je vais extrapoler et je vais pouvoir sortir un résultat fiable à 98 % en disant que sur ce panel de 80 % ou 20 %, je peux dire que ça représente la connaissance (c’est ce que font les instituts de sondage en produisant des études basées sur un « panel représentatif »).

Cela marchait bien avant lorsqu’on n’était pas pollué par un certain nombre d’effets des réseaux sociaux ou médiatiques qui peuvent influer la décision à la dernière minute. Pour tenir compte de ces nouvelles influences, les analystes complètent leur modèle avec des panels d’analyses de flux de réseaux sociaux, de flux statistiques. La corrélation permet de dire : un sondage a donné tel résultat, les réseaux sociaux, tels autres résultats, alors il est probable que le résultat soit entre les deux.

Il faut pouvoir sensibiliser tous les services, tous les individus à faire un usage « responsable » de la donnée. Lorsqu’on manipule de la donnée, il faut toujours se poser la question des conséquences ou de l’exploitation qui peut être faite de ces données par d’autres. Ainsi, si celle-ci est mal utilisée, c’est ma responsabilité, par exemple, de rappeler les règles et conditions de son utilisation. Avoir conscience de cela change complètement une organisation. Ainsi, au sein d’une entreprise, ce n’est plus seulement la responsabilité du DSI qui semblerait être le seul à devoir connaître le système d’information. Toutes les entreprises de tous les secteurs sont concernées.

Pour conclure, il faut cartographier le système d’information d’une entreprise pour pouvoir mettre à plat le modèle de données et ainsi optimiser la cohérence de ce modèle de donnée.

Angélique de Tourtier

Consultante en protection des données personnelles