La donnée, nouvel or noir, nouvel or brut ?

Pendant longtemps, on a cru que le pétrole était une ressource miraculeuse et virtuellement infinie. Aujourd’hui, on connaît les effets pervers liés à son utilisation abusive. S’il en était de même avec le pétrole du 21e siècle, la donnée ?

Pétrole et données, jusqu’où pousser la comparaison ?Le monde tel que nous le connaissons s’est construit grâce au pétrole. Source d’énergie stockée miraculeuse, potentielle infinie du point de vue chimique pour la création de matière synthétique, il a permis aux sociétés développées de s’affranchir des contraintes de l’énergie et la matière.
La donnée, en tant que support numérique d’une information, est souvent, à juste titre, considérée comme le pétrole du 21e siècle. Le parallèle se justifie dans la mesure où la donnée constitue la « matière première » d’une nouvelle forme d’intelligence, d’abord collective puis artificielle, et qui nous permet de nouveau de repousser les limites de notre condition humaine.
Or, si on connaît aujourd’hui les effets environnementaux liés à l’utilisation abusive du pétrole, sa raréfaction et la dépendance à laquelle il enchaîne l’économie, les limites à l’exploitation des données restent un sujet contre-intuitif dans un monde porté par le Big Data, le Deep Learning et la Blockchain, où intrinsèquement « bigger is better ».
Exploronsleslimites de ce parallélisme, interrogeons-nous pour savoir si la donnée, comme le pétrole, ne couvrirait pas une nouvelle catastrophe écologique et, éventuellement, identifions quelle en serait la nature.

Quelques chiffres pour quantifier le phénomène de la donnéeNous sommes en 2020, 7,5 milliards d’êtres humains dont plus de la moitié (56%) a accès à Internet au travers des 75 milliards d’objets connectés en circulation.
Le volume total de données stockées est de 33 zettaoctets, chiffre amené à être multiplié par plus de 5 d’ici 2025. Pour se faire une idée du volume que cela représente, toute cette information stockée sur des disques Blu-Ray empilés permettrait de faire 23 fois le trajet Terre/Lune…
Il est également important de noter qu’on assiste à un mouvement de concentration très important du stockage (et du traitement) des données du fait de la cloudification des services dans l’un des quelques 4438 datacenters présents dans le monde. En l’espace de moins de 3 décennies, l’internet est passé du statut de nébuleuse expérimentale à celui de colonne vertébrale du mode de vie moderne. Il est aujourd’hui essentiellement structuré autour des méga-corporations ayant émergé du maelstrom originel et qui tirent aujourd’hui tout un écosystème technique, économique et culturel.
Ce mouvement de concentration est techniquement rendu possible par le développement de l’efficience des réseaux (actuellement 1,5 zettaoctets/an), amené lui aussi à se multiplier (notamment grâce à la 5G) pour atteindre 4,8 zettaoctets en 2022. On notera qu’aujourd’hui, 83% de l’information transmise sur les réseaux sont des vidéos…

Quelles limites à la création de nouvelles données ?

La première à laquelle on pense spontanément (qui justifie en premier lieu la comparaison avec le pétrole) est écologique. Cette limite est notamment liée à l’énergie électrique consommée par les datacenters, aux matières premières consommées pour produire les objets de l’Internet des objets (et notamment les fameuses terres rares) et aux difficultés à intégrer ces objets à l’espérance de vie très courte dans des filières de recyclage. Ces limites bien réelles étant déjà abondamment évoquées sur la toile, nous ne reviendrons donc pas dessus ici.

Néanmoins, on peut également questionner d’autres limites, et en premier lieu les limites physiques. L’augmentation exponentielle du développement des objets connectés suivait jusqu’à présent la conjecture de Moore, qui prédisait à l’origine un doublement du nombre de transistors dans les microprocesseurs tous les 2 ans. Or, il n’est désormais plus possible de produire de manière industrielle des objets ayant atteint la taille de quelques atomes. Nous avons par conséquent atteint un plafond technologique qui ne sera pas sans incidence, même si le mouvement de concentration de stockage de données évoqué plus haut, vient dans une certaine mesure pour le moment mitiger ce phénomène.

Cependant, la véritable limite à l’exploitation des données n’est pas physique, mais organisationnelle.

Dans une société devenue société de l’information, où les services prennent une place prépondérante et où la production de biens physiques est tracée tout au long de la chaîne de valeur, les acteurs économiques sont devenus des unités de transformation de l’information. Leur survie passe désormais par leur capacité à acquérir, intégrer, filtrer, structurer, rechercher, analyser, protéger, transformer, utiliser, réutiliser, archiver une masse d’informations toujours plus importante. La persistance des données supplante la persistance des organisations. Les processus organisationnels clés se structurent autour des outils de gestion de données : données pour être plus efficace, pour assurer une meilleure qualité de produit ou de service, pour prendre de meilleures décisions.

Or, dans une sphère économique plus que jamais en perpétuelle recomposition, le numérique est devenu une arme à double tranchant : les entreprises investissent dans des outils puissants, optimisés pour répondre aux exigences de performance du présent, mais qui peuvent rapidement devenir inadaptés demain au moment de penser son métier autrement, saisir de nouvelles opportunités, intégrer de nouvelle structures ou au contraire céder une part de son activité : le numérique peut alors devenir un facteur d’inertie et de pesanteur. C’est d’ailleurs là tout l’enjeu des démarches d’urbanisation (ou architecture d’entreprise), qui visent à modulariser les systèmes d’information pour faciliter leur évolution. Mais nous constatons tous les jours que cette pensée systémique, coûteuse, est souvent reléguée au second plan au profit d’ambitions dont la valeur est plus facilement perceptible.

Or, les données sont les premières « victimes » de cette fuite en avant. Définies sans perspective ni logique d’ensemble, elles concentrent les problématiques du SI, en s’accumulant et en se multipliant de manière désordonnée, créant des incohérences, des redondances… perdant ainsi leur capacité à donner de l’information au-delà du processus pour lequel elles ont été créées. Ainsi les organisations souffrent de cette data boulimie, fascination malsaine pour une promesse de satisfaction immédiate… que l’organisme rejette par la suite.

Le cadre réglementaire se durcit. Avec l’arrivée du RGPD, règlement européen précurseur pour la protection des données à caractère personnel, chaque organisation est tenue en substance de ne collecter, traiter et conserver des données à caractère personnel qu’au regard d’une finalité clairement établie pour laquelle la personne concernée aura donné son consentement préalable. L’impact de ce règlement sur l’usage des données à caractère personnel par les organisations reste à ce jour incertain : il impose certes une certaine inertie peu favorable à l’innovation via un certain nombre de contraintes pour les organisations, mais instaure dans le même temps un cadre de confiance avec les utilisateurs, avec à la clé des données potentiellement plus qualitatives. Ce qui est certain, c’est qu’il impose aux organisations de mieux anticiper, connaître, baliser et canaliser les flux de données qui irriguent leurs systèmes. Dès lors, de même que les industries polluantes ont dû apprendre à intégrer le traitement des matières toxiques en circuit fermé, les entreprises de la nouvelle économie doivent apprendre à manipuler les données à caractère personnel avec une attention particulière, leur dissémination étant considérée comme toxique par les individus.

Les projets sont de plus en plus complexes et coûteux. L’exploitation de données à grande échelle par une organisation reste subordonnée à l’adaptation de son système d’information. Or, encore aujourd’hui, les projets informatiques restent des paris risqués : près de 70% échouent ou ne remplissent pas tous les objectifs initiaux de coût, de qualité ou de délai. Cette statistique est par ailleurs relativement stable depuis les années 90, en dépit des promesses des méthodologies dites « agiles ». Le taux d’échec d’un projet est par ailleurs fortement corrélé à sa taille : plus un projet est important, plus il a de chance de ne pas aboutir. Or, dans des organisations disposant déjà d’un patrimoine applicatif, les projets informatiques tendent naturellement à devenir de plus en plus complexes, car la prise en compte de l’existant a un effet démultiplicateur sur la complexité du projet. On assiste donc à une forte inflation du coût des projets qui n’est pas véritablement contrebalancée par les progrès techniques censés faciliter l’intégration des solutions. A ceci s’ajoute un contexte de marché tendu où les compétences informatiques sont de plus en plus spécialisées et restent difficiles à attirer. En conséquence, beaucoup d’organisations en viennent à rationaliser leur portefeuille de projet pour n’engager que des projets qu’elles sont en capacité de réussir.

Clément Bisot

Consultant en système d'information