Data governance : 5 signes qui prouvent que vous êtes sur la bonne voie

Data governance : définition

Les entreprises ont besoin d’une bonne data governance tout simplement pour que chacun puisse être sûr d’y utiliser des données fiables, utiles, accessibles et ce, en toute sécurité.

Cette data-governance est d’autant plus importante pour elles qu’elles fondent leurs décisions, inventent de nouveaux produits et optimisent leurs opérations en fonction des données dont elles disposent, qu’elles traitent et analysent.

Un bon dispositif de gouvernance des données comporte une commission dédiée à celle-ci, des procédures définies et un plan pour que celles-ci soient mises en œuvre.

Telle est la définition donnée par techtarget.com, une plateforme experte américaine consacrée aux data.

Au-delà de la définition, cette notion peut sembler un peu théorique, et sa mise en pratique peut cacher quelques pièges.  Avez-vous vraiment compris ce qu’est la data governance ?

Voici les 5 signes qui prouvent que vous êtes sur la bonne voie … ou pas. 

1er signe : vous n’avez pas attendu les big data pour penser gouvernance des données

Mettre en place une stratégie de big data, avec de nombreux systèmes de collecte et de traitement de données passera forcément par la question d’une bonne data governance.

Si vous en êtes déjà aux big data et que vous avez mis le sujet de la gouvernance des données en dernier point à traiter sur la to do-list, en revanche, il y a danger. Les clignotants vont vite passer au rouge. Et vous risquez de rejoindre la catégorie des entreprises dont les projets de big data échouent.

Si vous n’en êtes pas encore aux gros chantiers big data, ne perdez pas de temps non plus, la data governance vous intéresse quand même. Rien ne sert d’attendre de lancer un tel gros chantier pour se poser la question de la sécurité et de la fiabilité des données de l’entreprise.

Dès l’instant où il y a des défis à relever dans lesquels on va avoir besoin de données pour prendre des décisions stratégiques, on va en effet forcément se poser ces quatre questions :
– comment peut-on être sûr que les sources de données sont fiables ?
– comment définir des critères de qualité de données solides et déclinables?
– nos données actuelles permettent-elles d’améliorer l’expérience consommateur ?
– comment les analyses que l’on tirera de nos données peuvent-elles améliorer la vision que nous avons de notre activité ?

Dès que l’on se pose ces questions, on met très vite en évidence le besoin de règles et de process solides liés aux enjeux d’information de l’organisation. En outre, quand on commence  à comprendre la pertinence de ces questions pour le pilotage de la stratégie même de l’entreprise, on en vient vite à prendre des décisions qui combinent le souci de données analytiques et … des règles de gouvernance.

Si vous avez déjà réfléchi à ces questions, même sans avoir encore initié de grand chantier big data, alors vous marquez un point. 

2ème signe : vous n’avez pas peur d’une vision “agile” de la data

 Pendant des décennies, les data-scientists ont développé leurs recherches dans leur coin, autrement dit côté “bac à sable”. Ils pouvaient ainsi manipuler, analyser et charger facilement tout un tas de données afin de mettre au point des workflows qui seraient utiles ensuite en production.
Le problème, c’est que, bien souvent, le passage du bac à sable à la mise en production se révélait un cauchemar.
Passer du mode “laboratoire” à des flux de données dont il fallait verifier la qualité et qu’il fallait optimiser avant le déploiement prenait un temps fou.
Au final, ces projets n’apportaient pas la valeur attendue à l’entreprise.

Evidemment, adopter cette même approche sur des projets big data rend le problème bien pire.

Puisque l’on va intégrer des données extérieures avec des volumes importants, la complexité des problèmes de fiabilité augmente de façon exponentielle. Autant dire que cela devient insoluble sans une nouvelle approche.

Pas question de reproduire à l’identique en production le processus initié dans la sandbox, en laboratoire.

Le premier réflexe, naturel, sera vain : penser que l’on pourra gérer ces questions à travers un système de restrictions géré à la main, accompagné d’une documentation lourde devant être lue et digérée par tout le monde dans l’entreprise relève de l’utopie.

La gouvernance des big data doit être agile, collaborative pour être efficace.

Elle doit “engager”, donner envie et non pas freiner ou séparer les analystes en les plaçant chacun dans des “cages” infranchissables dédiées à chaque secteur.

Bien au contraire, le plus important de tout, comme l’explique le site cio.com, est de créer entre la sandbox et la production un véritable processus de “promotion-collaboration”, afin de créer au final une situation où les données traitées et mises en forme en version “bac à sable” sont totalement prêtes pour la mise en production.

La gouvernance des big data exige donc de repenser la gouvernance classique de fond en comble. Au lieu de raisonner process d’utilisation, en séparant les sandboxes en silos, en raisonnant “laboratoire” d’un côté “vraie vie” de l’autre, la gouvernance idéale des données contrôle, elle, l’accès aux données en fonction du niveau de maturité de la donnée dans un processus qui va de “donnée brute” à “donnée exploitable”.

Elle s’intéresse à la valeur de la donnée elle-même.

L’approche est radicalement différente, et c’est véritablement un nouveau paradigme qu’il faut intégrer dans tout le raisonnement de l’entreprise.

Comment faire concrètement pour savoir si une donnée est “brute” ou “exploitable” ?

La réponse tient en un mot : métadonnée.

Tout système de management de données doit avoir son système permettant de tracker le cycle de vie de la donnée : depuis la captation, la validation, la préparation et jusqu’à l’utilisation. La métadonnée doit pouvoir gérer les droits d’accès, les résultats de data profiling et les commentaires des développeurs et utilisateurs finaux.

Les métadonnées stockent également les règles permettant de définir si une donnée est utilisable et doit pouvoir les faire évoluer. 

Pour que tout ceci soit pratique, encore faut-il que la saisie de ces méta-données soit pertinente et automatisée.

Un autre aspect de la data governance est donc qu’elle contredit forcément le dogme habituel : le recours à de schémas et processus bien définis depuis le départ pour enrichir les métadonnées.

La plupart des données de l’entreprise sont déjà structurées, qu’il s’agisse de données relationnelles, de fichiers de logs, de XML ou autre. Quantité de données extérieures avec lesquelles les premières seront agrégées et associées, le seront beaucoup moins.

Ces éléments de structure peuvent donc être utilisés automatiquement pour évaluer la qualité, le niveau de structuration et de pertinence de ces données brutes.

Le troisième principe d’une gouvernance de big-data est la gestion des priorités. Toutes les données n’ont pas besoin d’être passées au filtre de la bonne gouvernance.

Il faut admettre une idée frustrante : la plupart des données brutes qui seront stockées ne seront pas utilisées

Rien ne sert de les faire passer dans une moulinette parfaite de gestion des méta-données, comme évoquée ci-dessus.

En lieu et place, on utilisera plutôt un scoring pour les différents usages de données.
En fonction des règles de gouvernance choisies, selon les enjeux marketing, réglementaires, etc., on définira des priorités quant à la gestion des méta-données.

On économisera ainsi beaucoup de temps et d’argent.

3ème signe : vous ne confondez pas data governance et data-management

Le management des données regroupe toutes les fonctions, telles que le dictionnaire du data management (DAMA) les a dessinées dans la figure ci-dessous.
Vous avez remarqué ? Il a posé la data-governance  au centre de tout. C’est le coeur du système qui impulse et contrôle toutes les decisions qui seront prises dans le management (planning, monitoring) des données.

Figure 1 – DAMA DMBOK Data Management Functions

data-management et data governance : ce n'est pas la même chose

C’est que la gouvernance des données “est souvent disruptive, et ce de façon positive”, explique-t-il.

Elle doit entraîner des changements dans l’organisation même (notamment avec une commission de gouvernance des données, une intendance des données – voir ci-dessous-, etc.).

Ceci afin de faire en sorte que la data governance ait suffisamment d’autorité (naturelle devrions-nous ajouter) pour entraîner avec elle la rupture des digues (les modes “silos” de données) sans aucun risque.

Souvent les données doivent en effet être partagées entre business units, dans de multiples applications. Dans ces cas, les données doivent être confrontées à de nombreux systèmes.
Ceci crée des resistances en interne (“c’est MA donnée”). Cela se heurte aussi à des structurations de données assez pauvres, puisqu’elles sont adaptées à une seule utilisation.

La data governance doit donc être placée en amont du management des données, afin d’impulser un mouvement qui entraîne suffisamment les équipes et les projets pour casser ces réflexes coûteux de raisonnement en silos.

La donnée est un actif “non fongible” (i.e. : quand on le donne, on l’a encore).
C’est aussi quelque chose dont la valeur n’est pas unique, même pour un format donné.
(Exemple : un client platinum n’a pas la même valeur qu’un client bronze, alors qu’ils appartiennent tous les deux à la catégorie : “client”).

En clair, si l’on ne sait pas retrouver ou traiter correctement une donnée, on en perd toute la valeur. Il faut donc penser la data-governance non pas au nom de la donnée elle-même, mais en fonction du business.

Voilà pourquoi cela doit être l’exercice d’une intelligence liée à l’entreprise, son activité, sa stratégie. Et surtout ses prises de décisions.

La data governance doit être au service de la prise de décision et doit donc travailler en collaboration avec les business units.

4ème signe :  vous avez mis en place une intendance des données

Le point de depart dans la mise en place d’une bonne data governance consiste souvent à définir des “gardiens du temple” en matière de données dans l’entreprise. On parle alors d’intendance des données (data stewardship).

C’est très logique. Si l’on veut partager au mieux en interne, encore faut-il le faire en toute sécurité.

Les process doivent en effet indiquer comment les données seront stockées, archivées, retournées et protégées pour éviter les mésaventures, les vols ou les attaques.

Un ensemble de règles et de procédures doivent donc être mises en place pour dire qui a accès à quoi. En outre, un ensemble d’audits et de contrôles doivent être mis en place pour vérifier la compatibilité de ce qui peut être réalisé avec les règles internes de l’entreprise, la réglementation, etc.

Cela n’a rien de contradictoire avec la vision d’une data governance ouverte et collaborative. Bien au contraire. La vivacité et l’efficacité d’une dynamique collaborative autour des données seront d’autant plus fortes qu’elles mettent en oeuvre des données bien protégées et bien gérées.

Si big data veut souvent dire données non structurées, big data ne veut en aucun cas dire… données gérées n’importe comment. 

En d’autres termes, le véritable problème de l’intendance de données est de savoir rendre compte des différents éléments qui font la valeur d’une donnée : pertinence, accessibilité, consistance, mise à jour et “est-elle complète” ?

5ème signe : vous savez techniquement comment assurer les contraintes de la RGPD

La réglementation générale de protection des données qui s’impose à partir de mai 2018, va exiger de l’entreprise un certain nombre de choses qui, au fond, relèvent de la gouvernance de données.

Les entreprises devront être capables, techniquement, de garantir à leurs clients, leurs salariés et à toutes les parties prenantes, les droits suivants :

Le droit à l’oubli :  les personnes concernées par certaines données pourront exiger que certaines données soient effacées de leurs bases de données.
Les entreprises ne pourront refuser que si elles sont capables de motiver leur refus sur des bases légales très solides.

Le droit d’accès et le droit de rectification :  déjà bien connus en France, ces droits sont repris par la réglementation européenne. Quiconque a le droit de savoir ce que l’entreprise a stocké sur lui, en matière de données et de faire rectifier.

Le droit à l’objection : les personnes concernées par les données pourront refuser à l’entreprise le droit d’utiliser ou traiter des données personnelles. Les entreprises ne pourront ignorer ce refus que si elles peuvent satisfaire à une au moins des conditions légales qui autorisent à l’existence d’un tel traitement, mais elles devront notifier leur refus et cette explication à la personne demandeuse.

Le droit de portabilité : les personnes concernées peuvent accéder aux données que l’entreprise détient sur elle et les transférer ailleurs.

(sur ce sujet voir aussi cet article)

Conclusion

Si la lecture de cet article ne vous a rien appris. Alors bravo ! Vous êtes fin prêt et vous avez vraiment compris ce qu’est la gouvernance de données.

Si vous vous êtes dit à certains moment “tiens, tiens.. c’est à creuser, cela”, alors restons connectés.
Nous n’avons pas fini, sur ce blog, de creuser cette question de la data governance, qui est absolument essentielle en matière de big data.

Pour cela, si vous n’êtes pas abonné à notre newsletter “En direct des bacs à sable”… réparez vite cette erreur. Et abonnez-vous au plus vite.

Découvrez les trésors des bacs à sable, cliquez sur l’image….