Innovation et big data : devez-vous suivre ces 5 tendances ?

Le big data est au coeur de l’innovation dans l’entreprise. 

Voilà bien une belle phrase, on la voit partout. Elle relève du poncif, du déjà vu, de la croyance populaire. 

Dès lors, il faut pousser la curiosité plus loin et se demander où sont les innovations en matière de big data qui apparaissent suffisamment entraînantes pour devenir de véritables tendances. 

Et se demander s’il faut les suivre, ou au moins, s’en inspirer. 

Gros plan sur 5 tendances dont on parle de plus en plus. 

1. Passer du datalake au datawarehouse agile

Le datalake est une zone de stockage où l’on conserve des données externes ou internes peu ou pas encore exploitées au sein de l’entreprise.  On n’est pas très sûr de leur fiabilité ni de leur valeur ajoutée. Mais, sachant qu’elles peuvent toujours servir, on les stocke et on les indexe au fil de l’eau sans transformation.

Ceci apparaît comme un outil de base pour les projets de big data. 

Mais dès lors, comment combiner un datalake et des entrepôts de données (data-warehouses) qui ont en général été conçus comme la pierre angulaire du système de stockage des données de l’entreprise, données qui, dans ce cas, sont structurées et qualifiées ? 

Il faut alors faire appel à des outils de data préparation. Ils ont pour objectif de qualifier « techniquement parlant » la qualité des données. Il s’agit d’exclure les données mal formées ou aberrantes et d’identifier les interactions et les croisements de données. 

Ces données une fois apurées et retravaillées doivent être stockées.  Il est donc nécessaire de créer des répertoires spécifiques dans le datalake. 

Il faut alors  trouver un bon équilibre entre les données retravaillées qui sont à stocker dans le datalake et celles stockées dans le datawarehouse.

En effet, toutes les données du datalake ne sont pas à ré-intégrer dans le datawarehouse : elles n’ont pas forcément le même rôle.

Les données du datalake serviront par exemple à des analyses ponctuelles,  à la demande, n’entrant pas dans des process réguliers. De son côté, le datawarehouse sert des besoins récurrents et industrialisés.

Pour tester tout cela, on mettra en oeuvre un datalab, un espace exclusivement dédiée à l’expérimentation et à la qualification « fonctionnelle » de ces données.

Ce type de concept (datalab) est très utile car il permet de faire évoluer l’architecture existante sans tout casser au nom de la révolution big data.

Et cela peut éviter des désillusions en la matière

En résumé,  la tendance à suivre dès l’instant où l’on sait que l’on aura besoin de nouveaux types de données alors que l’on utilise quotidiennement des données structurées consiste à mener deux chantiers de front :

– travailler sur une conception  scalable du datalake
– faire évoluer de façon agile les datawarehouses existants.

2. Zoomer sur le cycle de vie client

Autre tendance importante en matière de data-marketing : la maîtrise du cycle de vie du client

Le vieux réflexe du marketing a longtemps été de regarder les choses du point de vue de l’entreprise et de calculer le retour sur investissement des campagnes selon tout un tas de paramètres d’investissements. Ainsi on a longtemps raisonné “process” ou “tunnel” de vente. 

Désormais, on regarde les choses du point de vue du client.

On admet par exemple l’idée qu’il faut suivre son agenda à lui, et on s’intéresse à son processus d’achat, qui ne consiste pas forcément à répondre aux injonctions des campagnes de l’entreprise ni au calendrier de celle-ci.

Avant on raisonnait “processus de vente de l’entreprise”, désormais on raisonne “processus d’achat  du client”. C’est beaucoup plus pertinent. Et cela débouche sur une personnalisation toujours plus grande.

En individualisant les contenus des campagnes, les offres, on améliore ainsi considérablement les ROI des actions marketing.
On améliore donc la valeur de la base clients et les analyses qu’elle permet. 

On s’intéresse donc de plus en plus à un indicateur tel que la Customer Lifetime Value (CLV).

Cet indicateur permet de suivre la valeur du client tout au long de son cycle de clientèle (nombre de fois qu’il est susceptible d’acheter, quand, avec quel panier moyen, au bout de combien de contacts, quelle est son appétence pour quel type de services, etc.). 

Maîtriser cela va permettre de personnaliser les plans de campagnes et d’adresser à chaque client le bon message au bon moment.

Cette tendance est-elle un effet de mode ? 

Assurément non. Elle n’est pas assise sur un nouvel outil ou une nouvelle technologie. Elle est le résultat des progrès du marketing digital et de tous les outils associés (data-mining, CRM, SEO, SEA, etc.) qui permettent maintenant de travailler réellement en mode “consumer-centric”. 

Et il s’agit là d’un progrès majeur qui est en train de faire évoluer la fonction marketing.  C’est donc plus qu’une tendance à suivre. C’est un métier tout entier qui s’apprête à revoir son mode de pensée.

3. Se servir de l’Open data en B2B

C’est la grande nouveauté de 2017 : l’ouverture en Open Data de la base SIRENE des entreprises depuis le 1er  janvier.

Le Système Informatique pour le Répertoire des Entreprises et des Etablissements recense 10 millions d’établissements et 9 millions d’entreprises et plus de 80 champs d’information comme le code activité (APE), la tranche de chiffre d’affaires, le nombre de salariés, la forme juridique, etc.

Ces informations permettent donc aux entreprises B2B de mieux identifier leurs prospects en fonction de leur activité, de leur taille et d’optimiser la conquête de leads sur une zone géographique donnée .

Pour obtenir les données, il suffit de se rendre sur data.gouv.fr et de cliquer sur le dernier lien de la page – celui qui permet de télécharger le “stock” des 5 millions d’entreprises actives enregistrées par l’Etat au 1er janvier.

C’est tout simple, si ce n’est qu’importer cela sur un tableau excel mène au plantage assuré. En outre, le fichier CSV obtenu a besoin d’être traité.

Bref. S’intéresser à ce grand fichier est une façon de faire entrer quantité de PME dans le monde fascinant de la data. Là encore, c’est un réflexe à copier et recopier.

 4. Préparer ses données en libre-service.

Les outils de préparation des données en libre-service font partie des grandes success-stories issues de la révolution du big data. Les plateformes telles que Hadoop ou Spark  ont décuplé la capacité des entreprises à avoir accès à des masses de données non structurées. 

Mais, sans la possibilité de nettoyer, transformer, standardiser toutes ces données, et ce, à l’échelle désirée, ces plateformes ne serviraient à rien. 

Permettre aux utilisateurs métier d’accéder aux données  de big data (de type Hadoop) est un des grands sujets du moment (voir plus haut le sujet datalake et datawarehouse).

Comme l’explique Alex Woodie, “un des secrets les mieux gardés du monde du big data est le travail de titan que les data scientists doivent effectuer. Malgré les outils magiques que toutes ces licornes peuvent effectuer sur les data, nombre d’entre eux passent 70% de leur temps à préparer les données… à la main !”.

Résultat : le marché de la préparation en libre-service est en plein boom. 

Et aller regarder du côté de ces outils, c’est tout simplement simplifier la vie de ses data-scientists et leur rendre leur job plus agréable. 

Gartner avait prédit que ce marché allait se dissoudre dans le marché plus vaste des outils de business intelligence ( TableauQlik, etc.) . Ses analystes ont finalement changé d’avis et prévoient maintenant que les deux marchés vont évoluer séparément.

Mieux, ils prédisent que la préparation de données en self-service pèsera 1 milliard de $ en 2019. 

On peut citer parmi les acteurs à suivre dans ce domaine des entreprises telles que Alteryx, Trifacta et Paxata. 

5. Recourir à des catalogues de métadonnées…

Avec les technologies du big data (notamment Hadoop), on ne supprime plus les données parce qu’on ne peut pas les traiter.
On les stocke facilement. Reste à les retrouver quand on en a besoin.

Les catalogues de métadonnées facilitent la découverte et la compréhension de  données qui valent la peine d’être analysées à l’aide d’outils en libre-service.

C’est là qu’interviennent des acteurs comme Alation ou Wamterline  qui utilisent le machine learning pour automatiser la recherche de données dans Hadoop. 

Le principe est simple : ils classifient les fichiers en utilisant des balises. 

Ils mettent en évidence les relations entre les éléments de données. Ils fournissent même des suggestions de requêtes par l’intermédiaire de leur interface utilisateur dotée d’une fonction de recherche.

Bref. Ils organisent les données en leur ajoutant des “méta-données” afin de mieux les retrouver. 

Là encore, c’est une tendance de fond, associée à l’analyse en libre-service.