Votre système Data « Legacy » a fait son temps, quel est l’avenir de votre data stack

Votre système Data « Legacy » a fait son temps, quel est l’avenir de votre data stack
DATA STACK

Votre plateforme data et sa pile technologique s’est déplacée dans le cloud et elle s’active désormais en mode data as a service. Flash-back.

Cela fait maintenant plus de 10 ans que le big data promet de révéler de nouveaux leviers pour le business et autres « insights » ou d’alimenter le deep learning. Nous avons connu l’ère de Cloudera et d’Hortonworks qui ont fusionné depuis, puis celle d’Hadoop qui consistait à traiter les big data par lots. Puis est arrivée l’ère du traitement continu et en temps réel avec notamment Spark et Flink.

Pour Inventiv-IT, Snowflake a ouvert une nouvelle ère 

C’est la première plateforme data cloud native à très grande scalabilité et évolutivité. Elle offre la puissance d’un data warehouse et la flexibilité du cloud… et on ne paye que ce que l’on consomme. Cette Cloud Data Warehouse n’est pas basée sur une base de données existante ou sur Hadoop mais sur un nouveau moteur de base de données SQL reposant sur une architecture spécialement conçue pour le Cloud. Elle permet donc de stocker, traiter, analyser et exploiter des données venant de sources multiples et variées sous forme de service cloud. Depuis, d’autres acteurs historiques se sont lancés dans des offres similaires, citons par exemple, Azure Synapse Analytics ou encore Amazon Redshift sur AWS.

Désormais, une data stack moderne comprend également dans son écosystème des solutions comme Databricks et les fournisseurs de cloud computing comme Azure, AWS et GCP. Elle permet donc de stocker dans le cloud, d’interroger de multiples sources de données et leur traitement. Elle intègre des outils d’ELT/ETL (avec Matillion par exemple) et reverse ETL, la BI et les Analytics, l’observabilité, la data discovery, la gouvernance, les ML Ops, etc. Une data stack est donc constituée de plateformes ouvertes avec des services modulaires plus flexibles. Elle a pour caractéristique d’être cloud native, de permettre l’unification du traitement par lots ou en streaming, un data lakehouse et une ingénierie de la data compréhensive par tous.  

Vous pouvez voir notre liste Data Stack 2022 ici 

Un data lakehouse est une architecture data dans le cloud qui offre la flexibilité du data lake et la performance du Data warehouse. En termes de technologies, on retrouve notamment dans la data stack moderne des outils comme Fivetran et Airbyte en ETL, dbt en ELT, Census en reverse ETL, Snowflake et Databricks Delta Lake pour le stockage et les requêtes, Spark et Flink pour le traitement.

Et demain ?

Les capacités actuelles de traitement des données et les avancées en apprentissage automatiques (ML) ouvrent de nouvelles perspectives à la BI vers l’analyse holistique des données (HDA / Holistic Data Analytics). Les services liés au big data et les analytics devraient en effet continuer à croitre sur un rythme de 13% par an selon IDC.

La mise sur le marché d’outils low-code ou no-code devrait permettre enfin de démocratiser l’exploitation de la data et les usages par les métiers.

Le multi-cloud virtualisé va prendre de l’ampleur ainsi que les stratégies multi-cloud. Le cloud permet plus d’évolutivité, de modernité et de fiabilité de votre data Stack. En revanche, il y a de plus en plus de fournisseurs cloud qui ne fournissent pas (encore) de connecteurs entre eux ni de domaines partagés. Par ailleurs, certaines données doivent être stockées localement pour des contraintes de souveraineté, de criticité ou encore de contraintes règlementaires. Cela va donc nécessiter la mise en place d’une couche cloud virtualisée au-dessus des clouds privés et publics avec la mise en œuvre d’une gouvernance appropriée.

L’avenir de la data stack sera dans une plateforme ouverte permettant une intégration facilitée, un partage sécurisé, une faible latence, une grande fiabilité et une gouvernance cohérente. SQL restera le langage roi dans l’ingénierie des données et Python dans l’ingénierie d’Intelligence Artificielle.

Sources sur ce sujet DataStack très inspirant : 

Tout savoir sur Snowflake 

En savoir plus sur les stacks moderne 

Vous souhaitez des conseils pour votre projet Data ?

Nous vous accompagnons dans vos projets innovants en Data. Nos domaines d’expertises sont : Data Management, Data governance, Data Architecture,  Data Integration, Data Insights & Discovery, IA & Data Science.

Share This

Copy Link to Clipboard

Copy