POUR INVENTIV-IT, SNOWFLAKE A OUVERT UNE NOUVELLE ÈRE
C’est la première plateforme data cloud native à très grande scalabilité et évolutivité. Elle offre la puissance d’un data warehouse et la flexibilité du cloud… et on ne paye que ce que l’on consomme. Cette Cloud Data Warehouse n’est pas basée sur une base de données existante ou sur Hadoop mais sur un nouveau moteur de base de données SQL reposant sur une architecture spécialement conçue pour le Cloud. Elle permet donc de stocker, traiter, analyser et exploiter des données venant de sources multiples et variées sous forme de service cloud. Depuis, d’autres acteurs historiques se sont lancés dans des offres similaires, citons par exemple, Azure Synapse Analytics ou encore Amazon Redshift sur AWS.
Désormais, une data stack moderne comprend également dans son écosystème des solutions comme Databricks et les fournisseurs de cloud computing comme Azure, AWS et GCP. Elle permet donc de stocker dans le cloud, d’interroger de multiples sources de données et leur traitement. Elle intègre des outils d’ELT/ETL (avec Matillion par exemple) et reverse ETL, la BI et les Analytics, l’observabilité, la data discovery, la gouvernance, les ML Ops, etc. Une data stack est donc constituée de plateformes ouvertes avec des services modulaires plus flexibles. Elle a pour caractéristique d’être cloud native, de permettre l’unification du traitement par lots ou en streaming, un data lakehouse et une ingénierie de la data compréhensive par tous.
Un data lakehouse est une architecture data dans le cloud qui offre la flexibilité du data lake et la performance du Data warehouse. En termes de technologies, on retrouve notamment dans la data stack moderne des outils comme Fivetran et Airbyte en ETL, dbt en ELT, Census en reverse ETL, Snowflake et Databricks Delta Lake pour le stockage et les requêtes, Spark et Flink pour le traitement.
ET DEMAIN?
Consulter notre offre ERP
Les capacités actuelles de traitement des données et les avancées en apprentissage automatiques (ML) ouvrent de nouvelles perspectives à la BI vers l’analyse holistique des données (HDA / Holistic Data Analytics). Les services liés au big data et les analytics devraient en effet continuer à croitre sur un rythme de 13% par an selon IDC.
La mise sur le marché d’outils low-code ou no-code devrait permettre enfin de démocratiser l’exploitation de la data et les usages par les métiers.
Le multi-cloud virtualisé va prendre de l’ampleur ainsi que les stratégies multi-cloud. Le cloud permet plus d’évolutivité, de modernité et de fiabilité de votre data Stack. En revanche, il y a de plus en plus de fournisseurs cloud qui ne fournissent pas (encore) de connecteurs entre eux ni de domaines partagés. Par ailleurs, certaines données doivent être stockées localement pour des contraintes de souveraineté, de criticité ou encore de contraintes règlementaires. Cela va donc nécessiter la mise en place d’une couche cloud virtualisée au-dessus des clouds privés et publics avec la mise en œuvre d’une gouvernance appropriée.
Une plateforme ouverte permettra une intégration facilitée, un partage sécurisé, une faible latence, une grande fiabilité et une gouvernance cohérente pour l’avenir de la data stack.. SQL restera le langage roi dans l’ingénierie des données et Python dans l’ingénierie d’Intelligence Artificielle.
Sources sur ce sujet DataStack très inspirant :
En savoir plus sur les stacks moderne
Nous vous accompagnons dans vos projets innovants en Data. Nos domaines d’expertises sont : Data Management, Data governance, Data Architecture, Data Integration, Data Insights & Discovery, IA & Data Science.