la data intelligence

Le premier V du Big data vvv

Nous le savons(voir notamment cet article), le Big Data est souvent associé à la notion de 3 V ou vvv : volume, variété et vélocité. Concept qui a été déposé par certains spécialistes qui ont analysé le Big Data dans le brut d’affronter cette augmentation massive des données ainsi que leur stockage. Les 3vvv ont donné la possibilité d’avoir une évolution beaucoup plus rapide des logiciels informatiques afin de donner des solutions aux problèmes auxquels faisaient faces certaines entreprises vis à vis de ces données.

Mais qu’est ce que cela signifie ? La demande d’information est aujourd’hui de taille, que les entreprises doivent avoir accès de manière beaucoup plus rapide aux données et ont besoin de pouvoir analyser des résultats complets leur permettant d’être à la page. Les données représentent à cette heure un véritable enjeux pour les entreprise, il leur est indispensable de récupérer de la donnée au sein même de l’entreprise dans le but d’améliorer leurs performances en établissant des analyses.

Mais comment faire quand de nouveaux types de données font leur apparition ? Les contenus étant de plus en plus diversifiés : tweets, photographies, localisation, texte, vidéos, e-mail, podcasts, médias sociaux, internet…Tous ces nouveaux contenus sont à ce jour impossible à intégrer dans une simple feuille de calcul Excel ou même une base de données car il y a beaucoup trop d’informations à traiter.

Et le Big Data ? 

Autrement dit, le Big Data se caractériserait par le fait que l’on traite beaucoup de données informatiques (volume), de natures très différentes (variété), et ce, à une très grande rapidité (vélocité). La quantité de données, raconté comme cela, on peut avoir l’impression que, dans son entreprise, son organisation à propos de n’importe quel sujet…On a de quoi trouver les 3 V en question.

À ce jour, l’immense quantité de données générées par les entreprises et les particuliers augmente de plus en plus. La gestion de données devient complexe. Le Big Data lui même peut générer une telle quantité de données et d’informations. Il propose un autre moyen aux solutions informatiques dites « classiques » devenues dépassées d’affronter une telle abondance de données.

On a beaucoup de données, elles sont de nature très variées, compte tenu de la façon dont on les récolte nous avons besoin de les traiter le plus rapidement possible et d’avoir une gestion des données opérationnelle. Bingo ! On a un projet Big Data à lancer.   

En réalité, il faut pouvoir prendre la mesure de cette notion de volume. Mais beaucoup de données est-ce vraiment du volume ? La réponse n’est pas aussi simple. Le mot « big » dans Big Data n’est pas aussi facile à comprendre que cela. Ou en tout cas, à imaginer. 

Gros plan sur le 1er V des 3 V

Gros plan donc sur le 1er V des 3 V du Big data : que veut-on dire par volume ?

Le volume signifie le nombre de données qui sont générées par une entreprise ou un individu. Il s’agit ici d’une quantité de données qui deviennent de plus en plus compliquer à cerner. Selon planetoscope, à chaque seconde, 29.000 Gigaoctets d’informations sont mis en ligne partout dans le monde, ce qui représente 2,5 exaoctets par jour soit 912,5 exaoctets par an.

Le Big Data est généralement lié à cette fonctionnalité. Les entreprises de tous les secteurs d’activités sont aujourd’hui confronter à devoir trouver des solutions pour gérer le volume toujours croissant de données créées chaque jour.

Nous constatons également que plusieurs études démontrent que environ 90 % des données ont été générées durant ces dix dernières années.

Ce volume de données est désormais difficile à collecté, stocké, géré et exploité par des solutions informatiques classiques avec de simples bases de données. C’est d’ailleurs à partir de ce questionnement que s’est formée la règle des 3V. 

La meilleure façon de mettre cela en perspective, nous l’avons trouvée dans un article de ZDN et dont nous traduisons quelques extraits ci-après. Facebook, par exemple, stocke des photographies. Mais savez-vous que Facebook compte plus d’utilisateurs que la Chine a d’habitants ? Chacun de ces utilisateurs a stocké de nombreuses photos. Facebook stocke environ 250 milliards d’images. Nous parlons donc ici d’une quantité de données véritablement énorme.

Par exemple, les flux de données provenant de Twitter, le nombre de clics sur une page web ou encore une application, un appareil connecté. Ou encore les médias sociaux qui ont un fort impact sur l’augmentation des données, à savoir que depuis 2016, plus de 2 000 milliards de publications et 250 milliards de photos ont été téléchargés dans le monde.

Pour un certain nombre d’entreprises cela équivaut à plusieurs téraoctets de données mais pour d’autres des centaines de pétaoctets. 

Faites le test

Essayez d’imaginer 250 milliards d’images autour de vous. C’est impossible. Ainsi, dans le monde du Big Data, lorsque nous commençons à parler de volume, nous parlons de quantités de données incroyablement grandes. À mesure que nous avancerons, nous aurons de plus en plus de grandes collections.

Prenons un exemple, si nous ajoutons des capteurs connectés à presque tout, toutes les données de télémétrie s’additionneront. Comment vont-elles s’additionner ? Gartner, Cisco et Intel estiment qu’il y aura entre 20 et 200 périphériques IoT connectés autour de chacun de nous d’ici peu de temps. Le sujet n’est pas tellement la quantité d’appareils. Le sujet est la quantité de données qui proviennent de chacun.

J’ai un capteur de température dans mon garage. Même avec un niveau de granularité d’une minute (une mesure par minute), il reste 525 950 points de données par an, et ce n’est qu’un seul capteur ! Supposons que vous ayez une usine avec mille capteurs, un demi-milliard de points de données, rien que pour la température ! Ou alors, prenons l’univers d’applications connectées dans lequel nous sommes désormais.

Liste de tâches

De nos jours, tout le monde possède un smartphone, un appareil connecté qui génère une énorme quantité de données grâce à ses applications par exemple. Prenons une application de liste de tâches classique. De plus en plus de fournisseurs gèrent les données d’applications dans le cloud, dans le but que les utilisateurs puissent accéder à leurs listes de tâches sur plusieurs appareils informatiques.

Étant donné que de nombreuses applications utilisent un modèle freemium, dans lequel une version gratuite est utilisée comme pallier vers une version premium, les fournisseurs d’applications informatiques en mode SaaS ont généralement beaucoup de données à stocker. Todoist, par exemple, compte environ 10 millions d’installations actives, selon Android Play. Cela ne comprend pas toutes les installations sur le Web et iOS.

Étant donné que de nombreuses applications utilisent un modèle

Chacun de ces utilisateurs a des listes d’éléments et toutes ces données doivent être stockées. Todoist n’est certes pas à l’échelle de Facebook, mais cette seule application stocke à elle seule beaucoup plus de données que presque toutes les applications ne faisaient il y a à peine dix ans. » C’est cela le véritable sens du vecteur volume du concept des 3 v du Big data. 

Votre projet informatique est-il donc de cette nature ? Avez-vous besoin de stocker et traiter des données dont le volume augmente de façon exponentielle compte tenu du nombre de points de collecte et de leur fréquence ? La gestion des données devient alors une priorité et un besoin essentiel ? Un grand nombre d’entreprises possèdent des données dans plusieurs domaines mais également sous plusieurs formes, qui sont aujourd’hui dispersées un peu partout. Cela rend donc la tâche difficile pour les regrouper, les trier et les stocker. 

Leave a Reply

Your email address will not be published.

Share This

Copy Link to Clipboard

Copy