Les architectures et infrastructures pour le Bigdata

Blended learning

Durée

 2,00 jour(s)

Langue(s) de prestation

EN FR

Prochaine session

 30.06.2026
Lieu
 En distanciel

Prix

1670,00€

Qui organise cette formation ?

OXiane est spécialisé dans la conception et la réalisation de formations informatiques et de supports de cours pédagogiques sur les dernières technologies. Nos différentes filières permettent de couvrir tous les besoins en formation que ce soit en IT au sens large, mais également "Utilisateurs" et "Soft Skills" en Management, Communication & leadership.

À qui s'adresse la formation?

Chefs de projets, Architectes, Développeurs, Data Scientists ou toute personne souhaitant connaître les outils pour concevoir une architecture Big Data, ...

Objectifs

  • Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data
  • Savoir analyser les difficultés propres à un projet Big Data
  • Déterminer la nature des données manipulées
  • Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques
  • Exploiter les architectures Big Data
  • Mettre en place des socles techniques complets pour des projets Big Data.
  • Concevoir l'infrastructure d'un datalake : collecte, stockage, traitement des données.

Contenu

Comprendre les principaux concepts du Big Data ainsi que l'écosystème technologique d'un projet Big Data

  • L'essentiel du BigData : calcul distribué, données non structurées. Besoins fonctionnels et caractéristiques techniques des projets. La valorisation des données. Le positionnement respectif des technologies de cloud, BigData et noSQL, et les liens, implications.
  • Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning.

L'écosystème du BigData : les acteurs, les produits, état de l'art. Cycle de vie des projets BigData.
Savoir analyser les difficultés propres à un projet Big Data

  • Rôle de la DSI dans la démarche BigData. Gouvernance des données: importance de la qualité des données, fiabilité, durée de validité, sécurité des données
  • Emergence de nouveaux métiers : Data-scientists, Data labs, Hadoop scientists, CDO, ...
  • Intégration avec les outils statistiques présents et les outils BigData futurs.

Déterminer la nature des données manipulées

  • Les différents modes et formats de stockage.
  • Les types de bases de données : clé/valeur, document, colonne, graphe. Besoin de distribution. Définition de la notion d'élasticité. Principe du stockage réparti.
  • Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
    • Atelier : installation d'un lac de données Hadoop/HDFS
    • Atelier : démonstrations avec une base MongoDB et une base Cassandra sur des données de différents types.

Appréhender les éléments de sécurité, d'éthique et les enjeux juridiques

  • Les risques et points à sécuriser dans un système distribué.
  • Aspects législatifs et éthiques: sur le stockage, la conservation de données, ..., sur les traitements, la commercialisation des données, des résultats
  • Atelier : mise en évidence des problèmes liés à la réplication inter-régions et concernant les aspects juridiques des données : droits d'exploitation, propriété intellectuelle, ...
  • Etude des failles de sécurité sur une infrastructure Hadoop.

Exploiter les architectures Big Data

  • Les objectifs de la supervision, les techniques disponibles. La supervision d'une ferme BigData.
  • Objets supervisés. Les services et ressources. Protocoles d'accès. Exporteurs distribués de données.
  • Définition des ressources à surveiller. Journaux et métriques.
  • Application aux fermes BigData : Hadoop, Cassandra, HBase, MongoDB
  • Besoin de base de données avec agents distribués, de stockage temporel (timeseriesDB)
  • Produits : Prometheus, Graphite, ElasticSearch.
  • Présentation, architectures.
  • Les sur-couches : Kibana, Grafana.
    • Atelier : mise en oeuvre de prometheus pour la supervision d'une ferme Cassandra sur une infrastructure distribuée multi-noeuds.

Mettre en place des socles techniques complets pour des projets Big Data.

  • Etude des différents composants d'une infrastructure BigData :
  • Datalake : collecte des différents types de données
  • Stockage distribué : réplication, sharding, gossip, hachage,
  • Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage
  • Systèmes de fichiers distribués : GFS, HDFS, Ceph. Les bases de données : Redis, Cassandra, DynamoDB, Accumulo,
  • HBase, MongoDB, BigTable, Neo4j, ...
  • Calcul et restitution :Apport des outils de calculs statistiques
  • Langages adaptés aux statistiques, liens avec les outils BigData.
  • Outils de calcul et visualisation :R, SAS, Spark, Tableau, QlikView, ...
  • Caractéristiques et points forts des différentes solutions.
    • Atelier : mise en oeuvre du sharding avec une base de données MongoDB sur une infrastructure distribuée

Certificat, diplôme

Une attestation de participation sera transmise aux participants

Prochaine session

Date
Ville
Language & prix
30.06.2026
En distanciel
FR 1670,00€
29.09.2026
En distanciel
FR 1670,00€
17.11.2026
En distanciel
FR 1670,00€

Ces formations pourraient vous intéresser

EN
Journée
Sur demande
Informatique et systèmes d'information - Analyse programmation - Méthode analyse