Data Classification et Machine Learning

Blended learning

À qui s'adresse la formation?

Architectes, Chefs de projets, Data Scientist, Developpeurs

Durée

2,00 jour(s)

Langues(s) de prestation

EN FR

Prochaine session

12.05.2026
Lieu
En distanciel

Prix

1650,00€

Objectifs

  • Savoir définir les étapes de préparation des données
  • Comprendre et mettre en œuvre l'apprentissage automatique, les techniques de classification de données, les apports des réseaux de neurones et du Deep Learning

Contenu

Introduction

  • Zoom sur les données : format, volumes, structures, ...
  • Requêtes et attentes des utilisateurs
  • Etapes de la préparation des données
  • Définitions, présentation du data munging
  • Le rôle du data scientist

Gouvernance des données

  • Qualité des données
  • Transformation de l'information en donnée
  • Qualification et enrichissement
  • Sécurisation et étanchéité des lacs de données
  • Flux de données et organisation dans l'entreprise
  • De la donnée maître à la donnée de travail
  • MDM
  • Mise en œuvre pratique des différentes phases : nettoyage, enrichissement, organisation des données

Traitements statistiques de base

  • Introduction aux calculs statistiques
  • Paramétrisation des fonctions
  • Applications aux fermes de calculs distribués
  • Problématiques induites
  • Approximations
  • Précision des estimations

Data Mining

  • Besoin, apports et enjeux
  • Extraction et organisation des classes de données
  • Analyse factorielle

Machine Learning

  • Apprentissage automatique
  • Définition, les attentes par rapport au Machine Learning
  • Les valeurs d'observation et les variables cibles
  • Ingénierie des variables
  • Les méthodes : apprentissage supervisé et non supervisé
  • Classification des données
  • Algorithmes : régression linéaire, k-moyennes, k-voisins, classification naïve bayésienne, arbres de décision, forêts aléatoires, ...
  • Création de jeux d'essai, entraînement et construction de modèles
  • Prévisions à partir de données réelles
  • Mesure de l'efficacité des algorithmes
  • Courbes ROC
  • Parallélisation des algorithmes
  • Choix automatique

IA

  • Introduction aux réseaux de neurones
  • Réseaux de neurones à convolution
  • Modèles de CNN
  • Les types de couches : convolution, pooling et pertes
  • L'approche du Deep Learning
  • Deeplearning4j sur Spark

Les risques et écueils

  • Importance de la préparation des données
  • L'écueil du "surapprentissage"

Visualisation des données

  • L'intérêt de la visualisation
  • Outils disponibles
  • Exemples de visualisation avec R et Python

Certificat, diplôme

Une attestation de participation sera transmise aux participants

Prochaine session

Date
Ville
Language & prix
12.05.2026
En distanciel
FR 1650,00€
27.08.2026
En distanciel
FR 1650,00€
17.11.2026
En distanciel
FR 1650,00€

Ces formations pourraient vous intéresser

EN
Journée
Sur demande
Informatique et systèmes d'information - Système de gestion de base de données - Logiciel SGBD NoSQL - Logiciel MongoDB
EN
Journée
Informatique et systèmes d'information - Informatisation - Conduite projet informatique