Programmation R et intégration Big Data

Inter-company training

Who is the training for?

Chefs de projets, Data Scientist, Developpeurs

Duration

3,00 day(s)

Language(s) of service

EN FR

Prerequisites

Connaissances de base en statistiques et en programmation

Goals

Langage R: Programmation R pour Hadoop.

  • Connaître les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
  • Intégrer R à un environnement Hadoop

Contents

Présentation R
  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop
Mise en oeuvre de R
  • Travaux pratiques: installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande
  • Commandes de base
  • Syntaxe
  • Manipulations de nombres, vecteurs, tableaux, matrices, listes, …
Tableaux et matrices
  • Déclaration, dimensionnement, indexation
  • Opérations de base: produit de tableaux, transposition, produits de matrices
  • Matrices: équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …
Liste et DataFrames
  • Définitions, cas d’utilisation
  • Attachement, détachement
  • Chargement d’un dataframe
  • La fonction scan
Statistiques
  • Distributions embarquées: uniforme, normale, poisson, exponentielle, …
  • Calculs statistiques. Modèles statistiques
  • Affichage en graphes, histogrammes
Import/export
  • Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png)
  • Encodage
  • Filtrage
  • Importation SQL
  • Importation depuis un socket réseau
  • Travaux pratiques: importation de données géodésiques et export au format Json
Intégration Hadoop
  • Association de la puissance du calcul distribué fourni par les outils hadoop et de la richesse des outils d’analyse statistique de R
  • Différents moyens d’intégration:sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
  • Transformation d’un dataframe R en un dataframe Spark
  • Travaux pratiques avec Hadoop
Fonctions spécifiques
  • Définition de nouvelles fonctions
  • Appels
  • Passage d’argument
  • Construction d’une bibliothèque
  • Diffusion, installation avec R CMD INSTALL
Évolutions
  • Les acteurs: IBM avec BigInsights, Revolution R avec ScaleR

Certificate, diploma

Une attestation de participation sera transmise aux participants

Organization contact details

Nathalie Thielemans / Nassera Aici

These courses might interest you