Toutes nos formations sont désormais disponibles en "Live Virtual classes". Contactez-nous pour plus d’informations : formation@oxiane.luToutes nos formations sont désormais disponibles en "Live Virtual classes". Contactez-nous pour plus d’informations : formation@oxiane.lu

Programmation R et intégration Big Data

Accueil » Formations » Data » Programmation R et intégration Big Data

Langage R : Programmation R pour Hadoop.

1510 € HT 2 jours DB-LR

Comprendre les apports de R pour l'analyse des données et savoir l'intégrer à un environnement Hadoop

Prochaines sessions

Formulaire d'inscription

Télécharger le programme

Contactez nous pour un devis

Programme

Présentation R

Le projet R Programming
Calculs statistiques et génération de graphiques
Points forts de R Programming
Besoins du BigData
Positionnement R programming par rapport à Hadoop

Mise en oeuvre de R

Travaux pratiques : installation et tests sur une plate-forme CentOS
Utilisation de R en mode commande
Commandes de base
Syntaxe
Manipulations de nombres, vecteurs, tableaux, matrices, listes, …

Tableaux et matrices

Déclaration, dimensionnement, indexation
Opérations de base : produit de tableaux, transposition, produits de matrices
Matrices : équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …

Liste et DataFrames

Définitions, cas d’utilisation
Attachement, détachement
Chargement d’un dataframe
La fonction scan

Statistiques

Distributions embarquées : uniforme, normale, poisson, exponentielle, …
Calculs statistiques. Modèles statistiques
Affichage en graphes, histogrammes

Import/export

Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png)
Encodage
Filtrage
Importation SQL
Importation depuis un socket réseau
Travaux pratiques : importation de données géodésiques et export au format Json

Intégration Hadoop

Association de la puissance du calcul distribué fourni par les outils hadoop et de la richesse des outils d’analyse statistique de R
Différents moyens d’intégration : sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
Transformation d’un dataframe R en un dataframe Spark
Travaux pratiques avec Hadoop

Fonctions spécifiques

Définition de nouvelles fonctions
Appels
Passage d’argument
Construction d’une bibliothèque
Diffusion, installation avec R CMD INSTALL

Évolutions

Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR

Bases de données
Big Data

Objectifs

Connaître les principales fonctions statistiques de R
Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
Intégrer R à un environnement Hadoop

Public

Chefs de projets
Data Scientist
Developpeurs

Pré-requis

Connaissances de base en statistiques et en programmation