Analyse des données avec Apache Mahout
Programme
Introduction
- Présentation Mahout.
- Origine du projet, licence, positionnement dans l’offre BigData et Machine Learning : Hadoop, Spark,..
- Fonctionnalités.
- Définitions : apprentissage supervisé, apprentissage automatique
- Arbres de décision, de régression, régression automatique
- Classifieurs. Scoring
Architecture
- Principe de fonctionnement.
- Sources de données, format de stockage des données,
- Génération de recommandations, traitement, filtrage
- Mode local ou distribué.
Mise en œuvre
- Installation en mode autonome .
- Exemples de base : génération de recommandations, traitement, filtrage
- Présentation des algorithmes les plus courants.
- Compatibilité avec Hadoop Yarn, Spark, H2O, Flink
- Installation en mode distribué sur une ferme Spark.
- Premiers pas avec le shell interactif REPL
- Exemple avec une classification bayesienne naïve