Formations en Informatique de Lille
Portail pédagogique
Vous êtes ici : FIL > Portail > Master Info > Machine Learning > BG
Big Data (UE: BG)
Informations Générales
Responsable Olivier Nicol
Semestre S3
Enseignement Obligatoire -- Présentiel
UEs pré-requises
Modalités d’évaluation CC+CT
Structure ECTS
Élément de cours Big Data
Unité d’enseignement BG 3
Bloc de compétence Bases de données
Répartition horaire CM CTD TD TP à distance total
Heures encadrées 12 12 24
Heures Projet
Travail Personnel 24
Stage

dernière modification : 09/11/2021 à 07:44:01

Objectifs

  • Comprendre les problématiques d’un système distribué dans le cadre de traîtement de données, c’est-à-dire du partage sur plusieurs noeuds d’un ensemble de données sur lequel est effectué une suite d’opérations
  • Parcourir les principales solutions:, notamment Hadoop, HDFS et Spark
  • Appliquer les connaissances sur un challenge de data science

Programme succinct

  • Introduction au systèmes distribués
  • Distribution des données via HDFS dans un cluster de calcul
  • Abstractions offertes par Spark pour manipuler les données
  • Utilisation de spark dans un contexte EDA, ETL puis ML

Compétences

  • Utilisation de pyspark (spark avec Python)
  • Application sur un challenge de type Kaggle: compréhension, prise en main, mise en place des pipelines et évaluation


dernière modification : 09/11/2021 à 07:44:01