Formations en Informatique de Lille
Portail pédagogique
Vous êtes ici : FIL > Portail > Master Info > Machine Learning > SD
Sciences des données (UE: SD)

Objectifs

L’objectif principal de cette UE est de former les étudiants aux méthodes modernes d’apprentissage qui sont aujourd’hui au coeur d’un grand nombre de systèmes utilisés quotidiennement (les moteurs de recherche, les services de recommandation, les appareils photo détectant les visages, les téléphones portables apprenant des profils, les services vocaux reconnaissant la parole, .). Ainsi, les étudiants auront les compétences pour comprendre le monde numérique qui les entoure et l’utilisation qui peut être faite de données (données laissées sur le web, collectées par les opérateurs réseau ou de téléphonie etc.). Ils auront aussi les bases pour concevoir eux-mêmes des systèmes traitant automatiquement des données, pour constituer des bases de données pouvant être utilisées par un système d’apprentissage (comprenant l’importance d’une collecte et d’une annotation de qualité et la valeur de ces données). On s’attachera aussi à comprendre les qualités et les défauts de différents algorithmes afin d’associer le bon algorithme (et ses paramètres) à un problème donné. Un autre objectif sera de permettre aux étudiants de se forger un esprit critique quant aux résultats produits par les systèmes d’apprentissage (notion de risque, de validation croisée, de sur-apprentissage, de biais etc.). Toutes ces notions seront assimilées très pratiquement sur des cas concrets, en s’appuyant sur les bibliothèques logicielles les plus performantes du moment.

Programme succinct

L’apprentissage automatique (Machine Learning en anglais) est un champ de l’intelligence artificielle au cur de la science des données. On distingue apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. Ce cours abordera les deux premiers types d’apprentissage, le troisième étant traité dans les modules « prise de décision séquentielle dans l’incertain » et « apprentissage par renforcement » au S3. L’apprentissage automatique s’appuie sur des données : l’apprentissage non supervisé a pour objectif de regrouper les données selon leur similarité : des données ressemblantes sont regroupées ; une fois les données ainsi regroupées, l’apprentissage supervisé consiste à associer une nouvelle donnée au groupe dont elle est le plus proche.

Le cours présentera les algorithmes les plus importants pour ces deux types d’apprentissage ainsi que leur mise en oeuvre : arbre de décision, approche bayésienne, séparateur à vaste marge, méthode d’ensemble (forêts aléatoires) pour l’apprentissage supervisé ; k-moyennes, k-médianes, segmentation hiérarchique et une approche bayésienne pour l’apprentissage non supervisé. D’autres algorithmes seront vus dans d’autres modules (notamment les réseaux de neurones dans l’UE « deep learning » au S2).

En apprentissage supervisé, un élément capital consiste à évaluer les performances de l’algorithme pour permettre de répondre à la question : l’algorithme prédit telle chose : quelle est la probabilité que cette prdéction soit exacte ? Nous étudierons les méthodes permettant une telle évaluation, découpage stratifié du jeu d’exemples en ensemble d’entraînement et ensemble de test et validation croisée.

On abordera également les techniques de pretraitement des données qui consistent à mettre les données sous une forme apte à leur traitement par un algorithme d’apprentissage.

Toutes ces notions seront mises en pratique au fil du cours afin de lier théorie et application. Nous utiliserons pour cela des environnements logiciels de l’état de l’art.

Compétences

  • d’identifier un problème d’apprentissage automatique et distinguer un problème supervisé (classification et régression) d’un problème non supervisé.
  • de choisir un algorithme adéquat à résoudre ce problème et de savoir l’utiliser
  • de créer un jeu d’exemples utilisables par l’algorithme
  • de savoir évaluer le résultat fourni par l’algorithme
  • de mettre en oeuvre toutes ces notions en pratique

dernière modification : 09/11/2021 à 07:44:01