Fouille de données

Informations

ResponsableGilles Gasso
Enseignant(s)Gilles Gasso, Benoît Gaüzère
LangueFrançais ou anglais
Crédits4.5
Volume horaireCM : 21h TD : 21h
Site webhttps://moodle.insa-rouen.fr/course/view.php?id=92

Objectifs

  • Savoir formaliser un problème de fouille de données
  • Savoir identifier différentes catégories de problèmes d'ingénierie des données
  • Acquérir les outils mathématiques et algorithmiques pour résoudre ces problèmes

Capacités enseignées

  • Référentiel INSA :
    • Concevoir un système d'ingénierie des données [3P]
    • Optimiser un modèle [3P]
  • Référentiel CNISF :
    • J10P [2P]
    • J40K [1P]
1 - notion, 2 - théorisation, 3 - application, I - intégralement, P - partiellement

Programme

  • Partie Introductive : Concepts de l'apprentissage statistique, Analyse en Composantes Principales (ACP)
  • Méthodes de regroupement des données (Clustering) : Classification Hiérarchique Ascendante (CHA), Algorithme des K-Means, Modèles de mélanges et Algorithmes EM
  • Bases de l'optimisation : méthodes du gradient et de Newton, introduction aux outils mathématiques pour l'optimisation sous contraintes convexe
  • Méthodes pour la discrimination de données : Décision Bayésienne, Régression logistique, SVM linéaire, notions de validation croisée

Pré-requis

Notions de base en Statistiques et en programmation sous Matlab

Bibliographie

  • Christopher Bishop, Pattern Recognition and Machine Learning, 2006
  • Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning (Data Mining, Inference, and Prediction) 200y
  • Richard Duda, Peter Hart, David Stork, Pattern Classification,

Méthode d'évaluation

  • Examen théorique : 50%
  • Examen machine : 50%