Data Mining

ASI 4 - INSA de Rouen
Philippe Leray (philippe.leray@insa-rouen.fr) le forum DM
Alain Rakotomamonjy (arakoto@insa-rouen.fr) le forum MATLAB

Résumé du cours

Aujourd'hui toutes les entreprises collectent et stockent de grandes quantités de données. Ces mégabases de données, qui ne cessent d'augmenter jour après jour, sont peu exploitées, alors qu'elles cachent de connaissances décisives face au marché et à la concurrence. Pour combler ce besoin, une nouvelle industrie est en train de naître : le Data Mining (qu'on appellerait en français la fouille de données). Le but de cette UV est d'initier les élèves-ingénieurs aux méthodes et algorithmes issus des statistiques et utilisés en Data Mining.

La première partie du cours aborde les méthodes de représentation de données multidimensionnelles (Analyse en composantes principales, ...)

Dans la seconde partie, le cours se concentre sur les méthodes de "clustering", méthodes permettant de regrouper les individus ressemblant dans des classes représentatives.

La dernière partie du cours porte sur la notion de discrimination, i.e. les méthodes permettant de construire une fonction d'association entre un invidu et une classe.

Plan du cours
Cours
TD/TP
Données (+ fichiers Matlab)
Introduction au Data-Mining

158 Ko
Evaluation et sélection de modèles

24Ko
Analyse en composantes principales














Clustering hiérarchique



8649Ko
Classification Hiérarchique Ascendante

56Ko
Clustering par partitionnement K-Means

1098Ko
Cartes de Kohonen Cartes de Kohonen

66Ko

Déroulement des séances
  • Cours/TD (10 semaines)
  • Examen (fin mai)
  • Projet (3 semaines)
  • Soutenance (fin juin)

Le sujet de chaque séance de TD sera une mise en application des algorithmes vus en cours afin de bien observer les différents problèmes pratiques posés, les limites, avantages et inconvénients de chaque méthode, etc ...

Pour chaque TD vous rendrez un rapport de quelques pages (3 pages max) décrivant les expériences réalisées (et résultats) puis vos différentes remarques concernant ce que vous avez compris du TD. Ce rapport devra être envoyé par e-mail à Philippe.Leray@insa-rouen.fr avant le TD suivant.

Quelques Toolbox Matlab utiles

La partie programmation et le projet sont pour la plupart à faire avec le logiciel Matlab. Si vous êtes débutant en Matlab, prenez le temps de visiter le forum ASI sur MATLAB et n'hésitez pas à poser des questions ! Il sera eventuellement possible d'utiliser le logiciel libre R.

Vous pourrez trouver des trucs utiles dans les toolbox Matlab gratuites suivantes :
(la liste n'est pas exhaustive ... si vous trouvez d'autres toolbox intéressantes, prévenez moi !)

Références

Auteur : Ph. Leray
Date de mise à jour :