S’initier aux fondements de la Fouille de Données
- Introduire les concepts de base de la fouille de données
- Préparer les types de données pour l'analyse
- Utiliser des méthodes de prétraitement : nettoyage, réduction de dimension, normalisation
- Sélectionner des caractéristiques pour une meilleure performance
- Évaluer les performances : précision, rappel, F-mesure
- Utiliser des bibliothèques et des outils de fouille de données
Découvrir les techniques de classification
- Maîtriser l'apprentissage supervisé et non supervisé en classification
- Exploiter des algorithmes de classification : Arbres de décision, k-plus proches voisins, SVM, réseaux de neurones
- Appliquer des techniques d'ensemble : Forêts aléatoires, Boosting, Bagging
- Traiter les données déséquilibrées en classification
- Optimiser les hyperparamètres pour des modèles de classification performants
- Analyser des études de cas en classification avec des données réelles
Analyser le Clustering
- Comprendre les concepts fondamentaux du clustering et du partitionnement de données
- Utiliser des algorithmes de clustering : K-Means, DBSCAN, Agglomératif, Mean Shift
- Valider et évaluer les clusters : indice de silhouette, critère d'Elbow
- Sélectionner le nombre optimal de clusters avec des techniques spécifiques
- Utiliser des techniques de visualisation pour l'analyse de clusters
- Examiner des études de cas en clustering avec des données multidimensionnelles
Analyser l'Association et des Séquences
- Extraire des règles d'association et d'items fréquents
- Appliquer l'algorithme Apriori et FP-Growth
- Explorer l'analyse de séquences : modèles de Markov cachés, GSP
- Appliquer l'analyse de l'association dans le marketing et la recommandation
- Analyser des études de cas en analyse de l'association et des séquences
Découvrir les techniques avancées en Data Mining
- Utiliser l'analyse en composantes principales (PCA) pour la réduction de dimension
- Calculer la similarité et la dissimilarité entre données
- Explorer les données textuelles et réaliser une analyse de sentiments
- Exploiter les techniques d'apprentissage non supervisé : réduction de dimension non linéaire, clustering hiérarchique spectral
- Maîtriser les méthodes d'ensemencement en apprentissage non supervisé
- Analyser des études de cas sur des données hétérogènes et complexes
Découvrir les applications spécialisées et études de cas
- Détecter des anomalies : utiliser des méthodes statistiques et basées sur les modèles
- Explorer la fouille de données temporelles et les séries chronologiques
- Appliquer la fouille de données en bioinformatique, finance, santé, etc.