Segers, JohanNgon, Jean MarcJean MarcNgon2025-05-142025-05-142025-05-142023https://hdl.handle.net/2078.2/34672L'émergence des données en haute dimension a suscité un intérêt croissant pour le développement des méthodes d'analyse très efficace tel que le regroupement en classe. Ne connaissant pas toujours la structure de nos données, cette approche est très utile quand l'étiquetage des données devient coûteux. C'est l'exemple d'une large banque d'images ou un grand nombre de documents textuels à classifier. Lorsqu'on pense au regroupement en classe, la première méthode qui nous vient en tête est le K-means qui est une approche très simple à mettre en place. Cette étude essaye de combler les limitations du K-means standard en contexte de haute dimension en explorant des méthodes parcimonieuses qui parviennent à identifier les variables cruciales pour la distinction des classes. Après avoir présenté les premiers travaux de regroupement en classes qui visent à utiliser une technique de réduction de dimension avant le regroupement, nous examinons en détail le K-means traditionnel en mettant en évidence ses avantages et limites dans les espaces de haute dimension. Nous présentons ensuite le trimmed K-means, une version robuste qui fonctionne correctement en présence des valeurs aberrants. Nous présentons également le SK-means et le RSKC, des méthodes parcimonieuses qui ciblent les variables pertinentes pour la distinction des classes. En appliquant ces méthodes à des données simulées dans diverses configurations, et en utilisant le taux d'erreur de classification (CER) comme métrique d'évaluation, nous comparons leur performance. Les résultats montrent que le RSKC se démarque en tant que méthode la plus performante. Grâce à sa régularisation LASSO et sa robustesse au valeurs aberrante, le RSKC identifie efficacement les variables pertinentes responsable au regroupement en classes. Cependant, l'application de ces méthodes à des données textuelles révèle que le trimmed K-means s'adapte étonnamment bien à ce contexte, soulignant son aptitude à discriminer les classes. Ce résultat est expliqué par le fait que le K-means et le Trimmed K-means attribuent des poids égaux aux variables, ce qui peut convenir lorsque les variables ont une importance similaire. Ces résultats mettent en évidence l'importance de choisir la méthode de regroupement en fonction du contexte spécifique des données. The emergence of high-dimensional data has sparked growing interest in the development of highly effective analysis methods, such as clustering. Given that we don't always know the structure of our data, this approach is particularly useful when data labeling becomes costly. This is the case with large image datasets or a substantial number of text documents requiring classification. When considering clustering, the first method that comes to mind is the K-means, which is a straightforward approach to implement. This study aims to address the limitations of standard K-means in a high-dimensional context by exploring sparse methods that manage to identify crucial variables for class differentiation. After presenting the initial works on cluster analysis that aim to employ dimensionality reduction prior to clustering, we delve into traditional K-means, highlighting its advantages and limitations in high-dimensional spaces. We then introduce the trimmed K-means, a robust version that performs well in the presence of outliers. We also introduce SK-means and RSKC, sparse methods that target relevant variables for class differentiation. By applying these methods to simulated data in various configurations and using the Classification Error Rate (CER) as an evaluation metric, we compare their performance. The results demonstrate that RSKC stands out as the most effective method. Thanks to its LASSO regularization and robustness to outliers, RSKC efficiently identifies the relevant variables responsible for clustering. However, applying these methods to textual data reveals that trimmed K-means surprisingly adapts well to this context, emphasizing its ability to discriminate between classes. This result is explained by the fact that K-means and trimmed K-means assign equal weights to variables, which can be suitable when variables carry similar importance. These findings underscore the importance of selecting a clustering method based on the specific context of the data.NLPK-meansRSKCLASSOClusteringExploration des méthodes Sparse K-Means et leurs utilisations dans le contexte des données textuellestext::thesis::master thesisthesis:43612