No Thumbnail Available

L’analyse de données au service de la gestion du capital humain en entreprise : cas de l’absentéisme chez bpost

(2020)

Files

DENUIT_Bastien_INGM2M_FoussFrançois_juin20.pdf
  • Closed access
  • Adobe PDF
  • 3.24 MB

Details

Supervisors
Faculty
Degree label
Abstract
Ce mémoire-projet s’intéresse à l’analyse de l’absentéisme au sein de l’organisation bpost via l’utilisation d’algorithmes d’analyse de données. Son but est d’identifier des profils de travailleurs particulièrement absents afin de réduire le taux d’absentéisme de l’organisation. Une revue de la littérature a tout d’abord été réalisée au sujet des deux grands concepts sur lesquels ce mémoire s’appuie : l’absentéisme d’une part, en le définissant et en abordant ses facteurs, coûts, conséquences et mesures, ainsi que le HR Analytics d’autre part, en le définissant et en abordant ses bénéfices, obstacles et perspectives d’avenir. Ces connaissances nous permettront de mieux maitriser ces concepts primordiaux pour la seconde partie du mémoire. Ensuite, dans la partie pratique de ce mémoire, trois algorithmes répartis en deux catégories ont été utilisés sur base des données disponibles au sein de bpost. Ces données sont reprises de manière mensuelle et décrivent chaque travailleur de l’organisation au cours des années 2018 et 2019. Les travailleurs sont par ailleurs séparés en quatre départements, chacun ayant des caractéristiques spécifiques nécessitant de les isoler les uns des autres. Pour mener à bien les analyses, les travailleurs absents seront différenciés des travailleurs non absents selon une double condition basée sur les valeurs prises par certaines variables concernant l’absentéisme. Premièrement, un algorithme de clustering a été utilisé, le k-means. Celui-ci a été capable de répartir les travailleurs absents en plusieurs groupes afin d’observer les variables qui déterminent le plus l’absentéisme dans chacun de ces groupes. Ces résultats ont ensuite été présentés aux responsables de chaque département afin d’en avoir un retour. Deuxièmement, deux algorithmes de classification ont été utilisés : une régression logistique et un arbre de décision. Ceux-ci ont pour but d’assigner chaque comportement mensuel à l’une des deux classes de notre variable dépendante : le travailleur est absent, ou il ne l’est pas. La base de données utilisée a été divisée en deux groupes : un training set composé de 80% des données, et un test set composé de 20% des données. D’une part la régression logistique a fourni des résultats statistiquement significatifs sur la classification des travailleurs. Elle n’a néanmoins pas su donner de bonnes prédictions concernant l’attribution d’un nouveau travailleur à l’une des deux classes de la variable dépendante. D’autre part, l’arbre de décision n’a pas été capable de discriminer les travailleurs sur base des variables disponibles. Les prédictions d’absence de cet algorithme n’ont donc pas pu être générées. Les résultats de ces algorithmes nous permettent ensuite de confirmer ou d’infirmer deux hypothèses posées au préalable. La première, concernant l’algorithme de clustering, annonce que des groupes de travailleurs caractérisés par l’âge et l’ancienneté seront créés : un groupe plus jeune et un groupe moins jeune. Elle a pu être confirmée. En revanche, la deuxième hypothèse, relative cette fois aux algorithmes de classification, a dû être infirmée. En effet, cette hypothèse annonçait que les algorithmes de régression logistique et d’arbre de décision discrimineraient la base de données composée de tous les travailleurs selon certaines variables-clé en deux groupes distincts : les travailleurs absents et les travailleurs non absents. Cette classification serait suivie d’une prédiction d’absence liée à de nouveaux comportements. Ceci n’a pas été le cas. Après avoir constaté et interprété les résultats de l’algorithme de clustering, nous avons enfin identifié les problèmes auxquels nous nous sommes heurtés concernant les résultats des algorithmes de classification et susceptibles d’être à la source de ces résultats. Ceux-ci concernent le caractère aléatoire de la maladie, la pertinence des variables utilisées, la faible proportion des absents par rapports aux non absents, l’aspect temporel et enfin les deux catégories d’âge présentes au sein des absents. Ces éléments seront détaillés dans les sections concernées. Pour chaque problème, des pistes d’amélioration seront proposées en tenant compte des spécificités de l’organisation étudiée et des solutions proposées dans la littérature.