Hackathon Statup ENSAE du 6/11 au 24/11 – les biais dans les algorithmes de recrutement RH.

06 novembre 2023 Association

Vue 1607 fois

Le traditionnel hackathon annuel de l’ENSAE s’est déroulé cette année sur un format plus long que les années précédentes. Les équipes ont travaillé pendant trois semaines autour d’un sujet commun : comment lutter contre le biais dans les algorithmes de sélection RH ? La mission des étudiants : créer

un algorithme de recommandation de profils pour des postes dans le secteur technologique sur la base de données de candidats, sans créer de discrimination envers des populations sous-

représentées telles que les femmes ou les profils plus âgés.

Cette année c’est l’entreprise française de data science Ekimetrics qui a sponsorisé le Hackathon qui a été piloté par Emilie Rannou (ENSAE 2007) associée, responsable du secteur financier chez Ekimetrics et Annabelle Blangero en charge de l’IA responsable chez Ekimetrics.

Quel a été le déroulé ? 32 étudiants se sont répartis en 8 groupes avec l’objectif de proposer un algorithme de sélection de candidat sans biais entraîné sur un data set fourni (70 000 candidats représentés par 15 caractéristiques différentes incluant catégorie d’âge, genre, nationalité et niveau d’éducation). Les livrables attendus étaient un code détaillé et une présentation orale de 10 minutes devant un jury de 6 personnes. Les étudiants devaient mettre en avant leur maîtrise technique des algorithmes et leur approche pour diminuer le biais, et quantifier les avantages que leur outil apporterait à l’entreprise.

Les encadrants d’Ekimetrics ont encouragé les étudiants à prendre le temps de bien analyser les biais des données avant d’implémenter leurs algorithmes. La plupart des étudiants ont naturellement mis en place des solutions de « pre-processing » c’est-à-dire de correction de la donnée pour équilibrer les biais, notamment les biais de genre. Les méthodes de re-weighting et re-sampling ont été classiquement appliquées. Les étudiants ont pu ensuite mettre en application leurs connaissances en data science avec l’utilisation de « decision trees », « random forests » et « Gradient Boosting ».

L'équipe Tuxae, composée de Tien-Thinh Tran-Thuong, Alyette Lahondès De La Figère, Théo Lartigau, Johanne Bohn, Rémy SIAHAAN, Jacques Zhang a décroché la première place grâce à leur maîtrise du sujet et pour avoir été jusqu’à développer une interface web.

L'équipe Ekimetrics composée de Côme Nadler, Alexandre Partensky, Grégoire Brugere, Marina Blazevic a décroché la deuxième place grâce à la compréhension fine des enjeux.

Finalement l'Équipe 6 composée de Tilian Bourachot, Choho Yann Eric CHOHO, Massine Djenaoui, Gabin Simonnet a eu les faveurs du jury pour avoir ajouté des indicateurs d’explicabilité.

Les étudiants ont pu appliquer leurs connaissances à un cas concret de l’IA responsable et se rendre compte de la difficulté majeure à laquelle ils vont faire face en sortant de l’ENSAE : la qualité de la donnée - une démarche que nous encourageons tous !