En utilisant des modèles prédictifs basés sur les données collectées, le Centre de services scolaire du Val-des-Cerfs a pu identifier les signes avant-coureurs du décrochage de certains élèves et prendre des mesures préventives envers ceux-ci. Avec une capacité de prédiction atteignant 80 %, cette initiative démontre comment l’analyse des données peut être utilisée pour améliorer l’éducation et soutenir les élèves en difficulté.
Le projet ne date pas d’hier au Centre de services scolaire du Val-des-Cerfs (CSSVDC). C’est en 2017 que le directeur général, Éric Racine, a mis en place le projet avec comme objectif « la détection d’élèves à risque de décrochage ne présentant pas de signes clairs d’enjeux liés à la persévérance scolaire ». Aujourd’hui, le CSS emploie à l’interne un scientifique de données, qui est appuyé par des experts externes, pour assurer le maintien de l’infrastructure technologique et faire évoluer les modèles prédictifs développés. D’autres CSS l’ont aussi joint pour mettre en commun leurs travaux.
Repérer les élèves à risque
Dès son arrivée en poste en 2015, M. Racine avait cherché des façons de mieux repérer les élèves susceptibles de décrocher et il en était venu à la conclusion que, pour plusieurs d’entre eux, aucun signe avant-coureur n’est visible. Malgré des tentatives de colliger des données « à la mitaine », il n’arrivait tout simplement pas à y avoir clair.
C’est la firme Raymond Chabot Grant Thornton qui a offert à M. Racine de mettre à sa disposition deux jeunes experts pour développer et expérimenter des modèles de prédiction permettant d’identifier les élèves à risque. Le rapport de l’étude menée par le chercheur Christian Boudreau de l’École nationale d’administration publique (ÉNAP) présente bien comment ils s’y sont pris pour construire la base de données et le modèle prédictif.
Une fois bien rodé au CSSVDC, le modèle a pu être mis à l’épreuve à partir de la fin 2020 dans d’autres CSS, grâce à un soutien financier du ministère de l’Éducation. Les cinq autres CSS ayant participé au projet pilote sont le CSS de la Vallée-des-Tisserands, le CSS de Saint-Hyacinthe, le CSS de Laval, le CSS de la Région-de-Sherbrooke et le CSS des Chênes. Le modèle de prédiction a alors été adapté au contexte de chacun.
Pour un des experts associés au projet, l’expansion vers d’autres CSS est possible « à la condition que les organisations soient responsables de la modélisation et de son intégration » dans le fonctionnement de leur organisation. Le défi à relever dépend davantage de la maturité des organisations dans cette valorisation des données que d’enjeux strictement technologiques, précise-t-il.
Les données utilisées sont regroupées en cinq catégories : profil scolaire, comportement, assiduité, performance, sociodémographie.
Aller plus loin
Devant le succès rencontré, le CSSVDC a créé en 2022 un centre d’expertise régional destiné à la valorisation des données. Jusqu’à maintenant, 7 CSS sur les 15 situés dans les régions de la Montérégie et de l’Estrie ont joint le centre. Après avoir contribué à l’élaboration de modèles de prédiction, les CSS collaborent au développement et à la mutualisation de tableaux de bord.
De plus, les modèles de prédiction ne se limitent plus à la persévérance ou au décrochage scolaire. D’autres types de modèles ont été développés, dont l’un portant sur le risque d’échec des élèves à leurs examens obligatoires de 4e ou de 6e année du primaire en français et en mathématiques, et l’autre, sur le risque de ne pas monter en 5e année du secondaire et de ne pas obtenir de diplôme de fin d’études.
Les conditions facilitant le développement de modèles prédictifs efficaces
L’étude de M. Boudreau visait à documenter le processus de développement des modèles prédictifs au CSSVDC, mais également à nommer des conditions facilitant la mise en place du projet. Voici les principales.
1- Des données à exploiter nombreuses et variées
L’entraînement des modèles de prédiction exige l’exploitation de nombreuses données. Le CSSVDC détient des données sur les 60 000 élèves qui ont fréquenté ses établissements scolaires depuis 2001. L’entraînement s’appuie maintenant sur l’exploitation de quelque 2 000 variables.
2- Une infrastructure technologique dédiée
Le CSSVDC s’est doté de sa propre infrastructure technologique, dont un serveur, un entrepôt de données et des applications d’analytique avancées, ce qui lui permet, ainsi qu’aux autres CSS partenaires, de fonctionner de façon autonome dans la valorisation des données, que ce soit pour entraîner des modèles de prédiction ou pour créer des tableaux de bord.
3- L’embauche d’un expert en valorisation des données
Le fait de disposer à l’interne d’un expert en valorisation des données qui connaît bien la réalité du terrain facilite le déploiement d’outils en intelligence artificielle (modèles de prédiction) ou en intelligence d’affaires (tableaux de bord) dans l’organisation.
4- La mutualisation des ressources
La mutualisation des ressources stratégiques est l’un des avantages du projet. Le CSSVDC met à la disposition des autres CSS partenaires l’expertise de son scientifique de données, de même que son infrastructure technologique, afin qu’ils puissent valoriser leurs propres données sans avoir à investir dans une telle infrastructure. De plus, l’ensemble des modèles et tableaux de bord développés sont partagés entre les CSS.
5- Des modèles de prédiction à code source ouvert (open source)
Les modèles de prédiction ont été conçus en code source ouvert. Celui-ci est donc disponible pour les CSS et autres utilisateurs qui souhaitent l’examiner, l’utiliser et l’adapter.
6- La présence d’un dirigeant entrepreneur
L’engagement soutenu du directeur général dans toutes les phases du projet et son leadership ont su rallier plusieurs partenaires. Il a été l’instigateur de ce projet et le principal porteur et ambassadeur.
Des enjeux et des défis
Les responsables et partenaires du projet ont aussi été confrontés à des enjeux et à des défis de gestion dans la mise en œuvre de ce projet.
1- Une culture de données et de pratiques de valorisation à instaurer
La valorisation des données n’est pas une pratique qui semble bien implantée auprès de la majorité des CSS. La vétusté des infrastructures technologiques et l’absence d’outils analytiques peuvent expliquer en partie ce retard. Selon les personnes rencontrées par le chercheur Boudreau, l’instauration d’une culture de données et de pratiques de valorisation doit passer par une prise de conscience du potentiel de réutilisation des données par les gestionnaires, le personnel enseignant et les autres intervenants.
2- Des préoccupations professionnelles et éthiques
La valorisation des données soulève des préoccupations de nature professionnelle, notamment auprès des enseignantes et des enseignants. Ceux-ci pourraient percevoir les outils développés comme une menace à leur autonomie et à leur jugement professionnel. La valorisation des données soulève aussi des questions d’ordre éthique par rapport aux élèves eux-mêmes. Dans ce contexte, il importe de rassurer les parents à l’effet que les modèles de prédiction utilisés serviront à la réussite scolaire de leur enfant, tout en minimisant les effets d’une possible stigmatisation et autres préjudices.
3- Des données à intégrer et à normaliser
La définition des variables utilisées dans les modèles prédictifs peut changer d’un CSS à l’autre. Des défis de normalisation et d’interopérabilité des données se posent, notamment quand un CSS intègre le centre d’expertise régional.
4- Les exigences de la Commission d’accès à l’information
La Commission d’accès à l’information (CAI) du Québec a démarré une enquête de sa propre initiative sur le CSSVDC en février 2019. Elle lui a d’ailleurs recommandé de réaliser une évaluation des facteurs relatifs à la vie privée avant de procéder au déploiement de l’outil.
Le CSS poursuit son engagement et ses travaux en ayant à l’esprit que « les modèles de prédiction [doivent toujours être utilisés] comme des outils d’aide à la décision et non comme des mécanismes de surveillance et de sanction ».