La science des données au gouvernement du Canada
Les sciences des données dans le gouvernement du Canada
Qu'est-ce que la science des données?
La science des données est un domaine interdisciplinaire qui utilise des méthodes et des algorithmes scientifiques pour extraire des renseignements et acquérir des connaissances au moyen de divers types de données. Il combine une spécialisation dans le domaine, des compétences en programmation et des connaissances en mathématiques et en statistiques pour résoudre des problèmes analytiquement complexes. Vous pouvez obtenir un bref aperçu du travail quotidien d'un scientifique des données au sein du gouvernement du Canada en regardant cette vidéo.
La pandémie de COVID-19 : Un rappel saisissant du rôle crucial des scientifiques des données
La science des données permet aux organismes statistiques de réagir rapidement aux changements économiques et sociaux. Pa exemple, au Canada, la puissance de la science des données est utilisée par Statistique Canada à l'appui de la réponse à la COVID-19.
L'organisme a collaboré avec Santé Canada pour représenter l'information sur l'offre et la demande des équipements de protection individuelle (EPI). Avant de pouvoir visualiser les données, il a été nécessaire de les extraire et de les intégrer. Des données provenant de nombreuses sources étaient obtenues chaque jour (différents gouvernements provinciaux ou territoriaux, d'autres ministères fédéraux et des entreprises du secteur privé qui avaient accepté de nous aider à trouver les EPI), dans de nombreux formats différents (p. ex. des documents Word, des fichiers Excel ou des documents en format PDF), et nécessitaient une quantité importante de travail manuel pour créer des rapports normalisés.
Pour améliorer ce processus, un algorithme d'analyse des données a été créé par les scientifiques des données de Statistique Canada pour diviser celles-ci en différents types de données. L'apprentissage automatique a été utilisé pour repérer les nombres et les dates dans le texte. Les données ainsi structurées ont ensuite été présentées dans un tableau de bord Power BI qui a été partagé avec d'autres ministères afin de répondre à leurs besoins en matière d'information et de mieux comprendre l'offre et la demande d'EPI au Canada.
Source: Centre de la science des données, Statistique Canada, 2022-09-29
Profils d'emploi en sciences des données au gouvernement du Canada
Les descriptions complètes des profils de poste suivants se trouvent sur la page GCwiki du Réseau des sciences des données pour le service public fédéral (DSNFPS).
Analyste en sciences des données
Les analystes en science des données utilisent les données pour déterminer et résoudre des problèmes opérationnels complexes. Ils ont une orientation interdisciplinaire, utilisant les techniques et les connaissances d’un éventail de disciplines scientifiques et informatiques (par exemple, l’économie, les statistiques, les mathématiques, l’analyse prédictive et l’apprentissage automatique) et font généralement partie d’équipes de projet multidisciplinaires comprenant des ingénieurs en science des données, des propriétaires fonctionnels, des sociologues, des analystes commerciaux, des gestionnaires de projet, des ingénieurs/designers de logiciels et d’autres. Les rôles et responsabilités d’un analyste en science des données peuvent inclure :
● Déterminer les problèmes des propriétaires fonctionnels, comprendre où la science des données peut ajouter de la valeur pour appuyer la prise de décisions stratégiques et opérationnelles, et concevoir des solutions et des mesures en science des données pour ces problèmes;
● Nettoyer, traiter et explorer des données structurées et non structurées afin d’en extraire de l’information exploitable pour prendre des décisions commerciales;
● Élaborer et valider des modèles statistiques à partir de données, souvent à l’aide de techniques statistiques avancées comme l’économétrie, l’apprentissage automatique, l’analyse prédictive, la régression, la segmentation et d’autres techniques pertinentes;
● Soutenir les informaticiens et les ingénieurs en science des données qui effectuent le déploiement et la maintenance des modèles;
● Utiliser les pratiques exemplaires de codage pour produire du travail reproductible et vérifiable;
● Explorer et visualiser les données pour présenter l’« histoire » des données, sur la base d’une compréhension approfondie des processus opérationnels et des comportements incitatifs, de manière significative à l’intention d’un large éventail de publics techniques et non techniques;
● Utiliser une gamme changeante d’outils et de techniques d’analyse de données, y compris les sources ouvertes, dont certains doivent être appris rapidement, au besoin;
● Respecter les règles, les lignes directrices et les normes relatives aux solutions numériques ainsi qu’au développement et à la mise en œuvre responsables de l’intelligence artificielle et de l’apprentissage automatique.
Ingénieur en science des données
Les ingénieurs en science des données travaillent avec les scientifiques des données pour alimenter, déployer, surveiller et maintenir des modèles et d’autres produits de données. Ils ont une compréhension en science des données ainsi qu’une expertise en informatique relative aux opérations des systèmes de production (DataOps/MLOps). Les rôles et responsabilités d’un ingénieur en science des données peuvent inclure :
● Faire le prototypage et la démonstration de solutions pour les clients dans des environnements clients pour permettre un développement ultérieur;
● Mettre au point des solutions de pipelines de bout en bout (Data/MLOps) sur la base d’une compréhension approfondie des plateformes en nuage, du cycle de vie de l’intelligence artificielle et des problèmes opérationnels afin de garantir que les solutions d’analyse sont fournies de manière efficace, prévisible et durable;
● Construire un logiciel d’automatisation pour exploiter les systèmes nécessaires à la conservation des données, à la gestion des données, aux carnets de données scientifiques, à la formation distribuée, au dépôt de modèles, au dépôt de caractéristiques, à la prestation continue, au service de modèles et à la surveillance;
● Exploiter des systèmes d’intelligence artificielle de production et s’assurer qu’ils sont disponibles, évolutifs et performants;
● Construire et communiquer l’expertise technique nécessaire pour analyser et recommander des solutions de qualité professionnelle pour rendre l’intelligence artificielle ou les modèles analytiques avancés opérationnels;
● Communiquer les meilleures pratiques et les outils parmi les équipes de science des données afin d’améliorer la productivité et d’éviter les erreurs courantes;
● Assembler différentes pièces afin de construire un système de production de bout en bout, fiable et de qualité professionnelle;
● Établir l’architecture et les processus de déploiement requis pour l’intelligence artificielle, de l’ingestion des données à la production et à la maintenance;
● Fournir des conseils techniques à la direction et aux autres scientifiques en ce qui concerne l’opérationnalisation des modèles.
Spécialiste de la visualisation en science des données
Les spécialistes de la visualisation des données rendent les données volumineuses et/ou complexes plus accessibles, compréhensibles et utilisables. Ils fournissent des données de manière utile et attrayante aux utilisateurs finaux. Cela exige une expertise dans la traduction des données et des résultats statistiques de manière à ce qu’ils soient utiles à la fois aux experts en la matière et aux utilisateurs professionnels. Les rôles et responsabilités d’un spécialiste de la visualisation en science des données peuvent inclure :
● Susciter les besoins des utilisateurs finaux en matière de visualisation de données et de fonctionnalités connexes (par exemple, l’interactivité);
● Accéder à des données provenant de différentes sources et les manipuler, par exemple, en utilisant des fichiers non hiérarchiques ou des requêtes en langage de requête structuré (SQL);
● Élaborer des tableaux de bord, des infographies et des visualisations interactives à l’aide de différents logiciels, notamment des outils communs de veille stratégique (par exemple, PowerBI, Tableau, PowerPoint) ou des bibliothèques spécialisées (par exemple, D3.js, seaborn, plotly);
● Comprendre et appliquer les meilleures pratiques pour la conception en visualisations de données;
● Communiquer les meilleures pratiques et outils de visualisation en science des données entre les équipes de science des données, pour éviter les erreurs courantes et rendre les visualisations de données plus efficaces;
● Gérer, épurer, extraire et agréger les données parallèlement à une série d’études analytiques sur ces données;
● Manipuler et relier différents ensembles de données;
● Utiliser des techniques de communication narrative pour communiquer les résultats et les répercussions de l’analyse.