Cadre de la qualité des données du GC

From wiki
Jump to navigation Jump to search

Contexte

Les données sont fondamentales pour le gouvernement numérique. Le gouvernement du Canada (GC) se fie de plus en plus aux données afin d’appuyer la conception et la prestation de programmes et de services. Les données constituent également un élément essentiel de l’élaboration de politiques fondées sur des données probantes, ce qui permet au gouvernement de prendre des décisions mesurées et opportunes qui profitent à tous les Canadiens. Elles appuient également l’engagement du gouvernement à l’égard de l’ouverture et de la transparence, ce qui contribue à renforcer la confiance du public à l’égard du gouvernement numérique. Les données jouent également un rôle dans l’avancement de la coopération internationale et aident le Canada à respecter ses obligations internationales.

Pour que les données soient efficaces et fiables, elles doivent être adéquates à l’objectif. L’adéquation au besoin est un indicateur du fait que les données sont à la fois utilisables et pertinentes pour les besoins et les objectifs des utilisateurs[1]. La qualité des données a une incidence importante sur leur valeur pour les utilisateurs. Elle influence la capacité de découverte et de disponibilité des données pour les utilisateurs lorsqu’ils en ont besoin, ainsi que la façon dont ils peuvent utiliser ou réutiliser les données au sein des organisations et des administrations et entre elles. Le rôle prépondérant des données dans les opérations gouvernementales et la prise de décisions souligne également l’importance de données de grande qualité non seulement pour le mandat du gouvernement, mais aussi pour la confiance du public. Des données inexactes ou incomplètes, par exemple, peuvent mener à des politiques erronées ou à des décisions biaisées entraînant des répercussions négatives sur les personnes, les collectivités ou les entreprises. La gestion de la qualité des données tout au long du cycle de vie – de l’acquisition à l’élimination ou à l’archivage – peut contribuer à garantir qu’elles sont adaptées aux besoins, ce qui permet aux utilisateurs d’exploiter adéquatement leur valeur à l’appui de leurs objectifs. Cela fait appel à de multiples rôles dans une organisation : par exemple, les fournisseurs et les administrateurs de données veillent à ce que les données soient gérées de façon à être utilisables, tandis que les intendants et les consommateurs de données déterminent leur pertinence dans un contexte d’utilisation particulier.

Il faut une compréhension commune de la qualité des données au sein du gouvernement fédéral. Le paysage actuel comprend une vaste gamme d’approches en matière de qualité des données, chacune élaborée en fonction d’un type particulier de données ou d’un contexte organisationnel. Bien que de telles approches ciblées servent une fonction unique, un cadre commun ayant une vaste applicabilité peut renforcer les capacités de gouvernance des données à l’échelle du gouvernement en établissant un vocabulaire commun, en améliorant la cohérence des règles de qualité des données, en facilitant le partage et la réutilisation des données interministérielles et en favorisant des flux de données fiables et des pratiques éthiques.

Le Cadre de la qualité des données du GC (le Cadre) est une réponse au besoin croissant d’une orientation centrale dans ce domaine. La qualité des données est récemment devenue une priorité pangouvernementale. La Politique sur les services et le numérique du Conseil du Trésor (CT) tient la dirigeante principale de l’information (DPI) du GC responsable d’établir des normes pangouvernementales sur la qualité des données (paragraphe 4.3.1.1). Le Plan stratégique des opérations numériques : de 2021 à 2024 présente la nécessité d’un cadre gouvernemental de qualité des données comme mesure prioritaire. De même, la recommandation 17 de la Feuille de route de la Stratégie relative aux données pour la fonction publique fédérale (Feuille de route de la Stratégie relative aux données) prévoit la création d’un cadre de qualité des données adaptable à l’échelle du gouvernement. La nécessité d’une orientation commune sur la qualité des données est également évidente dans le Budget de 2021, qui comprend divers investissements dans les capacités des données dans des domaines prioritaires comme la santé, la qualité de vie, la justice et l’environnement. C’est également ce qui ressort des récentes lettres de mandat ministérielles, qui engagent les ministres à améliorer la qualité et la disponibilité des données désagrégées afin de favoriser l’élaboration de politiques justes et équitables.

La qualité des données est également priorisée au sein des ministères et organismes fédéraux. De nombreuses stratégies ministérielles en matière de données élaborées à la suite de la publication de la Feuille de route de la Stratégie relative aux données présentent la qualité des données comme une priorité organisationnelle et énumèrent les efforts prévus ou existants visant à la gérer efficacement. De plus, la Directive sur les services et le numérique du CT exige que les DPI ministériels et d’autres représentants désignés veillent à ce que « l’information et les données soient gérées pour permettre, dans la mesure du possible, l’interopérabilité des données, la réutilisation et le partage au sein des ministères et avec d’autres ministères à l’échelle du gouvernement afin d’éviter les répétitions et maximiser l’utilité, tout en respectant les exigences en matière de sécurité et de protection des renseignements personnels » (paragraphe 4.3.1.3).

La préoccupation relative à la qualité des données s’étend également aux systèmes de décisions automatisés, qui reposent sur des données pour remplir leurs fonctions. La Directive sur la prise de décisions automatisée du CT exige que les organisations fédérales valident la qualité des données recueillies pour les systèmes de décisions automatisés et utilisées par ceux-ci (paragraphes 6.3.1, 6.3.3). L’évaluation de l’incidence algorithmique, un outil d’évaluation des risques qui appuie la Directive en déterminant le niveau de l’incidence d’un système de décision automatisé, tient également compte de ce fait en demandant aux utilisateurs de déterminer les processus pour déceler les biais dans les données. Ensemble, ces mesures s’inscrivent dans une démarche plus large visant à traiter l’information et les données comme des actifs stratégiques « afin d’appuyer les activités opérationnelles du gouvernement, la prestation de services, les analyses et la prise de décisions » (Politique sur les services et le numérique, paragraphe 4.3.2.1).

La pandémie de la COVID-19 a amplifié le besoin d’approches pangouvernementales en matière de gouvernance des données au sein du GC. Le suivi, l’analyse et le contrôle de la propagation du virus au Canada ont obligé le gouvernement à mobiliser des capacités de collecte, de partage, d’intégration et de réutilisation des données en collaboration avec des partenaires provinciaux, territoriaux et internationaux. L’efficacité de cette opération dépend de la capacité des organisations du GC d’obtenir des données exactes et à jour aux fins de (dés)agrégation et d’analyse. Une compréhension commune de ces concepts de qualité à l’échelle du gouvernement peut améliorer les capacités de données horizontales, renforcer l’intervention en cas de pandémie du GC et améliorer la confiance du public.


Objectif

Le Cadre vise à établir une approche pangouvernementale de la définition et de l’évaluation de la qualité des données. Cela appuiera les priorités pangouvernementales, les objectifs et les exigences de la politique sur le numérique et les besoins des utilisateurs en :

  • appuyant la conformité à la Politique et à la Directive sur les services et le numérique du Conseil du Trésor en éclairant les approches organisationnelles et ministérielles en matière de qualité des données et de l’information;
  • permettant l’adoption d’approches cohérentes d’évaluation de la qualité des données et de l’information, y compris dans le contexte des données ouvertes, de l’architecture intégrée et de la gouvernance des données et de l’information à l’échelle du gouvernement;
  • appuyant les priorités en matière de données stratégiques définies dans la Feuille de route de la Stratégie relative aux données, le Plan stratégique des opérations numériques et les engagements des lettres de mandat ministérielles.

Le Cadre vise à renforcer les capacités pangouvernementales en matière de gestion et de contrôle de la qualité des données en vue :

  • d’améliorer la disponibilité, l’interopérabilité, la convivialité et la valeur publique des données;
  • de faciliter le partage et la réutilisation des données;
  • d’appuyer l’utilisation de l’analyse des données;
  • de renforcer la confiance envers les données.

Ces objectifs contribueront à faire progresser la prise de décisions fondées sur des données probantes et à améliorer la conception et la prestation des politiques, des programmes et des services dans l’ensemble du gouvernement.


Vue d’ensemble

Le cadre définit la qualité des données selon neuf dimensions : accès, exactitude, cohérence, exhaustivité, constance, intelligibilité, pertinence, fiabilité et actualité. Les données peuvent être considérées comme adéquates à l’objectif dans la mesure où elles répondent à ces critères. Le Cadre vise à s’appliquer à tous les types de données et à tous les contextes d’utilisation (ou de réutilisation). Il est aussi compatible avec diverses technologies.

Les dimensions fournissent aux utilisateurs un vocabulaire conceptuel permettant de cerner et d’analyser un large éventail de problèmes de qualité des données intrinsèques et extrinsèques afin de garantir que les données sont utilisables et pertinentes par rapport aux objectifs des utilisateurs. Les problèmes communs comprennent les difficultés à comparer les jeux de données obtenus de multiples sources, les retards dans l’acquisition de données actuelles et les inexactitudes dans les renseignements sur les clients. (Voir l’annexe B pour des exemples propres à chaque dimension du cadre.)

Les dimensions ne sont pas mutuellement exclusives; elles se chevauchent dans la pratique, puisque les problèmes de qualité des données ont tendance à avoir plusieurs facettes – un jeu de données comportant plusieurs représentations pour le même concept, par exemple, pourrait être à la fois incohérent (difficile à intégrer ou à comparer avec d’autres jeux de données) et inintelligible (difficile à interpréter). Toutefois, l’accent mis sur chaque dimension peut varier en fonction des besoins des utilisateurs, ce qui pourrait nécessiter des compromis. Par exemple, les besoins en matière de données actuelles pourraient amener les utilisateurs à accepter des compromis d’exactitude afin de garantir la rapidité. Il est également important de reconnaître que toutes les dimensions ne s’appliqueront pas nécessairement à un cas d’utilisation. L’établissement des priorités pourrait également dépendre de l’étape du cycle de vie à l’étude.

Chaque dimension du Cadre est complétée par des lignes directrices qui permettent aux utilisateurs de l’interpréter et de l’appliquer. Les lignes directrices présentent des mesures qui peuvent façonner et normaliser les approches d’évaluation de la qualité des données. Bien qu’elles ne soient pas nécessairement toutes pertinentes en même temps, elles peuvent servir de liste de vérification adaptable pour déterminer les exigences stratégiques et juridiques pertinentes, les considérations en matière de ressources, les pratiques exemplaires et les intervenants. La collaboration entre les organisations peut appuyer la mise en œuvre des lignes directrices, en particulier pour les données partagées, réutilisées ou diffusées au public.

L’applicabilité du Cadre à tous les types de données offre aux utilisateurs diverses occasions de l’adopter ou de l’adapter en fonction de leurs besoins. Pour des domaines de données spécifiques, le Cadre pourrait servir de base pour les agrandissements qui ajoutent aux dimensions (agrandissement horizontal) ou les élaborent davantage pour appuyer leur application dans ces contextes (agrandissement vertical).

Voici une liste illustrative d’instruments et de processus de gouvernance qui pourraient bénéficier de l’orientation commune sur la qualité des données établie dans le présent Cadre :

  • Cadre de responsabilisation de gestion (CRG) (p. ex., dans les évaluations de la maturité ministérielle dans la gestion des données du cycle de vie).
  • Normes relatives au numérique du GC (p. ex., dans l’évaluation des initiatives numériques par rapport à la norme « Être de bons utilisateurs de données »).
  • Évaluation de l’incidence algorithmique (p. ex., comme guide supplémentaire pour les questions relatives aux cadres et aux processus de qualité des données).
  • Évaluation des facteurs relatifs à la vie privée (p. ex., à titre d’orientation supplémentaire pour évaluer les répercussions sur la vie privée des programmes ou des activités touchant des renseignements personnels, ce qui comprend des considérations relatives à leur exactitude).
  • Cadre de l’architecture intégrée du GC (p. ex., dans les évaluations des initiatives numériques par rapport à la couche d’architecture de l’information de ce cadre).
  • Politiques ministérielles en matière de données et les cadres et outils connexes en matière de qualité des données (p. ex., les exigences, les principes, les structures de gouvernance ou les règles opérationnelles liés à la qualité des données).
  • Ententes interministérielles ou intergouvernementales de partage de données (p. ex., dans des clauses établissant des dispositions relatives à la qualité des données partagées ou échangées).
  • Présentations au CT (p. ex., en tant que vocabulaire commun permettant d’articuler les enjeux et les objectifs en matière de qualité des données dans le contexte de la conception ou de la mise en œuvre d’un programme).


Cadre

Les données peuvent être considérées comme adaptées à l’objectif lorsqu’elles correspondent aux dimensions suivantes. Les dimensions sont des principes qui décrivent les aspects intrinsèques et extrinsèques de la qualité des données au sein du gouvernement.

Accès : Facilité avec laquelle un utilisateur peut découvrir, traiter, manipuler et obtenir les données.

L’accès est une mesure de la disponibilité et de l’accessibilité des données pour répondre aux besoins des utilisateurs. Cette dimension dépend de plusieurs facteurs, comme la connaissance des données par les utilisateurs et leur capacité d’y avoir accès. Cependant, même lorsque les données sont consultées ou acquises, les utilisateurs peuvent ne pas toujours avoir la capacité de les traiter ou de les manipuler pour répondre à leurs besoins en raison de contraintes techniques, de ressources, d’information, de politiques ou de lois.

Exactitude : Mesure dans laquelle les données décrivent les phénomènes du monde réel qu’elles sont censées représenter.

Les données sont exactes lorsqu’elles représentent un phénomène adéquatement. Les évaluations de l’exactitude varient selon le contexte, la méthodologie et la validité des hypothèses ou suppositions sous-jacentes. Le maintien de l’exactitude dans les organisations du secteur public implique de garantir que les données recueillies pour administrer les services correspondent à ce que les clients ont partagé. Dans les initiatives stratégiques et de programmes, pour garantir l’exactitude, les utilisateurs doivent souvent valider les données en consultant des sources fiables et en évaluant les méthodes ou les processus par lesquels les données ont été acquises.

Cohérence : Mesure dans laquelle les données provenant d’une ou de plusieurs sources sont comparables et peuvent être reliées entre elles.

Un jeu de données cohérent est conforme aux taxonomies ou nomenclatures d’architecture communes. Les utilisateurs peuvent améliorer la cohérence des données en adoptant des normes organisationnelles, fédérales, nationales ou internationales applicables. Des données cohérentes sont réutilisables et interopérables; les utilisateurs peuvent également les intégrer et les comparer à d’autres données.

Exhaustivité : Mesure dans laquelle les valeurs de données sont suffisamment remplies.

Les données peuvent être considérées comme complètes lorsqu’elles contiennent les entrées nécessaires pour que les utilisateurs les utilisent de façon appropriée. L’information contextuelle et de fond permet aux utilisateurs de comprendre un jeu de données dans leurs secteurs d’activité respectifs.

Constance : Mesure dans laquelle les données sont non contradictoires en interne.

La cohérence permet de garantir la validité logique d’un jeu de données. Un jeu de données est cohérent si les relations entre ses composantes sont déterminées comme étant logiques.

Intelligibilité : Mesure dans laquelle les données peuvent être comprises dans leur contexte approprié.

Un jeu de données peut être interprété si un utilisateur est en mesure de comprendre ses entrées, de déterminer pourquoi et comment il a été recueilli ou créé, et de juger de sa pertinence pour une politique, un programme, un service ou une autre initiative gouvernementale.

Pertinence : Mesure dans laquelle les données sont jugées convenables pour appuyer un objectif.

La pertinence des données dépend de leur valeur informative ou analytique qu’elles apportent à l’objectif de l’utilisateur. Les évaluations de la pertinence dépendent du contexte : les mêmes données pourraient être pertinentes dans un contexte d’utilisation et non pertinentes dans un autre.

Fiabilité : Mesure dans laquelle la variabilité des données peut être expliquée.

La fiabilité porte sur le fait que les données répondent aux attentes des utilisateurs au fil du temps. Un jeu de données est fiable si les utilisateurs peuvent expliquer comment il évolue ou change au fil du temps.

Actualité : Durée entre la fin de la période à laquelle les données se rapportent et la période à laquelle ces données sont disponibles pour répondre aux besoins des utilisateurs.

L’actualité est une mesure du délai entre deux points de temps : le moment où les données ont dépassé leur période de référence et le moment où ces données sont mises à la disposition des utilisateurs.


Lignes directrices

Les lignes directrices permettent aux utilisateurs d’interpréter et d’appliquer les neuf dimensions de façon uniforme. Elles présentent des mesures qui peuvent façonner les approches d’évaluation de la qualité des données. Les utilisateurs sont invités à identifier les points de contact (p. ex., intendant des données, administrateur de données, fournisseur de données, expert sujet-matière) qui ont l’expertise appropriée pour répondre aux demandes de renseignements liées à chaque dimension.

Accès

  • Élaborer un répertoire ou un catalogue des jeux de données utilisés afin d’appuyer les politiques, les programmes ou les services.
  • Élaborer des métadonnées décrivant les concepts, les variables et les nomenclatures de vos actifs de données conformément à la Norme sur les métadonnées et à la Norme sur les données géospatiales du Conseil du Trésor (CT).
  • Établir des processus visant à documenter, conserver, publier, archiver et éliminer les données collectées ou créées dans votre organisation.
  • Attribuer des catégories de sécurité aux actifs de données, comme l’exige la Directive sur la gestion de la sécurité du CT.
  • Définir les droits et privilèges d’accès pour les actifs de données afin de les protéger contre un accès non autorisé conformément à la Directive sur la gestion de la sécurité du CT.
  • Veiller à ce qu’il existe des processus et des procédures pour appuyer la production de données en réponse aux demandes de renseignements en vertu de la Loi sur l’accès à l’information et de la Loi sur la protection des renseignements personnels.
  • Veiller à ce que l’institution ait le pouvoir parlementaire de recueillir ou de créer les données pour un programme ou une activité de fonctionnement, conformément à la Directive sur les pratiques relatives à la protection de la vie privée du CT.
  • Utiliser un langage clair (p. ex., tel que décrit dans le Guide de rédaction du contenu du site canada.ca) et des formats lisibles par machine (p. ex., CSV, XML, JSON) visant à améliorer la portabilité des données et faciliter le traitement, la manipulation, la consommation, la publication et l’archivage des données par les utilisateurs.
  • Investir dans les infrastructures de données afin de fournir un accès facile et sécurisé aux données conformément à l’approche « en nuage d’abord » établie dans la Directive sur les services et le numérique du CT. Les données sensibles (Protégé B, Protégé C ou Classifié) devraient être conservées dans les systèmes situés à l’intérieur des frontières géographiques du Canada ou dans les organisations du GC à l’étranger (voir l’Orientation sur l’utilisation sécurisée des services commerciaux d’informatique en nuage et le Profil des mesures de sécurité pour les services du GC fondés sur l’informatique en nuage pour obtenir des directives sur l’utilisation sécuritaire des services d’informatique en nuage).
  • Fournir aux utilisateurs de multiples méthodes d’accès et d’extraction de données. Cela pourrait inclure la mise à disposition de données dans de multiples formats et au moyen d’API accessibles élaborées conformément aux Normes du GC sur les API.
  • Travailler à l’ouverture par défaut et publier les données dans le Portail du gouvernement ouvert conformément à la Directive sur le gouvernement ouvert du CT et comme le permettent les cadres fédéraux applicables en matière de protection des renseignements personnels, de sécurité et de propriété intellectuelle. À l’aide d’un langage clair, saisissez les données d’enregistrement des données ouvertes avec les métadonnées requises lors de la publication des données.
  • Réaliser des sondages pour identifier les obstacles à la découverte, à l’accès et à l’utilisation des données au sein de votre organisation.
  • Signaler tout accès aux données ou utilisation des données non autorisés aux agents de sécurité désignés et, en cas de renseignements personnels, au Secrétariat du Conseil du Trésor du Canada et au Commissariat à la protection de la vie privée du Canada, comme l’exige la Directive sur les pratiques relatives à la protection de la vie privée du CT.

Exactitude

  • Consulter les sources de données fiables visant à identifier les sources d’erreur, vérifier le contenu et comprendre le contexte entourant les données.
  • Veiller à ce que les données comprennent des métadonnées normalisées afin de permettre aux utilisateurs d’évaluer l’exactitude des données. Les métadonnées pertinentes pourraient comprendre des renseignements sur la source, le but et la méthode de collecte, le traitement, les révisions, la couverture et le modèle de données ainsi que sur les hypothèses connexes.
  • Veiller à ce que les données soient adéquatement représentatives de tous les domaines (p. ex., zones géographiques, populations) qu’elles contiennent, selon le cas.
  • Respecter les plages de valeurs attendues visant à maintenir la validité. Des explications concernant les valeurs aberrantes doivent être fournies aux utilisateurs de données.
  • Élaborer des règles opérationnelles permettant de valider de façon uniforme les données pour les erreurs, y compris le dédoublement dans un jeu de données. Appliquer les règles opérationnelles applicables tout au long du cycle de vie des données, notamment lors de la collecte et du partage des données.
  • Veillez à ce que votre méthode de production de données comprenne des étapes permettant de réduire au minimum les biais et les erreurs statistiques (p. ex., erreur d’échantillonnage). (Voir le Cadre de l’erreur d’enquête totale [en anglais] pour les sources d’erreurs statistiques et les indicateurs de qualité connexes. En ce qui concerne les préjugés, voir le processus d’Analyse comparative entre les sexes plus pour façonner les évaluations des inégalités systémiques qui pourraient se manifester dans les données.)
  • Veiller à ce qu’il existe une source faisant autorité pour les données, dans la mesure du possible.
  • Veiller à ce que l’institution ait le pouvoir légal de recueillir des données sur une personne identifiable et que cette collecte soit directement liée à un programme ou à une activité de fonctionnement au sein de l’institution. Des mécanismes devraient être en place pour corriger les renseignements personnels sur demande (voir la Directive sur les pratiques relatives à la protection de la vie privée du CT).
  • Valider les concepts et les hypothèses connexes en consultation avec des experts en la matière afin d’évaluer la précision des données, ou la mesure dans laquelle elles correspondent à ce que l’utilisateur a l’intention de mesurer.

Cohérence

  • Déterminer les normes relatives aux données organisationnelles, fédérales, nationales et/ou internationales applicables et documenter les différences dans les pratiques. Cette information peut être consignée dans un répertoire des normes pangouvernemental ou ministériel.
  • Adopter ou adapter les normes applicables relatives aux données, particulièrement lors du partage de données avec d’autres organisations ou de la publication de données dans le Portail du gouvernement ouvert. Les principaux aspects de la normalisation des données comprennent les nomenclatures, les métadonnées, la mise en forme, l’accessibilité, la syntaxe, le codage sémantique et le langage. Les normes pertinentes pourraient être propres à un domaine, conçues pour des types particuliers de données (p. ex. statistiques, géospatiales).
  • Consigner certaines normes dans un répertoire ou un catalogue de données, à titre de métadonnées ou dans des ententes de partage de données. Si de nouvelles normes sont élaborées, documenter les raisons pour lesquelles les normes relatives aux données existantes et applicables ne sont pas utilisées.
  • Veiller à ce que les éléments de données soient définis, classifiés et représentés conformément aux architectures de données communes, conformément au Cadre de l’architecture intégrée du GC.
  • Veiller à ce que les concepts, les définitions et les nomenclatures soient compatibles dans les jeux de données et entre eux afin de permettre la comparaison et l’intégration des données. En plus de l’environnement de données interne, les efforts dans ce domaine peuvent s’étendre aux organisations dans l’ensemble du GC et aux organisations externes dans l’ensemble des secteurs et des administrations.
  • Utiliser des tableaux de concordance permettant d’illustrer les écarts et les transitions entre les normes utilisées pour toutes les sources de données.
  • Réduire la duplication des données entre les jeux de données afin d’appuyer l’intégrité des données.

Exhaustivité

  • Veiller à ce qu’aucune entrée, colonne ou ligne centrale à l’objectif d’un jeu de données ne soit manquante ou incomplète.
  • Tenir à jour les valeurs, les concepts, les définitions, les nomenclatures et les méthodologies.
  • Attribuer des étiquettes obligatoires et facultatives aux colonnes ou aux lignes d’un jeu de données afin de faciliter les évaluations de l’exhaustivité.
  • Compléter les données au moyen des métadonnées appropriées qui précisent le contexte et le but de leur acquisition. Les métadonnées pourraient également préciser les facteurs relatifs à la vie privée, à la confidentialité ou à l’exactitude ayant une incidence sur l’exhaustivité.

Constance

  • Élaborer des règles de validation pour toutes les relations logiques codées dans un jeu de données. Cela pourrait inclure des règles officialisant la relation entre deux variables interdépendantes comme l’âge et l’état matrimonial (p. ex., l’âge minimum du mariage limite les catégories d’état matrimonial admissibles pour les personnes en dessous d’un certain âge) ou la municipalité et la province (p. ex., une municipalité doit se trouver dans une province).
  • Valider régulièrement la constance des jeux de données à l’aide des règles de validation pertinentes. Les processus de validation devraient être normalisés et automatisés afin d’appuyer l’efficacité.
  • Tenir un registre des problèmes d’uniformité relevés au moyen des procédures de validation des données et examiner périodiquement les règles de validation afin de garantir leur pertinence et leur efficacité.
  • Acquérir les métadonnées appropriées auprès du fournisseur de données pour en apprendre davantage sur les classes d’entités d’un jeu de données, les valeurs qu’elles sont censées permettre et les relations qui existent entre elles.

Intelligibilité

  • Adopter, adapter ou développer des vocabulaires contrôlés afin de veiller à ce que les concepts clés soient nommés et définis de façon uniforme dans un jeu de données. L’harmonisation avec les vocabulaires pangouvernementaux comme le Thésaurus des sujets de base du GC est recommandée.
  • Se conformer aux normes relatives aux données organisationnelles, fédérales, nationales et/ou internationales régissant les valeurs admissibles des éléments d’un jeu de données (p. ex., données de référence, données de base). Cela pourrait inclure des normes propres à un domaine.
  • Élaborer des métadonnées de définition et de procédure, en respectant la politique applicable du CT, comme la Norme sur les métadonnées du CT, et en tenant compte des besoins des publics cibles. Les métadonnées pourraient préciser le but de l’acquisition de données et fournir des renseignements sur la méthodologie et la catégorisation en matière de sécurité.
  • Consigner l’information nécessaire pour interpréter les données de façon significative et maintenir un lien clair entre cette information et les données tout au long de leur cycle de vie.
  • Veiller à ce que les utilisateurs soient informés des utilisations appropriées des données et qu’ils soient conscients de leurs limites.

Pertinence

  • Établir des processus permettant de consulter les intervenants au sujet de leurs besoins en matière de données. Il pourrait s’agir de tirer parti des répertoires ou des catalogues de données pour déterminer les données existantes et réduire au minimum la collecte de données redondantes (voir la Ligne directrice sur les services et le numérique du CT pour obtenir des directives sur la collecte de renseignements et de données).
  • Déterminer les besoins en matière de données et les sources de données en fonction des objectifs opérationnels et des besoins des utilisateurs.
  • Évaluer et documenter la façon dont les actifs de données satisfont aux exigences en matière de données afin d’évaluer leur pertinence. Cela pourrait comprendre le suivi sur la manière dont les actifs de données sont utilisés et réutilisés pour faire avancer les priorités organisationnelles ou pangouvernementales.
  • Tirer parti des résultats des évaluations de la pertinence visant à façonner l’acquisition future de données et les activités connexes de gestion du cycle de vie et de gouvernance.
  • Établir des critères permettant de garantir que les efforts d’acquisition de données établissent un équilibre approprié entre les besoins opérationnels et les risques en matière de protection des renseignements personnels et de sécurité (voir les Principes de nécessité et de proportionnalité de Statistique Canada). Dans le cas des renseignements personnels, l’acquisition de données devrait être directement liée à un programme ou à une activité de fonctionnement de l’institution.
  • Veiller à ce que les données ayant une valeur historique ou archivistique soient conservées de façon appropriée afin de faciliter la conservation et la découverte indéfinies permettant leur réutilisation conformément à la Loi sur la Bibliothèque et les Archives du Canada (BAC) et aux instruments de politique connexes.

Fiabilité

  • Identifier et consigner les sources qui peuvent modifier directement ou indirectement un jeu de données. Les sources de changement pourraient comprendre les phénomènes représentés, les méthodes de collecte de données, les technologies de saisie et de stockage de données, les plateformes de traitement de données, les mesures législatives ou réglementaires, les exigences de politique et les cyberattaques.
  • Veiller à ce que les méthodes d’acquisition et d’analyse des données soient clairement articulées afin de faciliter la validation par un tiers et de maintenir l’intégrité du processus de production des données.
  • Tester les instruments de collecte ou de création de données avant de les déployer, de documenter les étalonnages et de tenir compte de la variance des résultats.
  • Tenir un registre des modifications apportées à vos actifs de données afin que les utilisateurs puissent déterminer leur provenance et suivre l’évolution depuis leur création.
  • Déterminer et consigner les dépendances entre les actifs de données liés dans une architecture de données ou dans le contexte de l’analyse de données.
  • Appuyer la compatibilité des concepts, des définitions et des nomenclatures au fil du temps. Préciser et expliquer les écarts sur la façon dont ces éléments sont conservés au fil du temps.
  • Protéger les actifs de données contre les activités frauduleuses ou non autorisées qui pourraient nuire à leur crédibilité et avoir une incidence sur la confiance envers le fournisseur de données. Cela comprend la définition, la mise en œuvre et la tenue à jour des mesures de sécurité permettant de répondre aux exigences en matière de sécurité de la TI, conformément à la Directive sur la gestion de la sécurité du CT et à la Directive sur les pratiques relatives à la protection de la vie privée du CT.
  • Utiliser des approches de conservation numérique pour surveiller et prévenir la détérioration des actifs de données tout au long de leur cycle de vie. Cela comprend des vérifications régulières de l’intégrité des données (p. ex., au moyen du hachage ou en utilisant des sommes de contrôle) et la documentation de toute preuve de détérioration conformément à la Loi sur la BAC et aux instruments de politique connexes.
  • Signaler l’altération ou la destruction non autorisée des actifs de données aux agents de sécurité désignés.

Actualité

  • Déterminer les besoins actuels et prévus des utilisateurs en matière de données, y compris les considérations de temps (p. ex., périodes de référence, exigences législatives ou stratégiques, normes relatives aux service).
  • Consulter les fournisseurs de données pour évaluer si les besoins en matière de données peuvent être satisfaits sans délai et informer les utilisateurs de données de tout problème de ponctualité prévu. Cela pourrait comprendre la confirmation de la capacité du fournisseur de données à respecter les délais établis dans les ententes de partage de données.
  • Veiller à ce que les fournisseurs de données disposent d’un calendrier de diffusion des données qui consigne les étapes du processus de production des données, et tiennent compte des écarts et des retards (p. ex., au moyen de la planification d’urgence).
  • Publier des données préliminaires sur le Portail du gouvernement ouvert lorsque cela est utile aux utilisateurs, conformément à la Directive sur le gouvernement ouvert du CT.


Annexe A : Glossaire

Vocabulaires contrôlés : Liste de termes, mots ou expressions normalisés, utilisés pour l’indexation ou l’analyse de contenu et la récupération des renseignements, généralement dans un domaine d’information défini.

Données : Ensemble de valeurs de sujets à l’égard de variables qualitatives ou quantitatives qui représente des faits, des statistiques ou des éléments d’information de façon officielle adéquate à la communication, à la réinterprétation ou au traitement.

Qualité des données : Caractéristique des données déterminée en fonction de l’accès, de l’exactitude, de la cohérence, de l’exhaustivité, de la constance, de l’interprétabilité, de la pertinence, de la fiabilité et de la rapidité. Une qualité élevée des données est un indicateur de l’adéquation au besoin, ce qui signifie que les données sont à la fois utilisables et pertinentes dans un contexte d’utilisation primaire ou autre.

Normes relatives aux données : Ensemble de règles ou de lignes directrices documentées qui permettent d’avoir une description, une représentation, une structuration et un partage cohérents et reproductibles des données.

Information : Connaissances saisies dans n’importe quel format, comme des faits, des événements, des choses, des processus ou des idées, qui peuvent être structurés ou non, y compris des concepts qui, dans un certain contexte, ont une signification particulière. L’information comprend les données.

Cycle de vie de l’information : La planification, la collecte, la création, la réception, la saisie, l’organisation, l’utilisation, la réutilisation, la diffusion, la conservation, la protection, la préservation, l’élimination et l’évaluation de l’information.

Interopérabilité : Capacité pour divers types de dispositifs électroniques, de réseaux, de systèmes d’exploitation et d’applications de fonctionner ensemble efficacement, sans communication préalable, pour échanger de l’information de manière utile et significative.

Métadonnées : La définition et la description de la structure et de la signification de l’information et des données ainsi que le contexte et les systèmes dans lesquels elles existent.

Renseignements personnels : Renseignements, quels que soient leur forme et leur support, concernant un individu identifiable.


Annexe B : Exemples d’applications

Les cas d’utilisation suivants visent à préciser la signification des dimensions du Cadre dans la pratique en fournissant des exemples concrets de questions pertinentes en matière de qualité, en suggérant des approches pour évaluer ou aborder les questions, et en faisant la distinction entre les dimensions du Cadre.

Dimension Exemple d’application
Accès Un programme qui élabore un système de décision automatisé publie de l’information sur le système dans des formats lisibles par machine et par l’humain dans le Portail du gouvernement ouvert. En tant qu’information accessible, elle est facile à découvrir et à obtenir par des intervenants de tous les secteurs.
Exactitude Un administrateur de données met à jour les données sur le pays de citoyenneté d’un citoyen récemment naturalisé afin de veiller à ce qu’elles correspondent à son nouveau statut au Canada.
Cohérence Un registre d’adresses provincial est normalisé de sorte que la province de l’Ontario soit représentée comme « ON » afin de permettre l’interopérabilité des données et de faciliter le partage des données entre les organisations qui ont adopté la même norme.
Exhaustivité Un administrateur du sondage fait un suivi auprès des personnes qui y ont répondu pour leur demander de remplir les champs obligatoires d’un sondage sur la satisfaction afin de pouvoir générer un jeu de données complet.
Constance Un programme offrant un service externe identifie et corrige une erreur dans la date de naissance d’un client, qui avait été établie plus tard que la date de présentation de sa demande – contrairement aux règles de validation établies.
Intelligibilité La Base de données sur le commerce international de marchandises fournit des définitions claires des concepts clés et des descriptions accessibles des nomenclatures, ce qui permet aux utilisateurs de comprendre et d’utiliser les données dans les analyses des tendances du commerce international.
Pertinence Un programme responsable des pensions de retraite recueille des données bancaires auprès des demandeurs après avoir déterminé le rôle des données dans le traitement des paiements de prestations.
Fiabilité Les données canadiennes sur le climat sont ajustées afin de tenir compte des déplacements attribuables aux changements dans les instruments et les procédures d’observation. Par exemple, les données de pluviomètre extraites des Archives nationales de données climatologiques ont été corrigées pour tenir compte de facteurs tels que la sous-capture en raison du vent, l’évaporation et les pertes par mouillage.
Actualité Les provinces et les territoires déclarent au gouvernement fédéral les données relatives aux cas de la COVID-19 toutes les 24 heures afin d’appuyer la mise à jour épidémiologique quotidienne sur la COVID-19, qui fournit un résumé des cas de la COVID-19 au Canada et au fil du temps.


Annexe C : Approche

Le Cadre a été élaboré en collaboration par un groupe de travail interministériel codirigé par Statistique Canada et le Secrétariat du Conseil du Trésor du Canada (SCT). Le groupe a été établi à l’automne 2019 dans le cadre de la Communauté de pratique sur les données intégrées du GC. L’élaboration des dimensions a été guidée par une analyse environnementale des cadres de qualité des données au sein du gouvernement fédéral, de l’industrie, d’organisations internationales et d’organisations du secteur public d’autres gouvernements.

Des délibérations régulières entre les membres du groupe de travail ont également aidé à peaufiner l’approche de la formulation et de la définition des dimensions, tout en aidant à établir un consensus autour du cadre dans son ensemble. Une fois qu’il y a eu un large consensus sur les fondements du cadre, le groupe a collaboré à l’élaboration de lignes directrices favorisant l’interprétation et l’application cohérentes des dimensions. Les lignes directrices ont été modelées sur les Lignes directrices concernant la qualité de Statistique Canada, qui fournissent également des pratiques exemplaires non exhaustives pour les principes de qualité des données.

Le SCT et Statistique Canada examineront et mettront à jour périodiquement le Cadre en consultation avec les partenaires fédéraux afin de veiller à ce qu’il demeure pertinent et utile pour le GC. De plus, le SCT fera progresser les efforts visant à opérationnaliser le Cadre en s’efforçant de l’intégrer ou de le mentionner dans les instruments de politique, les processus et les cadres de gouvernance du Conseil du trésor et les modèles d’entente de partage de données.

Les organisations fédérales suivantes ont participé à l’élaboration du Cadre : Agriculture et Agroalimentaire Canada; Agence des services frontaliers du Canada; Société canadienne d’hypothèques et de logement; Agence du revenu du Canada; École de la fonction publique du Canada; Agence canadienne d’inspection des aliments; Commission canadienne des droits de la personne; Instituts de recherche en santé du Canada; Commission canadienne de sécurité nucléaire; Agence spatiale canadienne; Service correctionnel du Canada; Relations Couronne‑Autochtones et Affaires du Nord Canada; Ministère de la Justice Canada; ministère de la Défense nationale; Élections Canada; Emploi et Développement social Canada; Environnement et Changement climatique Canada; Pêches et Océans Canada; Affaires mondiales Canada; Santé Canada; Immigration, Réfugiés et Citoyenneté Canada; Services aux Autochtones Canada; Innovation, Sciences et Développement économique Canada; Bibliothèque et Archives Canada; Ressources naturelles Canada; Bureau du Conseil privé; Agence de la santé publique du Canada; Services publics et Approvisionnement Canada; Service Canada; Services partagés Canada; Conseil canadien des normes; Statistique Canada; Transports Canada; Secrétariat du Conseil du Trésor du Canada; Anciens Combattants Canada.


Annexe D : Références

Outil d’évaluation de l’incidence algorithmique : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/utilisation-responsable-ai/evaluation-incidence-algorithmique.html

Budget de 2021 – Une relance axée sur les emplois, la croissance et la résilience : https://www.budget.gc.ca/2021/home-accueil-fr.html

Guide de rédaction du contenu du site canada.ca : https://www.canada.ca/fr/secretariat-conseil-tresor/services/communications-gouvernementales/guide-redaction-contenu-canada.html

Data Management Body of Knowledge, 2nd Edition (DMBOK2): DMBoK – Data Management Body of Knowledge (dama.org)

Plan stratégique des opérations numériques : de 2021 à 2024 : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/plans-strategiques-operations-numeriques-gouvernement-canada/plan-strategique-operations-numerique-2021-2024.html

Orientation sur l’utilisation sécurisée des services commerciaux d’informatique en nuage : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/services-informatique-nuage/orientation-utilisation-securisee-services-commerciaux-informatique-nuage-amops.html

European Statistics Code of Practice for the National Statistical Authorities and Eurostat (EU Statistical Authority) : https://ec.europa.eu/eurostat/documents/4031688/8971242/KS-02-18-142-EN-N.pdf/e7f85f07-91db-4312-8118-f729c75878c7?t=1528447068000

Thésaurus des sujets de base du gouvernement du Canada : https://canada.multites.net/tsb/index.htm

Normes relatives au numérique du gouvernement du Canada : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/normes-numeriques-gouvernement-canada.html

Cadre de l’architecture intégrée du gouvernement du Canada : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/politiques-normes/cadre-architecture-integree-gouvernement-canada.html

Profil des mesures de sécurité pour les services du GC fondés sur l’informatique en nuage : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/innovations-gouvernementales-numeriques/services-informatique-nuage/profil-controle-securite-services-ti-fondes-information-nuage.html

Normes du gouvernement du Canada sur les API : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/technologiques-modernes-nouveaux/normes-gouvernement-canada-api.html 

ISO 8000–2, Qualité des données – Partie 2 : Vocabulaire, en anglais : https://www.iso.org/obp/ui/#iso:std:iso:8000:-2:ed-4:v1:en

ISO 8000–8, Qualité des données — Partie 8 : Informations et qualité des données : Concepts et mesurage, en anglais : https://www.iso.org/obp/ui/#iso:std:iso:8000:-8:ed-1:v1:en 

Loi sur la Bibliothèque et les Archives du Canada : https://laws-lois.justice.gc.ca/fra/lois/l-7.7/index.html

(Ébauche) Normes sur la qualité des données et de l’information sur le gouvernement ouvert : https://ouvert.canada.ca/ckan/fr/dataset/bfb87332-5da3-5780-9546-8722a389c91c

Loi sur la protection des renseignements personnels : https://laws-lois.justice.gc.ca/fra/lois/p-21/index.html

Quality Dimensions, Core Values for OECD Statistics and Procedures for Planning and Evaluating Statistical Activities: http://www.oecd.org/sdd/21687665.pdf

Reid, Giles, Zabala, Felipa and Holmberg, Anders. « Extending TSE to Administrative Data : A Quality Framework and Case Studies from Stats NZ » Journal of Official Statistics, vol. 33, no 2, 2017, pp.477-511. https://doi.org/10.1515/jos-2017-0023

Rapport au greffier du Conseil privé : Feuille de route de la Stratégie relative aux données pour la fonction publique fédérale : https://www.canada.ca/fr/conseil-prive/organisation/greffier/publications/strategie-donnees.html

Principes de nécessité et de proportionnalité de Statistique Canada : https://www.statcan.gc.ca/fr/confiance/reponse

Le cadre d’assurance de la qualité de Statistique Canada : https://www150.statcan.gc.ca/n1/fr/catalogue/12-586-X

Lignes directrices pour assurer la qualité des données de Statistique Canada : https://www150.statcan.gc.ca/n1/fr/catalogue/12-539-X

Directive sur la prise de décisions automatisée du Conseil du Trésor : https://www.tbs-sct.gc.ca/pol/doc-eng.aspx?id=32592

Directive sur le gouvernement ouvert du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=28108

Directive sur l’évaluation des facteurs relatifs à la vie privée du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=18308

Directive sur les services et le numérique du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=32601

Guide à l’intention des rédacteurs de présentations au Conseil du Trésor du Conseil du Trésor : https://www.canada.ca/fr/secretariat-conseil-tresor/services/presentations-conseil-tresor/guide-lintention-des-redacteurs-de-presentations-au-conseil-du-tresor.html

Ligne directrice sur les services et le numérique du Conseil du Trésor : https://www.canada.ca/fr/gouvernement/systeme/gouvernement-numerique/ligne-directrice-services-numerique.html

Politique sur la sécurité du gouvernement du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=16578

Directive sur la gestion de la sécurité du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=32611

Politique sur les services et le numérique du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=32603

Norme sur les données géospatiales du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=16553

Norme sur les métadonnées du Conseil du Trésor : https://www.tbs-sct.canada.ca/pol/doc-fra.aspx?id=18909

UK Government – The Government Data Quality Framework: https://www.gov.uk/government/publications/the-government-data-quality-framework/the-government-data-quality-framework

United Nations National Quality Assurance Frameworks Manual for Official Statistics: https://unstats.un.org/unsd/methodology/dataquality/references/1902216-UNNQAFManual-WEB.pdf


[1] Dans le présent document, le terme « utilisateur » désigne généralement un consommateur de données qui a besoin de données de grande qualité afin d’appuyer une politique, un programme, un service ou toute autre initiative du gouvernement fédéral. Les données peuvent être utilisées aux fins pour lesquelles elles ont été initialement obtenues ou réutilisées à des fins cohérentes ou autres, comme le permettent la législation sur la protection des renseignements personnels, la sécurité et d’autres lois applicables. Les utilisateurs tirent parti du cadre gouvernemental visant la qualité des données pour cerner, communiquer, évaluer et rendre compte des questions de qualité des données et pour aider à y répondre en consultation avec les intervenants appropriés (p. ex., les fournisseurs de données, les administrateurs de données, les décideurs politiques en matière de données, les intendants des données, les architectes de données, les experts sujet-matière, les responsables de la sécurité et de la protection des renseignements personnels).