Difference between revisions of "Tendances Technologiques/Lacs de donnees"
Felix.legros (talk | contribs) |
Felix.legros (talk | contribs) |
||
Line 34: | Line 34: | ||
<tr> | <tr> | ||
<th>Mise à jour</th> | <th>Mise à jour</th> | ||
− | <td> | + | <td>12 février 2020</td> |
</tr> | </tr> | ||
<tr> | <tr> | ||
Line 47: | Line 47: | ||
</div> | </div> | ||
− | <br> | + | <br><p>Les <b>Lacs de données</b> est un système central ou un référentiel de données qui est stocké dans son format naturel/brut. Une base de données agit comme un magasin unique pour toutes les données d'entreprise. Les données sont transformées à l'aide de l'apprentissage automatique, avancé, de l'analyse et de la visualisation. Plusieurs formes de données peuvent être regroupées dans une base de données. Il s'agit notamment de données structurées provenant de bases de données relationnelles, de données non structurées, de données semi-structurées et de données binaires.</p> |
<div class="mw-collapsible-toggle btn" style="float: left; display: block;"> | <div class="mw-collapsible-toggle btn" style="float: left; display: block;"> |
Revision as of 14:54, 12 February 2020
|
|||||||
---|---|---|---|---|---|---|---|
Status | Publié | ||||||
Version originale | 28 janvier 2020 | ||||||
Mise à jour | 12 février 2020 | ||||||
Publication Officielle | Lacs de Données.pdf | ||||||
Les Lacs de données est un système central ou un référentiel de données qui est stocké dans son format naturel/brut. Une base de données agit comme un magasin unique pour toutes les données d'entreprise. Les données sont transformées à l'aide de l'apprentissage automatique, avancé, de l'analyse et de la visualisation. Plusieurs formes de données peuvent être regroupées dans une base de données. Il s'agit notamment de données structurées provenant de bases de données relationnelles, de données non structurées, de données semi-structurées et de données binaires.
Sommaire opérationnel
Dans un monde de plus en plus hyperconnecté, les entreprises ont du mal à faire face aux responsabilités de stockage, de gestion et de disponibilité rapide des données brutes. Pour décomposer davantage ces défis liés aux données :
- Les données se présentent dans de nombreuses structures différentes.
- Non structurées
- Semi-structurées
- Structurées
- Les données proviennent de nombreuses sources disparates.
- Applications d’entreprise
- Fichiers bruts
- Journaux d’exploitation et de sécurité
- Transactions financières
- Appareils et capteurs de réseau d’Internet des objets (IdO)
- Sites Web
- Recherche scientifique.
- Les sources de données sont souvent réparties géographiquement sur plusieurs sites.
- Centres de données
- Bureaux éloignés
- Appareils mobiles
Afin de résoudre ces défis liés aux données, une nouvelle façon de gérer les données a été créée, ce qui a poussé les entreprises axées sur les données à inventer un nouveau mécanisme de stockage des données appelé lac de données.
Les lacs de données constituent essentiellement une plateforme technologique pour la conservation des données. Leur valeur pour l’entreprise ne se réalise que par l’application au lac des compétences en sciences des données.
En résumé, les cas d’utilisation des lacs de données sont encore en cours de découverte. Les fournisseurs de services infonuagiques facilitent l’acquisition de lacs de données; aujourd’hui, les lacs de données sont principalement utilisés par les établissements de recherche, les services financiers, les télécommunications, les médias, le commerce de détail, la fabrication, les soins de santé, l’industrie pharmaceutique, l’industrie pétrolière et gazière, et les gouvernements.
Sommaire technique
Un lac de données est un répertoire centralisé qui vous permet de stocker toutes vos données structurées et non structurées à toute échelle. Vous pouvez stocker vos données telles quelles, sans avoir à les structurer d’abord, et exécuter différents types d’analyses, depuis les tableaux de bord et les visualisations jusqu’aux traitements des mégadonnées, aux analyses en temps réel et à l’apprentissage automatique pour orienter de meilleures décisions.
Le modèle des données et analyses en tant que service permet aux utilisateurs de répondre librement à leurs besoins en matière de données et d’analyse. Les utilisateurs parcourent le catalogue de données du lac (un « Datapédia ») pour trouver et sélectionner les données disponibles et remplir un « panier » métaphorique (en fait un bac à sable analytique) de données avec lesquelles travailler. Une fois l’accès fourni, les utilisateurs peuvent utiliser les outils d’analyse de leur choix pour élaborer des modèles et obtenir des perspectives. Par la suite, les utilisateurs peuvent publier des modèles d’analyse ou placer les données raffinées ou transformées dans le lac de données pour les diffuser à l’ensemble de la communauté.
Utilisation par l’industrie
Les lacs de données sont utilisés de diverses façons dans l’industrie :
Ingestion de sources de données semi-structurées et non structurées (aussi appelées mégadonnées) telles que les relevés d’équipement, les données de télémesure, les journaux, les données en continu, etc. Un lac de données est une excellente solution pour stocker des données de type IdO (Internet des objets) qui sont traditionnellement plus difficiles à stocker, et peut appuyer une analyse en temps quasi réel. Au besoin, vous pouvez également ajouter des données structurées (c.-à-d. extraites d’une source de données relationnelle) à un lac de données si votre objectif est d’obtenir un répertoire unique de toutes les données qui seront disponibles par l’entremise du lac.
Analyse expérimentale des données avant que leur valeur ou leur finalité n’ait été pleinement définie. La souplesse est importante pour toute entreprise de nos jours, de sorte qu’un lac de données peut jouer un rôle important dans des situations de type « preuve de valeur » en raison de l’approche « extraire, transformer, charger » mentionnée ci-dessus.
Soutien analytique avancé. Un lac de données est utile aux scientifiques et analystes des données pour fournir des données et expérimenter avec ces données.
Stockage des données d’archives et historiques. Parfois, les données sont rarement utilisées, mais il faut qu’elles soient disponibles pour analyse. Une stratégie de lac de données peut être très précieuse pour appuyer une stratégie d’archivage active.
Capacités de traitement réparties associées à un entrepôt de données logiques.
Utilisation par le gouvernement du Canada
En 2019, le Secrétariat du Conseil du Trésor du Canada (SCT), en partenariat avec Services partagés Canada et d’autres ministères, a trouvé un responsable opérationnel pour élaborer une stratégie de service en matière de lac de données (un répertoire de données brutes) afin que le gouvernement du Canada puisse tirer parti des mégadonnées et des innovations du marché pour favoriser de meilleures analyses et promouvoir la mise en commun horizontale des données. [1] </ref>.
L’élaboration des lacs de données au sein du gouvernement du Canada est une initiative plus récente. Cette situation s’explique principalement par le fait que le gouvernement du Canada concentre ses ressources sur la mise en œuvre d’initiatives infonuagiques. Toutefois, certains ministères du gouvernement du Canada s’emploient à élaborer des environnements de lacs de données en tandem avec des initiatives infonuagiques.
Implications des Agences du Gouvernement
Répercussions pour Services partagés Canada (SPC)
Proposition de valeur
Les lacs de données peuvent fournir des données aux consommateurs plus rapidement en offrant des données sous une forme plus brute et plus facilement accessible. Les données sont stockées dans leur format d’origine avec peu ou pas de traitement, elles sont optimisées afin d’être stockées en grandes quantités dans leur format d’origine. En permettant aux données de rester dans leur format d’origine, un flux de données beaucoup plus rapide est disponible pour des requêtes et des analyses illimitées. Un lac de données peut aider les consommateurs de données à contourner les applications strictes de récupération des données et de données structurées, comme un entrepôt de données ou un mini-entrepôt de données. Cela a pour effet d’améliorer la flexibilité des données d’une entreprise.
Un lac de données n’est pas une source unique de vérité. Un lac de données est un emplacement centralisé dans lequel convergent et sont stockées les données provenant de toutes les sources de données, quel que soit leur formatage.
L’approche architecturale du lac de données peut stocker de grands volumes de données, ce qui peut permettre aux équipes transversales de mettre leurs données en commun dans un emplacement centralisé en complétant leurs systèmes d’enregistrement par des systèmes de perspective.
Les données structurées, non structurées et semi-structurées, provenant généralement du même ensemble de données, peuvent contenir des perspectives commerciales, prédictives et prescriptives auparavant impossibles à obtenir à partir d’une plateforme structurée, comme on l’observe dans les entrepôts et mini-entrepôts de données.
Défis
Bien que la technologie des lacs de données présente de nombreux avantages pour les organisations qui traitent de grandes quantités de données, elle comporte ses propres défis. Par exemple :
Gouvernance des données et problèmes sémantiques
Souvent, les mises en œuvre de lacs de données se concentrent sur le stockage des données plutôt que sur leur gestion. Les lacs de données ne sont pas optimisés pour l’application ou la cohérence sémantiques. Ils sont conçus pour la flexibilité sémantique, pour permettre à toute personne de fournir un contexte aux données si elle a les compétences pour le faire.
Mettre des données au même endroit ne supprime pas leur ambiguïté ou leur signification. Les lacs de données constituent un environnement de modèle de stockage sans contrainte et « sans compromis », sans les garanties de gouvernance des données communes aux entrepôts ou aux mini-entrepôts de données. Des métadonnées appropriées sont essentielles pour un lac de données; sans elles, le lac de données ne fonctionnera pas comme prévu. Il est souhaitable de considérer les métadonnées comme le détecteur de poissons dans le lac de données.
Manque de qualité des données et de confiance dans les données
Défis liés aux marécages de données et au rendement et à la flexibilité des données
Un lac de données n’est pas optimisé pour un grand nombre d’utilisateurs ou pour des charges de travail diverses et simultanées en raison de tâches de requêtes intensives. Cela peut entraîner une dégradation du rendement et les pannes sont fréquentes lors de l’exécution simultanée de tâches d’extraction, de transformation et de chargement. Les lacs de données sur site font face à d’autres défis de rendement dans la mesure où leur configuration est statique.
Capacité d’accumulation et de stockage des données
La capacité de stockage de toutes ces données (et des données futures) sera un défi permanent et nécessitera une gestion constante. Bien que les lacs de données puissent être stockés dans le nuage, et ils le seront, SPC, en tant que courtier en infonuagique pour le gouvernement du Canada, devra fournir l’infrastructure et l’évolutivité appropriées aux clients.
Utilisateurs avancés nécessaires
Sécurité des données
Les données contenues dans un lac de données manquent d’une protection standard en matière de sécurité, avec un système relationnel de gestion des bases de données ou une base de données d’entreprise. Dans la pratique, cela signifie que les données ne sont pas cryptées et qu’elles ne font pas l’objet d’un contrôle d’accès.Considérations
Les lacs de données ne devraient pas être confondus avec les bases de données conventionnelles, bien que tous deux stockent des informations. Un lac de données aura toujours un rendement insatisfaisant si on lui confie les tâches d’une base de données conventionnelle.
La création d’un lac de données devient l’objectif, plutôt que l’atteinte d’un objectif stratégique.
SPC devrait être conscient que les attentes en matière de lacs de données sont démesurées. Des attentes démesurées entraînent des cas d’utilisation vagues et ambigus, et augmentent les risques de pannes catastrophiques. En tant que fournisseur de services, SPC doit être strict dans l’établissement d’objectifs clairs pour les efforts d’approvisionnement en lacs de données avant le déploiement. SPC devrait se méfier des tentatives visant à remplacer l’élaboration de la stratégie par l’infrastructure. Un lac de données peut être une composante technologique qui appuie une stratégie de données et d’analyse, mais il ne peut remplacer cette stratégie.
Il faut concevoir des lacs de données avec les éléments nécessaires pour fournir des résultats d’analyse fiables à divers consommateurs de données L’objectif est d’accroître l’utilisation intersectorielle afin d’offrir des perspectives d’analyse avancées, de créer des lacs de données pour des unités opérationnelles ou des applications d’analyse particulières, plutôt que d’essayer de mettre en œuvre une vague notion de lac de données d’entreprise unique. Cependant, les autres architectures, comme les centres de données, sont souvent mieux adaptées à la mise en commun des données au sein d’une organisation.
Références
- ↑ Ibid.
- ↑ Brisson, Yannick, and Craig, Sheila. (November, 2018). ESDC Data Lake – Implementation Strategy and Roadmap Update. Government of Canada. Employment and Social Development Canada – Data and Analytics Services. Presentation. Last Modified on 2019-04-26 15:45. Retrieved 07-May-2019 from GCDocs[2]
- ↑ Dennis, A. L. (15 octobre 2018). Data Lakes 101: An Overview. Récupéré le [3]
- ↑ Marvin, R., Marvin, R., & Marvin, R. (2016, August 22). Data Lakes, Explained. Récupéré le [ https://www.pcmag.com/article/347020/data-lakes-explained]
- ↑ The Data Lake journey. (15 Mars 2014). Récupéré le [4]
- ↑ Google File System. (14 juillet 2019). Récupéré le [5]
- ↑ Coates, M. (2 octobre 2016). Data Lake Use Cases and Planning Considerations. Récupéré le [6]
- ↑ Bhalchandra, V. (23 juillet 2019). Six reasons to think twice about your data lake strategy. Récupéré le [7]
- ↑ Data Lake Expectations: Why Data Lakes Fail. (20 septembre 2018). Récupéré le [8]
- ↑ Data Lake: AWS Solutions. (n.d.). Récupéré le [9]