Self-service Analytics

Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation, Machine Learning, Self-service Analytics

DATA: les 7 pièges à éviter, Ep 6/7 – Gaffes graphiques

Comment éviter les erreurs courantes dans la visualisation des données

La visualisation des données est un outil puissant pour communiquer des informations complexes de manière claire et concise. Cependant, elle peut aussi être source de nombreuses erreurs qui peuvent conduire à des interprétations erronées.

Dans cet épisode, nous explorerons les gaffes graphiques les plus courantes et comment les éviter.

Piège 6A: les graphiques trompeurs

L’un des pièges les plus courants dans la visualisation des données est la création de graphiques qui induisent en erreur, souvent involontairement. Cela peut se produire de plusieurs manières :

  1. Tronquer l’axe Y : En ne commençant pas l’axe Y à zéro, on peut exagérer visuellement les différences entre les valeurs.
  2. Choisir une échelle inappropriée : Une échelle mal choisie peut masquer ou exagérer des tendances importantes.
  3. Utiliser des graphiques en 3D : Les graphiques en 3D peuvent déformer la perception des proportions.
Par exemple, considérons ce graphique montrant les cas de crimes liés aux stupéfiants à Orlando :

Ce graphique semble montrer une augmentation alarmante des crimes liés aux stupéfiants. Cependant, en examinant de plus près, on constate que l’axe Y ne commence pas à zéro, exagérant ainsi visuellement l’augmentation.

Piège 6B: le dogmatisme des données

Il est facile de tomber dans le piège du dogmatisme des données, en pensant qu’il n’existe qu’une seule « bonne » façon de visualiser les données. En réalité, le choix du type de graphique dépend du contexte, de l’audience et du message que l’on souhaite transmettre.

Par exemple, bien que les diagrammes circulaires soient souvent critiqués, ils peuvent être efficaces pour montrer des parts d’un tout, surtout lorsqu’il y a peu de catégories :

Ce diagramme circulaire montre clairement que le vol représente près de la moitié de tous les crimes signalés à Orlando.

Piège 6C: la fausse dichotomie optimisation/satisfaction

Dans la visualisation des données, on peut tomber dans le piège de penser qu’il faut toujours chercher la visualisation « optimale » au détriment de solutions « satisfaisantes ». En réalité, il est souvent plus pratique et efficace de trouver une visualisation qui répond suffisamment bien aux besoins, plutôt que de passer un temps excessif à chercher la perfection.

Par exemple, ce graphique à barres horizontales peut être « satisfaisant » pour montrer les types de crimes les plus courants, même s’il n’est pas nécessairement « optimal » :

Ce graphique est facile à comprendre et fournit rapidement les informations essentielles, même s’il pourrait potentiellement être optimisé davantage.

CONCLUSION

Dans cet article, nous avons exploré le sixième type d’erreur que nous pouvons rencontrer lorsque nous travaillons avec des données : les gaffes graphiques. Nous avons vu comment éviter les graphiques trompeurs, le dogmatisme des données, et la fausse dichotomie entre optimisation et satisfaction.

Dans le prochain et dernier article de notre série, nous explorerons le 7ème type d’erreur : les dangers du design. Nous verrons comment les choix de design peuvent affecter la perception et l’interprétation des données visualisées.

Cette série d’articles est fortement inspirée par le livre « Avoiding Data Pitfalls – How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations » écrit par Ben Jones, Founder and CEO de Data Literacy, édition WILEY. Nous vous recommandons vivement cette excellente lecture pour approfondir votre compréhension des pièges liés aux données et comment les éviter !

Vous trouverez tous les sujets abordés dans cette série ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Cet article vous a inspiré ?
Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data visualisation, Machine Learning, Self-service Analytics

DATA: Les 7 pièges à éviter, Ep 5/7 – Aberrations analytiques

L’intuition et l’analyse ne sont pas mutuellement exclusives

Dans notre quête pour tirer le meilleur parti des données, nous tombons souvent dans le piège de considérer l’intuition et l’analyse comme des approches mutuellement exclusives. Cependant, comme nous le verrons dans cet épisode sur les aberrations analytiques, l’intuition joue un rôle crucial dans le processus d’analyse des données.

Piège 5A: la fausse dichotomie intuition/analyse

Il fut un temps où l’on entendait des publicités vantant le passage de l’intuition à l’analyse dans la prise de décision. Cette vision est erronée. L’intuition n’est pas obsolète à l’ère des données – elle est en réalité plus précieuse que jamais.

L’intuition est l’étincelle qui fait fonctionner le moteur de l’analyse. Elle nous aide à :

  1. Savoir POURQUOI les données sont importantes
  2. Comprendre CE QUE les données nous disent (et ne nous disent pas)
  3. Savoir OÙ chercher ensuite
  4. Savoir QUAND arrêter l’analyse et passer à l’action
  5. Savoir QUI a besoin d’entendre les résultats et COMMENT les communiquer

Piège 5B: les extrapolations exubérantes

Prédire l’avenir à partir des données peut être risqué. L’extrapolation des tendances actuelles peut conduire à des erreurs importantes si nous ne tenons pas compte des limites naturelles ou des changements potentiels.

Par exemple, si nous examinons l’espérance de vie en Corée du Nord et du Sud de 1960 à 1980, nous pourrions être tentés de prédire une augmentation continue et linéaire. Cependant, la réalité s’est avérée bien différente, notamment pour la Corée du Nord qui a connu une baisse significative dans les années 1990.

Piège 5C: les interpolations mal avisées

Lorsque nous travaillons avec des données chronologiques, nous devons être prudents dans nos interprétations entre les points de données. Un graphique en pente simple reliant deux points dans le temps peut masquer des fluctuations importantes entre ces points.

Par exemple, considérons l’espérance de vie dans certains pays entre 1960 et 2015. Un simple graphique en pente montrant le changement entre ces deux années pourrait donner l’impression d’une augmentation régulière et constante. Cependant, cette représentation simplifiée masquerait des périodes de conflit, de difficultés économiques ou de progrès rapides en matière de santé publique qui ont eu un impact significatif sur l’espérance de vie au fil des années.

Prenons le cas du Cambodge, du Timor-Leste, de la Sierra Leone et du Rwanda. Un graphique en pente simple montrerait une augmentation de l’espérance de vie entre 1960 et 2015, mais occulterait complètement les périodes tragiques de guerre et de génocide que ces pays ont connues. Par exemple, l’espérance de vie au Cambodge est tombée à moins de 20 ans en 1977 et 1978, un fait crucial qui serait complètement ignoré dans une simple interpolation entre 1960 et 2015.

Ce graphique montre l’évolution réelle de l’espérance de vie dans ces pays, révélant les fluctuations dramatiques masquées par une simple interpolation linéaire.

Piège 5D: les prévisions farfelues

Les prévisions, en particulier celles à long terme, peuvent être particulièrement sujettes aux erreurs. Un exemple frappant est celui des prévisions de chômage faites par différentes administrations présidentielles américaines. Ces prévisions ont tendance à montrer un retour rapide à un taux « normal » de 4 à 6%, indépendamment de la situation économique réelle.

Ce phénomène s’explique par plusieurs facteurs. Tout d’abord, il y a une pression politique pour présenter des perspectives optimistes. Ensuite, il existe une tendance naturelle à supposer que les situations extrêmes ou inhabituelles se corrigeront d’elles-mêmes rapidement. Enfin, les modèles de prévision sont souvent basés sur des données historiques et peuvent ne pas bien prendre en compte les changements structurels de l’économie.

Par exemple, lors de la crise financière de 2008, les prévisions de chômage faites juste avant ou au début de la crise n’ont pas réussi à anticiper l’ampleur et la durée de l’augmentation du chômage. De même, les prévisions faites au plus fort de la crise ont souvent sous-estimé le temps nécessaire pour que le taux de chômage revienne à des niveaux pré-crise.

Ce graphique montre comment différentes administrations présidentielles ont systématiquement prévu un retour rapide à un taux de chômage « normal », même face à des réalités économiques très différentes.

Piège 5E: les mesures moroniques

Il est crucial de s’assurer que les mesures que nous utilisons sont pertinentes et significatives. Trop souvent, nous nous concentrons sur des mesures faciles à obtenir plutôt que sur celles qui sont vraiment importantes pour comprendre un phénomène ou prendre des décisions.

Dans le domaine du sport, par exemple, de nombreuses mesures traditionnelles peuvent être trompeuses. Prenons le cas du basket-ball professionnel : la vitesse moyenne d’un joueur sur le terrain peut sembler être une mesure intéressante, mais elle ne reflète pas nécessairement l’impact réel du joueur sur le jeu.

LeBron James, l’un des meilleurs joueurs de tous les temps, a été critiqué lors des playoffs de 2018 pour avoir la vitesse moyenne la plus basse sur le terrain. Cependant, cette mesure ne tenait pas compte de son impact réel sur le jeu, mesuré par des statistiques plus pertinentes comme le Player Impact Estimate (PIE).

Ce graphique montre la relation entre la vitesse moyenne et le PIE des joueurs de NBA. On peut voir que LeBron James (point en haut à gauche) a un PIE très élevé malgré une vitesse moyenne relativement basse, illustrant pourquoi la vitesse moyenne seule est une mesure inadéquate de la performance d’un joueur.

Ce cas illustre l’importance de choisir des mesures qui reflètent réellement ce que nous cherchons à évaluer, plutôt que de nous contenter de mesures faciles à obtenir mais potentiellement trompeuses.

CONCLUSION

Dans cet article, nous avons exploré le cinquième type d’erreur que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : les aberrations analytiques. Nous avons vu comment l’intuition et l’analyse peuvent travailler de concert, et comment éviter les pièges des extrapolations exubérantes, des interpolations mal avisées, des prévisions farfelues et des mesures moroniques.

Dans le prochain article, nous allons explorer le 6ème type d’erreur de notre série : les gaffes graphiques. Nous verrons comment les erreurs dans la visualisation des données peuvent conduire à des interprétations erronées et des décisions mal informées.

Cette série d’articles est fortement inspirée par le livre « Avoiding Data Pitfalls – How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations » écrit par Ben Jones, Founder and CEO de Data Literacy, édition WILEY. Nous vous recommandons vivement cette excellente lecture pour approfondir votre compréhension des pièges liés aux données et comment les éviter !

Vous trouverez tous les sujets abordés dans cette série ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Cet article vous a inspiré ?
Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, Data Warehouse, L'entreprise, Machine Learning, Self-service Analytics, Technology

Bien démarrer avec la Business Intelligence: conseils pratiques

« La sagesse consiste à extraire de l’or des données brutes ; avec une Business Intelligence bien affûtée, chaque information devient une pépite. »

Cet adage résumé parfaitement le potentiel de la BI en prenant soin de suivre quelques conseils pratiques. Les mines d’or d’informations existantes permettent aux entreprises d’en faire des pépites d’or façonnées à leur image.

Définition

La Business Intelligence (BI) est un ensemble de processus, technologies et outils utilisés pour collecter, analyser, interpréter et présenter des données afin de fournir des informations exploitables aux décideurs et aux parties prenantes d’une organisation. L’objectif principal de la BI est d’aider les entreprises à prendre des décisions stratégiques en se basant sur des données fiables et pertinentes.

La BI est largement utilisée dans de nombreux domaines de l’entreprise, tels que la gestion des finances, la gestion des ressources humaines, le marketing, les ventes, la logistique et la chaîne d’approvisionnement, entre autres. En résumé, la Business Intelligence vise à transformer les données en connaissances exploitables pour améliorer les performances globales d’une organisation.

Avant de voir les conseils pratiques, examinons les éléments qui définissent ce qu’est la BI. Pour mettre en pratique la BI au sein de son entreprise, il existe 5 principales étapes qu’il faut suivre pour mener à bien une BI pertinente et efficace.

Collecte de données 

Les données sont collectées à partir de diverses sources internes et externes à l’entreprise, telles que les bases de données transactionnelles, les applications métier, les médias sociaux, les sondages clients, etc.

Nettoyage et transformation des données

Les données collectées sont nettoyées, normalisées et transformées en un format compatible pour l’analyse. Cela implique souvent l’élimination des doublons, la correction des erreurs et la normalisation des formats de données.

Analyse des données

Les données sont analysées à l’aide de diverses techniques telles que l’analyse statistique, l’exploration de données, les modèles prédictifs et les algorithmes d’apprentissage automatique pour identifier des tendances, des modèles et des insights.

Visualisation des données

Les résultats de l’analyse sont généralement présentés sous forme de tableaux de bord, de rapports, de graphiques et d’autres visualisations interactives pour faciliter la compréhension et la prise de décision.

Diffusion des informations

Les informations obtenues sont partagées avec les décideurs et les parties prenantes à travers l’organisation, leur permettant ainsi de prendre des décisions éclairées basées sur des données fiables.

CONSEILS PRATIQUES

Maintenant que nous savons globalement ce qu’est la BI dans sa définition, n’oublions pas que démarrer avec la Business Intelligence (BI) peut être un défi, mais avec une approche stratégique et des conseils pratiques, vous pouvez mettre en place une infrastructure efficace pour votre entreprise.
Voici quelques conseils pratiques pour bien initier une Business Intelligence pertinente et efficace.

Clarifiez vos objectifs 

Avant de commencer à mettre en œuvre la BI, identifiez clairement les objectifs commerciaux que vous souhaitez atteindre. Que ce soit pour améliorer la prise de décision, optimiser les processus métier ou mieux comprendre vos clients, des objectifs clairs vous aideront à orienter vos efforts.

Commencez par les bases

Ne cherchez pas à tout faire d’un coup. Commencez par des projets pilotes ou des initiatives spécifiques pour vous familiariser avec les concepts et les outils de la BI. Cela vous permettra également de mesurer rapidement les résultats et de vous ajuster en conséquence.

Identifiez vos sources de données

Identifiez les sources de données internes et externes à votre organisation. Cela peut inclure des bases de données transactionnelles, des feuilles de calcul, des systèmes CRM, des outils de marketing en ligne, etc. Assurez-vous que les données que vous collectez sont fiables, complètes et pertinentes pour vos objectifs.

Nettoyez et préparez vos données

La qualité des données est essentielle pour une BI efficace. Mettez en place des processus pour nettoyer, normaliser et préparer vos données avant de les analyser. Cela implique souvent d’éliminer les doublons, de corriger les erreurs et de normaliser les formats de données.

Choisissez les bons outils

Il existe de nombreuses solutions de BI sur le marché, alors faites des recherches pour trouver celles qui correspondent le mieux à vos besoins. Considérez des facteurs tels que la facilité d’utilisation, la capacité à gérer de grands ensembles de données, l’intégration avec vos systèmes existants et le coût.

Formez votre équipe

Assurez-vous que votre équipe est formée à l’utilisation des outils de BI et à l’interprétation des données. La BI est un outil puissant, mais son efficacité dépend de la capacité de votre équipe à l’utiliser correctement.

Communiquez et collaborez

Impliquez les parties prenantes dès le début du processus de mise en œuvre de la BI. Leur soutien et leurs commentaires seront essentiels pour garantir le succès à long terme de votre initiative BI.

Commencer petit et évoluer

Ne cherchez pas à mettre en œuvre toutes les fonctionnalités de BI en même temps. Commencez par des projets pilotes ou des initiatives spécifiques, puis étendez progressivement votre utilisation de la BI en fonction des résultats obtenus.

Impliquer les parties prenantes

Impliquez les parties prenantes dès le début du processus de mise en œuvre de la BI. Leur soutien et leurs commentaires seront essentiels pour garantir le succès à long terme de votre initiative BI.

Mesurez et ajustez

Suivez les performances de votre BI et mesurez son impact sur votre entreprise. Utilisez ces informations pour identifier les domaines d’amélioration et apporter des ajustements à votre stratégie de BI au fil du temps.

En suivant ces conseils pratiques initiaux, vous pouvez bien démarrer avec la Business Intelligence et commencer à tirer parti de vos données pour prendre des décisions éclairées et stimuler la croissance de votre entreprise

CONCLUSION

Un projet de Business Intelligence (BI) est considéré comme réussi lorsqu’il parvient à fournir de la valeur ajoutée à l’entreprise en répondant à ses objectifs commerciaux de manière efficace et efficiente. Voici quelques indicateurs clés qui peuvent définir un projet de BI réussi :

Alignement avec les objectifs commerciaux : le projet de BI doit être aligné sur les objectifs stratégiques de l’entreprise. Il doit contribuer à améliorer la prise de décision, à optimiser les processus métier, à accroître la rentabilité ou à renforcer la compétitivité de l’entreprise.

Utilisation efficace des données : un projet de BI réussi utilise efficacement les données pour fournir des informations exploitables. Cela implique de collecter, nettoyer, analyser et présenter les données de manière appropriée pour répondre aux besoins de l’entreprise.

Adoption par les utilisateurs : les utilisateurs finaux doivent adopter les outils de BI et les utiliser de manière régulière pour prendre des décisions. Un projet de BI réussi est celui qui répond aux besoins des utilisateurs et qui est facile à utiliser et à comprendre.

Amélioration des performances : un projet de BI réussi se traduit par une amélioration des performances de l’entreprise. Cela peut se manifester par une augmentation des ventes, une réduction des coûts, une amélioration de la productivité ou toute autre mesure de la performance pertinente pour l’entreprise.

Retour sur investissement (ROI) positif : un projet de BI réussi génère un retour sur investissement positif pour l’entreprise. Cela signifie que les avantages obtenus grâce à l’utilisation de la BI dépassent les coûts de mise en œuvre et de maintenance du projet.

Évolutivité et flexibilité : un projet de BI réussi est capable de s’adapter aux besoins changeants de l’entreprise et d’évoluer avec elle. Il doit être suffisamment flexible pour prendre en charge de nouveaux besoins, de nouveaux types de données ou de nouveaux scénarios d’utilisation.

Soutien et engagement de la direction : un projet de BI réussi bénéficie du soutien et de l’engagement de la direction de l’entreprise. La direction doit reconnaître la valeur de la BI et fournir les ressources nécessaires pour soutenir le projet tout au long de son cycle de vie.

En résumé, un projet de BI réussi est celui qui contribue à atteindre les objectifs commerciaux de l’entreprise en utilisant efficacement les données pour prendre des décisions éclairées. Il est caractérisé par son alignement avec les objectifs de l’entreprise, son adoption par les utilisateurs, son impact positif sur les performances de l’entreprise et son retour sur investissement positif.

Cet article vous a inspiré ?
Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

La prise de décision éclairée : rapide et efficace

« La promptitude dans la décision est le pilier de la réussite, mais l’éclairage des données en est la fondation »

Cet adage résume parfaitement le sujet des prises de décisions efficaces et rapides qui se basent dans la majorité des entreprises sur les données.

Dans le monde des affaires contemporain, les données sont devenues le carburant propulsant la prise de décision stratégique. De la planification des opérations quotidiennes à l’élaboration de stratégies à long terme, les entreprises tirent désormais parti des données pour guider leurs choix et améliorer leur efficacité globale.

Voici comment les décisions basées sur les données peuvent transformer radicalement votre entreprise. Que vous soyez leader sur votre secteur d’activité, ou en plein développement sur un nouveau marché, vous aurez inéluctablement des décisions stratégiques à prendre qui vont engager votre projet.

Sachant qu’une mauvaise décision pourra entraîner des conséquences parfois graves sur ce dernier voire pour votre entreprise, il est essentiel de disposer des bons process, outils d’aide à la décision et surtout les données.

Précision et pertinence

Les décisions basées sur les données reposent sur des informations tangibles et factuelles, éliminant ainsi les conjectures et les intuitions souvent sujettes à l’erreur. En utilisant des données précises et actualisées, les entreprises peuvent prendre des décisions plus éclairées et pertinentes, ce qui réduit les risques d’erreurs coûteuses

Identification de tendances

En analysant de vastes ensembles de données, les entreprises peuvent repérer des tendances significatives et des schémas récurrents. Cela leur permet d’anticiper les changements du marché, d’identifier de nouvelles opportunités et de rester en avance sur la concurrence.

Personnalisation des expériences client

Les données sur le comportement des clients permettent aux entreprises de créer des expériences personnalisées et sur mesure. En comprenant les préférences et les besoins individuels des clients, les entreprises peuvent offrir des produits et des services mieux adaptés, renforçant ainsi la fidélité et la satisfaction client

Utilisation de la technologie pour accélérer & optimiser le processus

Les données opérationnelles permettent aux entreprises d’optimiser leurs processus internes. En identifiant les inefficacités et les goulets d’étranglement, les entreprises peuvent apporter des ajustements précis pour améliorer la productivité, réduire les coûts et accroître l’efficacité opérationnelle globale.

Les technologies de traitement des données telles que l’intelligence artificielle (IA), l’apprentissage automatique et l’analyse prédictive peuvent accélérer le processus de prise de décision en automatisant les tâches répétitives et en fournissant des insights exploitables en temps réel. Les algorithmes avancés peuvent détecter des modèles subtils dans les données, aidant ainsi les décideurs à prendre des décisions plus éclairées et plus rapides

Décisions basées sur les données : la clé de l’agilité & de prise de décision agile

Grâce à l’accès en temps réel aux données, les entreprises peuvent prendre des décisions plus rapidement et de manière plus agile. En utilisant des tableaux de bord et des analyses en temps réel, les décideurs disposent des informations nécessaires pour réagir rapidement aux changements du marché et aux nouvelles opportunités.

La prise de décision éclairée repose sur l’accès à des données précises et actualisées. Les entreprises qui investissent dans des systèmes de collecte, d’analyse et de visualisation des données sont mieux armées pour prendre des décisions rapides et éclairées. En exploitant les données disponibles, elles peuvent évaluer rapidement les tendances du marché, comprendre les besoins des clients et identifier les opportunités de croissance

Rapidité sans compromis sur la qualité

Alors que la rapidité est essentielle dans un environnement commercial concurrentiel, cela ne signifie pas sacrifier la qualité des décisions. Les données fournissent un cadre objectif sur lequel baser les choix, réduisant ainsi les risques d’erreurs coûteuses liées à la prise de décision impulsives ou mal informées. En combinant vitesse et précision, les entreprises peuvent prendre des décisions efficaces tout en maintenant un niveau élevé de qualité et de pertinence

L’importance de la culture de données

Au-delà des outils et des technologies, la prise de décision éclairée repose sur une culture organisationnelle qui valorise les données et favorise la collaboration. Les entreprises qui encouragent une culture de données sont mieux équipées pour collecter, analyser et utiliser efficacement les informations pour prendre des décisions. En encourageant la transparence, la communication et la collaboration, ces entreprises peuvent exploiter pleinement le potentiel des données pour stimuler l’innovation et la croissance

Conclusion

En adoptant une approche axée sur les données, les entreprises peuvent transformer leur manière de prendre des décisions, en passant d’une approche basée sur l’intuition à une approche basée sur des données tangibles et vérifiables. En conséquence, elles peuvent améliorer leur efficacité opérationnelle, stimuler leur croissance et maintenir leur compétitivité sur le marché en constante évolution. En fin de compte, les entreprises qui s’engagent pleinement dans les décisions basées sur les données sont mieux positionnées pour prospérer dans l’économie moderne.

La prise de décision éclairée, basée sur les données, offre un avantage concurrentiel indéniable dans l’environnement commercial moderne. En combinant rapidité et efficacité avec la précision des données, les entreprises peuvent s’adapter rapidement aux changements du marché, saisir les opportunités et maintenir leur position de leader dans leur secteur. En investissant dans des technologies de traitement des données avancées et en favorisant une culture de données au sein de l’organisation, les entreprises peuvent naviguer avec succès dans un monde en constante évolution et prospérer dans l’incertitude.

Cet article vous a inspiré ?
Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data visualisation, Data Warehouse, L'entreprise, Machine Learning, Self-service Analytics, Technology

Entrepôts de Données vs Lacs de Données : plongée comparative dans le monde de la Technologie

Dans le monde de la technologie, en constante évolution, deux termes font des vagues :

les Entrepôts de Données (Data Warehouses) et les Lacs de Données (Data Lakes).

Tous deux sont des outils puissants pour le stockage et l’analyse des données, mais ils servent à des fins différentes et possèdent des forces et faiblesses uniques. Plongeons dans le monde des données pour explorer ces deux géants technologiques.

Les Entrepôts de Données existent depuis un certain temps, offrant un moyen structuré et organisé de stocker des données. Ils sont comme une bibliothèque bien organisée, où chaque livre (donnée) a sa place. Les avancées récentes les ont rendus encore plus efficaces. Par exemple, la convergence des lacs de données et des entrepôts de données a mené à une approche plus unifiée du stockage et de l’analyse des données. Cela signifie moins de mouvements de données et plus d’efficacité – un double avantage !

De plus, l’intégration de modèles d’apprentissage automatique et de capacités d’IA a automatisé l’analyse des données, fournissant des insights plus avancés. Imaginez avoir un bibliothécaire personnel qui non seulement sait où chaque livre se trouve mais peut aussi prédire quel livre vous aurez besoin ensuite !

Cependant, chaque rose a ses épines. Les entrepôts de données peuvent être complexes et coûteux à mettre en place et à maintenir. Ils peuvent également avoir du mal avec les données non structurées ou le traitement des données en temps réel.

Mais ils brillent lorsqu’il est nécessaire d’avoir des données structurées, historiques pour le reporting et l’analyse, ou lorsque les données de différentes sources doivent être intégrées et cohérentes.

D’autre part, les lacs de données sont comme un vaste océan de données brutes, non structurées. Ils sont flexibles et évolutifs, grâce au développement du Data Mesh. Cela permet une approche plus distribuée du stockage et de l’analyse des données. De plus, l’utilisation croissante de l’apprentissage automatique et de l’IA peut automatiser l’analyse des données, fournissant des insights plus avancés.

Cependant, sans une gestion adéquate, les lacs de données peuvent devenir des « marécages de données », avec des données devenant désorganisées et difficiles à trouver et à utiliser.

L’ingestion et l’intégration des données peuvent également être longues et complexes. Mais ils sont le choix par excellence lorsqu’il est nécessaire de stocker de grands volumes de données brutes, non structurées, ou lorsque le traitement des données en temps réel ou quasi temps réel est requis.

En profondeur

ENTREPOTS DE DONNEES

Les avancées

  1. Convergence des lacs de données et des entrepôts de données : Cela permet une approche plus unifiée du stockage et de l’analyse des données, réduisant le besoin de mouvements de données et augmentant l’efficacité.

  2. Streaming plus facile des données en temps réel : Cela permet des insights plus opportuns et une prise de décision plus rapide.

  3. Intégration de modèles d’apprentissage automatique et de capacités d’IA : Cela peut automatiser l’analyse des données et fournir des insights plus avancés.

  4. Identification et résolution plus rapides des problèmes de données : Cela améliore la qualité et la fiabilité des données.

Les limites

  1. Les entrepôts de données peuvent être complexes et coûteux à mettre en place et à maintenir.

  2. Ils peuvent ne pas convenir aux données non structurées ou au traitement des données en temps réel.

 

Meilleurs scénarios pour l’implémentation :

  1. Lorsqu’il est nécessaire d’avoir des données structurées, historiques pour le reporting et l’analyse.

  2. Lorsque les données de différentes sources doivent être intégrées et cohérentes.

LACS DE DONNEES

Les avancées

  1. Développement du Data Mesh : Cela permet une approche plus distribuée du stockage et de l’analyse des données, augmentant la scalabilité et la flexibilité.

  2. Utilisation croissante de l’apprentissage automatique et de l’IA : Cela peut automatiser l’analyse des données et fournir des insights plus avancés.

  3. Outils favorisant une approche structurée de développement-test-publication pour l’ingénierie des données : Cela peut améliorer la qualité et la fiabilité des données.

Les limites

  1. Les lacs de données peuvent devenir des « marécages de données » s’ils ne sont pas correctement gérés, avec des données devenant désorganisées et difficiles à trouver et à utiliser.

  2. L’ingestion et l’intégration des données peuvent être longues et complexes.

Meilleurs scénarios pour l’implémentation :

  1. Lorsqu’il est nécessaire de stocker de grands volumes de données brutes, non structurées.

  2. Lorsque le traitement des données en temps réel ou quasi temps réel est requis.

 

En conclusion, les entrepôts de données et les lacs de données ont tous deux leurs avantages et limites. Le choix entre eux dépend des besoins spécifiques et des circonstances de l’organisation.

C’est comme choisir entre une bibliothèque et un océan – les deux ont leur charme, mais le choix dépend de ce que vous recherchez. Ainsi, que vous soyez un passionné de technologie ou un leader d’entreprise, comprendre ces deux outils peut vous aider à prendre des décisions éclairées dans le monde de la technologie.

Après tout, dans le monde des données, la connaissance, c’est le pouvoir !

Cet article vous a inspiré ?
Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

Maîtriser Vos Données : l’essence et l’impact du catalogue de données décryptés

Dans le monde hyperconnecté d’aujourd’hui, où les données sont considérées comme le nouvel or, savoir les gérer et les exploiter s’avère essentiel pour les entreprises souhaitant prendre des décisions éclairées et rester compétitives. Le concept de « Data catalog », ou catalogue de données, émerge comme une réponse clé à ce défi, offrant une boussole dans l’océan vaste et souvent tumultueux des données.

Cet article vise à éclairer les enjeux et les avantages des data catalog, ces bibliothèques modernes où les metadonnées ne sont pas seulement stockées, mais rendues compréhensibles et accessibles. À travers l’automatisation de la documentation des metadonnées et la mise en place d’une gouvernance des données collaborative, les catalogues de données transforment la manière dont les organisations accèdent, comprennent et utilisent leurs précieuses informations.

En facilitant la découverte et le partage des données fiables, ils permettent aux entreprises de naviguer avec assurance vers une stratégie véritablement pilotée par les données.

Mais encore…

Un Data catalogue est un outil centralisé conçu pour gérer efficacement les données au sein d’une organisation. Selon Gartner, il maintient un inventaire des données actives en facilitant leur découverte, description et organisation.

L’analogie basique serait de dire qu’il s’agit d’un répertoire, une sorte d’annuaire où les lecteurs trouvent les informations dont ils ont besoin sur les livres et où ils se trouvent : titre, auteur, résumé, édition et avis des autres lecteurs.

Le but d’un data catalogue est de rendre la gouvernance des données collaborative, en améliorant l’accessibilité, l’exactitude et la pertinence des données pour l’entreprise. Il soutient la confidentialité des données et la conformité réglementaire grâce à un traçage intelligent du lignage des données et un suivi de la conformité​​.

Voici 5 raisons pour vos équipes data d'utiliser un data catalogue :

Data analysts / Business Analysts

Ils utilisent le data catalogue pour trouver et comprendre les données nécessaires à leurs analyses. Cela leur permet d’avoir accès rapidement aux données pertinentes, d’appréhender leur contexte et de garantir leur qualité et leur fiabilité pour les rapports et les analyses.

 

Data Scientists

Le data catalogue est essentiel pour localiser les datasets nécessaires à leurs modèles de machine learning et d’intelligence artificielle. Il facilite également la compréhension des métadonnées (provenance des données et les transformations qu’elles ont subies) ce qui est capital pour le pré-traitement des données.

 

Data Stewards (gestionnaires de données)

Ce sont eux qui sont responsables de la qualité, de la disponibilité et de la gouvernance des données. Ils utilisent le data catalogue pour documenter les métadonnées, gérer les standards de données, et surveiller la conformité et l’utilisation des données au sein de l’organisation.

 

Responsables de la conformité et de la sécurité

Le data catalogue les aide à assurer que les données sont gérées et utilisées conformément aux réglementations en vigueur, comme le RGPD pour la protection des données personnelles. Ils peuvent l’utiliser pour suivre l’accès aux données sensibles et auditer l’utilisation des données.

 

Architectes et ingénieurs de données

Ces techniciens s’appuient sur le data catalogue pour concevoir et maintenir l’infrastructure de données. Il leur fournit une vue d’ensemble des données disponibles, de leur structure et de leur interrelation, facilitant ainsi l’optimisation de l’architecture de données et l’intégration de nouvelles sources de données.

Attention il est important de noter que les utilisateurs métiers ne sont pas moins en reste de cet outil. En effet bien qu’ils ne soient pas des utilisateurs techniques, ils profitent du data catalogue pour accéder aux informations et insights nécessaires à la prise de décision. Le répertoire leur permet de trouver facilement les données pertinentes sans nécessiter de connaissances techniques approfondies.

Ce qu'il faut retenir

Un data catalogue sert à :

 

  • Améliorer la découverte et l’accès aux données

 

  • Renforcer la gouvernance des données

 

  • Améliorer de la qualité et de la fiabilité des données

 

  • Faciliter la collaboration entre les équipes

 

  • Optimiser l’utilisation des ressources de données

 

Grâce aux Data catalogues, tout comme nous le faisons désormais avec notre propre solution révolutionnaire DUKE, naviguez dans le paysage complexe des données dès aujourd’hui, offrez-vous le luxe d’accéder efficacement, de gérer et d’exploiter les données pour soutenir la prise de décision éclairée et l’innovation en entreprise.

Faites brillez vos équipes Data dès aujourd’hui et plongez sans plus attendre au cœur de notre projet DUKE

Business Intelligence, Company, CRM, Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

OFFRE D’EMPLOI-CONSULTANT DATA ENGINEER H/F – CDI

En recherche d’un nouveau challenge ?

Votre mission :

Accompagner nos clients dans leurs projets de transformation numérique et d’analyse de données.

Partenaires majeurs des entreprises de l’océan Indien pour leurs projets autour de la donnée, Datanalysis dans le cadre de son expansion recrute un Data Engineer

Véritable actif stratégique des entreprises, la donnée est aujourd’hui au cœur des enjeux de performance économique et concurrentielle. Nos équipes maîtrisent parfaitement son cycle de vie et les leviers pour que cette donnée devienne une information précieuse. Pour nous aider à aller encore plus loin et pour offrir une expertise additionnelle à nos clients, nous recherchons un profil alliant expertises technologiques et savoir-faire métier pour participer à la réalisation des projets de Data.

Intégré dans une équipe de 17 consultants sénior spécialisés en BI Self-Service, en Data visualisation, Machine Learning et IA, votre poste vous amènera sur les tâches suivantes :

  • Conception et mise en place de pipelines de données pour collecter, stocker et traiter les données chez nos clients
  • Optimisation de la performance et de l’évolutivité des systèmes de stockage de données pour améliorer les processus de nos clients
  • Mise en place de processus pour assurer la qualité des données et ainsi aider nos clients à prendre des décisions informées
  • Collaboration avec les équipes de développement pour intégrer les données dans les applications de nos clients
  • Mise en place de systèmes de surveillance pour assurer la disponibilité et l’intégrité des données pour nos clients

Vous aimez relever de nouveaux challenges. Vous savez faire preuve d’engagement pour réussir et évoluez aisément dans un environnement dynamique.

Vous vous intéressez naturellement à vos clients pour savoir dans quelle mesure vous pouvez les aider à résoudre leurs problèmes.

Vous possédez un bon esprit d’analyse et de synthèse, un excellent relationnel.

 

VOUS PROFITEREZ PLEINEMENT DE CE POSTE SI…

 

  • Vous disposez d’une forte appétence pour les nouvelles technologies
  • Expérience professionnelle dans la conception et la mise en place de pipelines de données pour des clients
  • Connaissance des outils de stockage de données tels que Hadoop, Spark, et NoSQL pour les implémenter chez nos clients
  • Connaissance des outils de gestion de données tels que Airflow, NiFi, ou Talend pour les implémenter chez nos clients
  • Bonne connaissance de SQL et des bases de données relationnelles pour les implémenter chez nos clients
  • Bonne connaissance des méthodes d’analyse de données pour les implémenter chez nos clients
  • Bonne capacité à communiquer en anglais et en français pour travailler efficacement avec nos clients
  • Vous faites également preuve également de capacités de gestion de projet, de recueil de besoins

La curiosité, l’intérêt pour le monde de la donnée, de la data visualisation et de l’IA sont des vrais plus.

Enfin, et surtout, vous êtes chaleureux, souriant et dynamique ! Vous aimez rendre service en apportant du soin à la qualité de votre travail.

 

OÙ TRAVAILLEREZ-VOUS ?

Le poste est basé à Saint Paul de la Réunion. Des déplacements sur toute l’île, et potentiellement sur l’île Maurice et Madagascar sont à prévoir.

 

POURQUOI REJOINDRE DATANALYSIS ?

We are data people and we rock, like you !

Business Intelligence, Data visualisation, Self-service Analytics, Stage, Technology

LE STORYTELLING de Sephora Panchbaya

Passionnée par l’analyse de données, à la recherche d’un stage et investie dans un projet très innovant au sein de son école, sa candidature a très rapidement retenu notre attention. Aucun regret! Nous avons partagé ces derniers mois à ses côtés…pépite !
Elle vous en dit plus :

À la sortie de mon BAC S, j’ai fait une première année de cours préparatoires en mathématiques et physique dans l’optique de devenir ingénieure. Un an après, j’ai réalisé que les cours théoriques ne me convenaient plus et que je voulais faire autre chose.

Je me suis donc dirigée vers Epitech, une école en 5 ans qui forme des experts en technologies de l’information et je me suis orientée vers le développement de jeux vidéo. Après la première année, je me suis rendu compte que ce monde n’était pas pour moi non plus.

Ayant un fort attrait pour les mathématiques et les statistiques, j’ai pendant longtemps cherché ce que je pourrai faire dans l’avenir.

Je me suis donc penchée sur le domaine de l’analyse de données. J’ai toujours trouvé fascinant tout ce qui pouvait être révélé lorsque l’on prenait le temps de comparer et d’analyser des données. Cependant, il est aussi facile de les manipuler pour leur faire dire ce que l’on souhaite.

Pour pouvoir me conforter dans cette idée, j’ai souhaité réaliser un stage au cœur de ce domaine pour ma 3e année. C’est là que j’ai rencontré Datanalysis, une petite entreprise réunionnaise et à fond dans l’innovation.

Durant les 4 mois qui ont suivi, j’ai pu m’intégrer très vite à leur équipe, découvrir leur monde et ce qu’ils y font.

J’ai pu réaliser diverses missions en interne qui m’ont permis d’acquérir énormément de connaissances dans ce domaine en peu de temps et de manière autonome. J’ai par exemple, appris à maîtriser Tableau Software, un outil majeur dans la visualisation de données mais également plein d’autres outils qui me seront très utiles dans l’avenir.

A la suite de ce stage, je m’envolerai vers une université d’Irlande pour me spécialiser dans la Data Analytics !

Nous sommes fiers d’avoir pu travaillé à ses côtés et de lui avoir fait découvrir l’accessibilité et la transparence des données. Nous encourageons tous les futurs étudiants, les passionnés, les déterminés ou même personnes en reconversion à découvrir ce « monde » qui nous entoure !

Découvrir notre playground !
Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data visualisation, Machine Learning, Self-service Analytics, Technology

DATA : les 7 pièges à éviter. Ep 3/7 – Erreurs mathématiques : comment sont calculées les données ?

Nous avons tous un jour exprimé notre incrédulité quant à l’intérêt des mathématiques dans notre vie quotidienne. A quoi ce sujet dense et complexe pouvait bien servir ? Et bien, dans un monde où les données sont présentes partout et infusent chaque décision stratégique des organisations, les mathématiques sont d’une importance vitale (nda : elles l’ont toujours été !)

Dans nos projets d’analyse de données, les erreurs mathématiques peuvent arriver dès lors qu’un champ calculé est créé pour générer des informations supplémentaires à partir de notre jeu de données initial. Ce type d’erreur peut être retrouvé par exemple lorsque :

  • On réalise des agrégations (somme, moyenne, médiane, minimum, maximum, comptage, comptage distinct etc.) à différents niveaux de détail
  • Nous faisons des divisions pour produire des ratios ou des pourcentages
  • Nous travaillons avec des unités différentes

Il s’agit évidemment d’une infime partie des types d’opérations où des erreurs peuvent se glisser. Mais au regard de notre expérience, ce sont les causes principales de problème que nous rencontrons.

Et, dans chacun de ces cas, il ne faut pas être un ingénieur ou scientifique de génie pour les corriger. Un peu d’attention et pas mal de rigueur sont nécessaires !

1. Les erreurs de traitement d’unité

Dans cet article, nous n’allons pas trop nous attarder sur cette erreur fréquente. En effet, il existe un nombre important d’articles et d’anecdotes qui illustrent parfaitement et en détail ce type de problématique (dont nous avons également parlé dans l’article précédent).

L’exemple le plus fameux, et coûteux, est le crash de la sonde « Mars Orbiter ». Si vous voulez en savoir plus alors cela sera par ici : Mars Climate Orbiter – Wikipedia

Vous pouvez arguer qu’aucun d’entre nous ne fait partie de la NASA et doit poser une sonde sur une planète lointaine et donc ne pas être concerné. Et bien, vous pouvez à votre mesure, vous retrouver nez à nez avec ce type d’erreur lorsque vous manipulez des données temporelles (heures, jours, secondes, minutes, années), financières (différentes devises), ou que vous gériez des stocks (unités, kilos, palettes, barres etc.).

2. Aggravation des agrégations

Nous agrégeons des données lorsque nous regroupons des enregistrements qui ont un attribut en commun. Il y a toutes sortes de regroupements de ce genre que nous traitons dans notre monde dès lors que nous pouvons établir des liens hiérarchiques ; le temps (jour, semaine, mois, années), la géographie (villes, région, pays), les organisations (employés, équipes, sociétés) etc.

Les agrégations sont un outil puissant pour appréhender le monde, mais attention, elles comportent plusieurs facteurs de risque :

  • Les agrégations résument une situation et ne présentent pas les informations détaillées. Tous ceux qui ont participé à une formation sur la datavisualisation avec nos équipes sont familiers du quarter d’Anscombe :

Le résumé statistique est un exemple typique de ce que peuvent masquer des agrégats. Dans cet exemple les quatre jeux de données ont exactement les mêmes sommes, moyennes et déviation standards sur les deux coordonnées (X,Y). Lorsque l’on représente chacun des points sur des courbes, il est aisé de constater que les 4 histoires sont significativement différentes.

Dès lors que des données sont agrégées, nous essayons de résumer une situation. Il faut toujours se rappeler que ce résumé masque les détails et le contexte qui l’expliquent. Alors soyez prudent lorsque, lors d’une discussion, vos interlocuteurs ne parlent que de valeurs moyenne, de sommes ou de médiane sans entrer dans le détail de ce qui a pu engendrer ce scénario précis.

  • Les agrégations peuvent également masquer les valeurs manquantes et induire en erreur. En effet, selon la façon dont nous représentons des informations, il est possible que le fait que des données soient manquantes ne soit pas clairement visibles de prime abord.

Prenons par exemple un jeu de données dans lequel nous observons pour une compagnie aérienne le nombre d’impacts d’oiseaux sur des avions.

Notre objectif est de déterminer le (ou les) mois de l’année où le plus d’incidents ont été relevés. Cela donne :

Le mois de juillet semble être le mois où le nombre d’impacts décomptés a été le plus important. Toutefois, si nous regardons le détail par année, nous nous rendons compte que l’agrégation choisie pour répondre à notre interrogation ne permettait pas de déterminer que les saisies pour l’année 2017 s’arrêtaient lors de ce fameux mois de juillet :

La réponse à notre question était donc le mois d’Août si nous excluons les données de l’année pour laquelle nous n’avions pas tous les enregistrements.

  • Totaux et agrégations :

Dernier exemple de problématiques liées aux agrégations que nous allons découvrir dans cet article. Il s’agit d’une des erreurs « favorites » de l’auteur de cet article. D’aucun pourrait même parler de spécialité !

Elle intervient lorsqu’il est nécessaire de compter les individus distincts dans une population donnée. Mettons que nous regardons notre base client et cherchons à savoir combien d’individus uniques sont présents dans celle-ci.

Le comptage des id distincts pour l’ensemble de la société nous donne un décompte de nos clients uniques :

Mais si l’on regarde par ligne de produit et affichons une somme sans y prêter attention :

Nous trouvons 7 clients de plus !

Cela arrive simplement car il existe dans la clientèle de la société étudiée des clients qui prennent à la fois des prestations ET des licences, et qui finissent par être comptés deux fois dans le total !

Il s’agit d’un problème ayant des solutions simples dans tous les logiciels modernes de datavisualisation et de BI mais celui-ci à tendance à se cacher au détour d’une série de calculs et d’agrégations, causant des écarts parfois surprenants en bout de chaîne.

3. Panique à bord, un ratio !

Nous allons illustrer ce point avec un exemple sorti de l’un des dashboards que nous avons fait pour un de nos clients. Avec toute notre expertise, il nous arrive aussi de sauter à pieds joints dans ce type d’erreurs :

Et oui, il s’agit d’un taux d’occupation qui excède « légèrement » les 100% !

Comment est-ce possible ? Un simple oubli !

La somme des divisions n’est pas égale à la division des sommes…

En effet, dans ce cas précis, nous avions un jeu de données similaire à celui ci-dessous :

Est-ce que le taux d’occupation est égal à :

  • La somme des taux d’occupation individuels ? FAUX !

Cela nous donne un total de 30 % + 71 % + 100 % + 50 % + 92 % +70 % soit 414 %.

Et c’est exactement l’erreur que nous avons faite sur un jeu de données encore plus vaste…

  • Ou le ratio du total des passagers sur le total de la capacité disponible ? 125/146 = 86%. C’est plus juste !

Remarque : la moyenne des taux d’occupation individuels serait également fausse.

En résumé, dès lors que l’on manipule un ratio, il s’agit de diviser le total des valeurs du numérateur et du dénominateur pour éviter ce type de soucis.

Il s’agit dans ce cas précis d’un seul exemple d’erreur liée au ratio. Des mentions honorables peuvent être attribuées au traitement des valeurs NULL dans un calcul, ou à la comparaison de ratios qui ne sont pas calculés avec les mêmes dénominateurs.

Dans le prochain article, nous allons explorer le 4ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure :

Les dérapages statistiques. (Spoilers : « There are lies, damned lies and statistics » B.Disraeli)

Cet article est inspiré fortement par le livre ” Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, édition WILEY. Nous vous recommandons cette excellente lecture!

 Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/