Artificial Intelligence – Datanalysis – Mettons vos données en action

28 mai 20250

Qu’est-ce qu’une « Full-Stack AI Company » et pourquoi votre entreprise devrait s’y intéresser?

La révolution qui redéfinit le conseil data

L’intelligence artificielle ne se contente plus d’être un simple outil – elle redéfinit complètement la manière dont les entreprises abordent leurs défis data. Chez DATANALYSIS, nous sommes au cœur de cette métamorphose, transformant notre approche du conseil pour vous offrir des solutions plus puissantes et plus intégrées que jamais.

Définition d’une « Full-Stack AI Company »

Une « full-stack AI company » applique directement les capacités d’IA pour fournir des solutions complètes dans un domaine spécifique, plutôt que de simplement vendre des outils pour que d’autres les implémentent. Cette approche révolutionne le modèle d’affaires traditionnel du conseil.

Comme l’explique Y Combinator en 2025 : « Une entreprise full-stack IA ne se contente pas de construire des agents IA à vendre aux entreprises existantes ; elle crée de nouvelles entreprises dotées d’agents IA qui concurrencent directement les sociétés traditionnelles. »

Full-Stack AI Companies	Entreprises d’outils IA traditionnelles
Construisent des solutions complètes qui répondent directement aux défis sectoriels	Créent des outils que d’autres intègrent dans leurs workflows
Possèdent l’expérience utilisateur et la relation client	Fournissent des composants qui s’intègrent aux systèmes des autres
Capturent l’ensemble de la chaîne de valeur d’un secteur	Capturent uniquement la couche technologique

Pourquoi est-ce révolutionnaire pour votre entreprise ?

1. Transformation du temps en valeur

Pour un DSI comme vous, le temps est précieux. Notre approche full-stack IA permet de réduire drastiquement les délais de mise en œuvre :

40-50% de réduction du temps de développement ETL
Diminution significative du temps d’actualisation des données (de 500 à 45 minutes chez un de nos clients)
70% de réduction du temps de programmation

2. De la donnée à la décision en un temps record

Comme en témoigne KDI, notre client : « Tous les objectifs majeurs liés à la gestion et à l’exploitation des données ont été atteints. La prestation de DATANALYSIS a été une ressource inestimable pour notre service, offrant une aide précieuse à la prise de décision. »

3. Expertise humaine amplifiée, non remplacée

Notre approche full-stack IA ne remplace pas l’expertise humaine – elle l’amplifie. Nos consultants se concentrent désormais sur des tâches à plus haute valeur ajoutée :

Orientation stratégique
Gouvernance des données
Conseil en implémentation IA
Éthique et conformité

En pratique : DUKE Analytics, notre assistant IA au cœur de notre transformation

DUKE Analytics, notre solution phare, incarne parfaitement cette approche full-stack IA :

« Dans l’univers complexe des données, DUKE Analytics émerge comme un phare de simplicité et de puissance, redéfinissant la manière dont les entreprises interagissent avec leurs informations cruciales. Grâce à sa technologie de BI Générative et à son datamanagement intelligent, DUKE Analytics démocratise l’usage des données. »

Cette solution permet de :

Interagir : Dialoguer naturellement avec vos données via une interface chatbot
Décider : Transformer les données en insights actionnables
Briller : Prendre des décisions rapides et fondées

Témoignages clients : des résultats concrets

Notre approche full-stack IA a déjà transformé les opérations de plusieurs entreprises :

Orange Réunion Mayotte : « DATANALYSIS nous accompagne depuis 6 ans au quotidien et c’est naturellement vers eux que nous nous sommes tournés pour notre projet stratégique de refonte de notre infrastructure et de nos outils data. »
- Voir le use case: https://www.datanalysis.re/blog/clients/refonte-et-data-strategie-orm-au-coeur-de-la-donnee
C-Care (secteur santé) : « L’équipe de DATANALYSIS a su faire la différence sur l’aspect opérationnel en fournissant à CCARE des pipelines plus rationalisés et une diminution significative du temps nécessaire à l’actualisation quotidienne des données en passant de 500 minutes à 45 minutes ! »
- Voir le use case: https://www.datanalysis.re/blog/clients/ccare-defis-acceptes-challenges-remportes

Prêt à transformer votre approche data ?

La révolution full-stack IA n’en est qu’à ses débuts. Les entreprises qui l’adoptent aujourd’hui se positionnent comme les leaders de demain.

Chez DATANALYSIS, nous combinons l’expertise humaine et les capacités IA pour offrir des solutions complètes qui s’attaquent directement à vos défis sectoriels, créant une valeur nettement supérieure aux approches traditionnelles.

Contactez-nous pour découvrir comment notre approche full-stack IA peut transformer votre entreprise.

DATANALYSIS – Transformez vos intuitions en décisions éclairées grâce à des données de qualité.

Discutons en

Artificial Intelligence

28 mai 20251

L’impact de l’IA générative sur les projets de Business Intelligence: un avantage compétitif pour votre entreprise

Exploitez vos données et automatisez vos processus grâce à nos solutions d’IA générative et nos agents autonomes intelligents.Depuis quelques mois, l’Intelligence Artificielle générative s’impose comme une révolution technologique majeure. Au-delà de l’effet de mode, elle offre des opportunités concrètes pour accélérer et optimiser les projets data, de la collecte des données jusqu’à leur exploitation décisionnelle. Les décideurs (CIO, CDO, CTO…) voient émerger une promesse claire : des données mieux exploitées, plus rapidement, pour un avantage compétitif décisif.

1. Collecte et ingestion des données : l’IA au service du data engineer

La première étape d’un projet data consiste généralement à collecter, ingérer et centraliser les données provenant de différentes sources. C’est le domaine de prédilection du Data Engineer, souvent en collaboration avec le Data Steward qui veille à la qualité et à la conformité des données collectées. Traditionnellement, cette phase peut être longue et fastidieuse : il faut développer des connecteurs vers des APIs ou bases de données, écrire des scripts d’ETL (Extract-Transform-Load) pour intégrer les données dans un data warehouse, et documenter l’origine et le schéma de ces données.

L’IA générative change la donne en automatisant et accélérant ces tâches techniques. Par exemple, un data engineer peut décrire en langage naturel la source de données à connecter et les transformations souhaitées, et l’IA générera automatiquement le code pour effectuer cette ingestion. Des outils de type copilot basés sur des modèles génératifs peuvent suggérer du code Python ou SQL prêt à l’emploi pour extraire et charger les données, réduisant drastiquement le temps de développement.

Un cas d’usage concret : l’automatisation du mapping de données hétérogènes. Relier entre elles deux sources de données différentes (par exemple l’ERP et le CRM de l’entreprise) demande d’identifier quelles entités ou clés correspondent – un travail manuel traditionnellement long et sujet à erreurs. Ici, un agent d’IA peut analyser les schémas et contenus des deux sources et proposer automatiquement les correspondances. Ce type d’agent autonome accélère l’intégration de nouvelles sources et garantit une meilleure cohérence.

Avec des solutions comme DUKE, la plateforme de DATANALYSIS, vous pouvez connecter vos données en quelques clics, éliminant la complexité technique pour obtenir rapidement des données exploitables.

2. Préparation et qualité des données : un bond en avant pour le data steward

Une fois les données brutes ingérées, il faut passer par la phase cruciale de préparation, de nettoyage et de mise en qualité des données. Dans un projet classique, cette phase mobilise le data engineer et surtout le Data Steward, gardien de la qualité et de la gouvernance des données. Leur mission : dédoublonner, gérer les valeurs manquantes, uniformiser les formats et documenter les jeux de données.

L’IA générative excelle dans ces tâches répétitives et vient libérer les experts humains de ce fardeau. Par exemple, un modèle d’IA peut détecter automatiquement les anomalies, signaler les doublons et proposer des corrections pour normaliser les données. Ce type d’automatisation permet au data steward de se concentrer sur des tâches à plus forte valeur ajoutée, comme définir des règles de gestion de données et superviser les processus de contrôle qualité.

3. Analyse exploratoire et Business Intelligence : le copilote du data analyst

Quand les données sont prêtes, le Data Analyst intervient pour transformer ces données en insights actionnables. Traditionnellement, l’analyse exploratoire et la création de rapports pouvaient prendre des jours. L’IA générative, combinée à des interfaces conversationnelles, permet aujourd’hui de poser des questions en langage naturel et d’obtenir des réponses immédiates sous forme de graphiques ou de textes explicatifs.

Grâce à cette assistance, l’analyste peut se concentrer sur des analyses plus complexes, tandis que l’IA se charge de générer automatiquement des rapports et des visualisations. Cela améliore non seulement l’efficacité, mais permet aussi aux décideurs d’accéder rapidement aux informations nécessaires pour prendre des décisions éclairées.

4. Modélisation avancée et Data Science : un catalyseur pour le data scientist

Au-delà de l’analyse descriptive, de nombreux projets data incluent une dimension prédictive ou d’intelligence artificielle. Ici, le Data Scientist intervient pour concevoir, entraîner et déployer des modèles de Machine Learning. L’IA générative offre un soutien précieux en générant automatiquement du code et en proposant des solutions pour le prétraitement des données.

Par exemple, en décrivant simplement son besoin, le data scientist peut obtenir un prototype de script optimisé pour entraîner un modèle de classification ou de prédiction. Cela réduit considérablement le temps passé sur les tâches répétitives et permet de se concentrer sur l’innovation et l’optimisation des modèles.

L’IA générative ne remplace pas la créativité humaine, mais l’amplifie, offrant aux data scientists un véritable catalyseur pour accélérer l’innovation et améliorer la qualité des modèles déployés.

5. Déploiement, monitoring et consommation : vers des pipelines autonomes de bout en bout

La dernière étape d’un projet data est la mise en production des solutions développées et leur exploitation par les utilisateurs finaux. Cette phase mobilise des équipes techniques pour le déploiement et la surveillance continue, ainsi que des utilisateurs métiers qui consomment ces analyses pour prendre des décisions stratégiques.

L’IA générative intervient ici en automatisant le déploiement et le monitoring des modèles. Par exemple, un agent autonome peut surveiller en temps réel la performance d’un modèle, détecter des anomalies et déclencher des procédures de réentraînement si nécessaire. Pour les utilisateurs, l’IA permet d’accéder à des tableaux de bord interactifs et personnalisés, transformant l’expérience de la donnée en une interaction dynamique et fluide.

Conclusion : Passez à l’action avec DATANALYSIS et DUKE

L’IA générative transforme en profondeur la manière dont les projets data sont conduits. Du data engineer assisté par des agents autonomes au data scientist propulsé par des outils d’analyse avancée, chaque étape est optimisée pour offrir un avantage compétitif décisif.

Chez DATANALYSIS, nous avons intégré ces innovations dans DUKE, notre plateforme unifiée Data & IA Générative, pour permettre aux entreprises de connecter, préparer, analyser et exploiter leurs données en toute simplicité. Nos solutions vous permettent de réduire le délai insight-décision, d’améliorer la qualité des données et de stimuler l’innovation au sein de vos équipes.

Vous souhaitez découvrir comment l’IA générative peut transformer vos projets data et offrir un avantage concurrentiel à votre entreprise ? Planifiez dès aujourd’hui une consultation avec un expert de DATANALYSIS et propulsez votre organisation vers l’avenir.

Démonstration DUKE + Audit processus data + POC sur mesure

Discutons-en !

Artificial Intelligence

28 janvier 20250

DATANALYSIS accélère son développement national avec le soutien de la Région Réunion

Dans le cadre du dispositif Prim’Export de la Région Réunion, DATANALYSIS a mené une campagne de développement intensive sur le territoire métropolitain entre juin et août 2024. Cette opération a permis de concrétiser plusieurs succès majeurs :

Signature d’un contrat avec le groupe Sanofi pour le déploiement de nos solutions d’analyse de données
Participation au salon IA organisé par Amadeus
Développement de partenariats stratégiques, notamment avec le groupe ACCOR
Implantation réussie sur la région PACA

Cette expansion, soutenue par la Région Réunion, renforce notre position d’acteur innovant dans le domaine de l’IA et de l’analyse de données, tout en valorisant l’excellence du savoir-faire réunionnais à l’échelle nationale.

#InnovationRéunion #PrimExport #DataAnalytics #IA #RégionRéunion

Artificial Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation

20 septembre 20240

DATA: Les 7 pièges à éviter, Ep 7/7 – Dangers du design

L’importance du design dans la présentation des données

Le design joue un rôle crucial dans la façon dont les données sont perçues et interprétées. Un bon design peut rendre les données plus accessibles et compréhensibles, tandis qu’un mauvais design peut conduire à des malentendus et des interprétations erronées. Dans ce dernier épisode de notre série, nous explorerons les dangers liés au design dans la présentation des données.

Piège 7A: les couleurs confuses

Le choix des couleurs est un aspect crucial du design de visualisation de données. Des couleurs mal choisies peuvent rendre la visualisation difficile à lire ou induire en erreur. Voici quelques pièges courants :

Utiliser trop de couleurs : Cela peut surcharger visuellement et rendre la compréhension difficile.
Choisir des couleurs qui ne se distinguent pas bien : Cela peut rendre difficile la différenciation des catégories.
Ignorer le daltonisme : Certaines combinaisons de couleurs peuvent être indiscernables pour les personnes daltoniennes.

Considérons cet exemple de dashboard sur les crimes à Orlando :

Dans ce dashboard, l’utilisation de couleurs similaires pour différentes catégories rend difficile la distinction entre les types de crimes.

Piège 7B: les opportunités manquées

Parfois, dans notre quête de simplicité, nous pouvons manquer des opportunités d’améliorer la compréhension à travers le design. Par exemple, l’ajout judicieux d’éléments visuels peut grandement améliorer l’engagement et la mémorisation.

Voici un exemple d’une visualisation améliorée des œuvres d’Edgar Allan Poe :

Cette visualisation utilise des éléments de design pour évoquer l’ambiance sombre des œuvres de Poe, rendant la visualisation plus mémorable et engageante.

Piège 7C: les problèmes d'utilisabilité

Un bon design ne se limite pas à l’aspect visuel, il doit également prendre en compte l’utilisabilité. Des visualisations difficiles à manipuler ou à comprendre peuvent frustrer les utilisateurs et limiter l’efficacité de la communication des données.

Considérons cet exemple de dashboard interactif sur les crimes à Orlando :

Ce dashboard offre de nombreuses options d’interaction, mais sans une conception soignée de l’interface utilisateur, il peut devenir écrasant et difficile à utiliser efficacement.

CONCLUSION

Dans ce dernier article de notre série, nous avons exploré le septième type d’erreur que nous pouvons rencontrer lorsque nous travaillons avec des données : les dangers du design. Nous avons vu comment les choix de couleurs, les opportunités manquées et les problèmes d’utilisabilité peuvent affecter l’efficacité de nos visualisations de données.

Au cours de cette série de sept articles, nous avons couvert un large éventail de pièges courants dans le travail avec les données, de la façon dont nous pensons aux données jusqu’à la manière dont nous les présentons. En étant conscients de ces pièges et en apprenant à les éviter, nous pouvons améliorer considérablement notre capacité à travailler efficacement avec les données et à communiquer des insights précieux.

Cette série d’articles est fortement inspirée par le livre « Avoiding Data Pitfalls – How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations » écrit par Ben Jones, Founder and CEO de Data Literacy, édition WILEY. Nous vous recommandons vivement cette excellente lecture pour approfondir votre compréhension des pièges liés aux données et comment les éviter !

Vous trouverez tous les sujets abordés dans cette série ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Cet article vous a inspiré ?

Discutons-en !

Artificial Intelligence, Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Machine Learning, Self-service Analytics

03 septembre 20240

Lean UX Design : la clé pour révolutionner votre développement BI

Qu’est-ce que le Lean UX Design et pourquoi est-il crucial pour votre BI ?

Dans le monde dynamique de la Business Intelligence (BI), où la complexité des données rencontre les besoins évolutifs des utilisateurs, le Lean UX Design émerge comme une approche révolutionnaire. Cette méthodologie, centrée sur l’utilisateur, promet de transformer radicalement la façon dont nous concevons et développons des solutions BI.

Le Lean UX Design en bref

Approche centrée utilisateur
Itérations rapides et feedback continu
Collaboration interfonctionnelle
Réduction du gaspillage et optimisation des ressources
Adaptation agile aux changements

Mais comment le Lean UX peut-il concrètement améliorer vos projets BI ? Plongeons dans les détails.

Les 5 Étapes Clés du processus Lean UX en BI

Définition du problème et des utilisateurs : comprenez en profondeur les défis spécifiques de vos utilisateurs BI.
Idéation et hypothèses : formulez des hypothèses sur les solutions potentielles.
Prototypage rapide : créez des prototypes low-fidelity pour tester vos idées.
Tests utilisateurs : obtenez rapidement des feedbacks pour valider ou invalider vos hypothèses.
Itération et amélioration continue : affinez votre solution en fonction des retours utilisateurs.

Les avantages tangibles du Lean UX dans le développement BI

1. Réduction significative des coûts et du temps de développement

En identifiant rapidement ce qui fonctionne et ce qui ne fonctionne pas, le Lean UX permet d’économiser des ressources précieuses.

« Grâce à l’approche Lean UX de DATANALYSIS, nous avons réduit nos coûts de développement BI de 30% tout en augmentant la satisfaction utilisateur de 50%. »

– Marie Dupont, CIO, TechInnovate SA

2. Amélioration de l’expérience utilisateur et de l’adoption des outils BI

Des solutions BI conçues avec les utilisateurs, pour les utilisateurs, garantissent une meilleure adoption et utilisation.

3. Agilité et adaptabilité accrues face aux changements du marché

Dans un environnement BI en constante évolution, le Lean UX vous permet de pivoter rapidement et efficacement.

Voici les 5 étapes pour implémenter le Lean UX dans vos projets BI :

Téléchargez notre guide gratuit

Adopter le Lean UX dans votre développement BI peut sembler intimidant.

Voici quelques étapes pour démarrer :

Évaluez votre maturité UX actuelle
Formez vos équipes aux principes du Lean UX
Commencez par un projet pilote
Mesurez et communiquez les résultats
Étendez progressivement l’approche à d’autres projets

Etes-vous prêt pour le Lean UX ?

Nous vous aidons à le savoir !

CONCLUSION

Dans un monde où la data est reine, le Lean UX offre un moyen de transformer cette data en insights actionnables de manière plus rapide et plus précise que jamais. Pour les entreprises cherchant à tirer le meilleur parti de leurs investissements en BI, le Lean UX n’est pas seulement une option, c’est une nécessité compétitive.

Chez DATANALYSIS, nous sommes passionnés par l’application du Lean UX dans le développement BI. Notre équipe d’experts est prête à vous guider dans cette transformation pour optimiser vos processus, réduire vos coûts et améliorer significativement l’expérience utilisateur de vos solutions BI.

Intéressés

Planifiez une consultation gratuite avec nos experts Lean UX

Discutons-en !

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

07 juin 20240

La prise de décision éclairée : rapide et efficace

« La promptitude dans la décision est le pilier de la réussite, mais l’éclairage des données en est la fondation »

Cet adage résume parfaitement le sujet des prises de décisions efficaces et rapides qui se basent dans la majorité des entreprises sur les données.

Dans le monde des affaires contemporain, les données sont devenues le carburant propulsant la prise de décision stratégique. De la planification des opérations quotidiennes à l’élaboration de stratégies à long terme, les entreprises tirent désormais parti des données pour guider leurs choix et améliorer leur efficacité globale.

Voici comment les décisions basées sur les données peuvent transformer radicalement votre entreprise. Que vous soyez leader sur votre secteur d’activité, ou en plein développement sur un nouveau marché, vous aurez inéluctablement des décisions stratégiques à prendre qui vont engager votre projet.

Sachant qu’une mauvaise décision pourra entraîner des conséquences parfois graves sur ce dernier voire pour votre entreprise, il est essentiel de disposer des bons process, outils d’aide à la décision et surtout les données.

Précision et pertinence

Les décisions basées sur les données reposent sur des informations tangibles et factuelles, éliminant ainsi les conjectures et les intuitions souvent sujettes à l’erreur. En utilisant des données précises et actualisées, les entreprises peuvent prendre des décisions plus éclairées et pertinentes, ce qui réduit les risques d’erreurs coûteuses

Identification de tendances

En analysant de vastes ensembles de données, les entreprises peuvent repérer des tendances significatives et des schémas récurrents. Cela leur permet d’anticiper les changements du marché, d’identifier de nouvelles opportunités et de rester en avance sur la concurrence.

Personnalisation des expériences client

Les données sur le comportement des clients permettent aux entreprises de créer des expériences personnalisées et sur mesure. En comprenant les préférences et les besoins individuels des clients, les entreprises peuvent offrir des produits et des services mieux adaptés, renforçant ainsi la fidélité et la satisfaction client

Utilisation de la technologie pour accélérer & optimiser le processus

Les données opérationnelles permettent aux entreprises d’optimiser leurs processus internes. En identifiant les inefficacités et les goulets d’étranglement, les entreprises peuvent apporter des ajustements précis pour améliorer la productivité, réduire les coûts et accroître l’efficacité opérationnelle globale.

Les technologies de traitement des données telles que l’intelligence artificielle (IA), l’apprentissage automatique et l’analyse prédictive peuvent accélérer le processus de prise de décision en automatisant les tâches répétitives et en fournissant des insights exploitables en temps réel. Les algorithmes avancés peuvent détecter des modèles subtils dans les données, aidant ainsi les décideurs à prendre des décisions plus éclairées et plus rapides

Décisions basées sur les données : la clé de l’agilité & de prise de décision agile

Grâce à l’accès en temps réel aux données, les entreprises peuvent prendre des décisions plus rapidement et de manière plus agile. En utilisant des tableaux de bord et des analyses en temps réel, les décideurs disposent des informations nécessaires pour réagir rapidement aux changements du marché et aux nouvelles opportunités.

La prise de décision éclairée repose sur l’accès à des données précises et actualisées. Les entreprises qui investissent dans des systèmes de collecte, d’analyse et de visualisation des données sont mieux armées pour prendre des décisions rapides et éclairées. En exploitant les données disponibles, elles peuvent évaluer rapidement les tendances du marché, comprendre les besoins des clients et identifier les opportunités de croissance

Rapidité sans compromis sur la qualité

Alors que la rapidité est essentielle dans un environnement commercial concurrentiel, cela ne signifie pas sacrifier la qualité des décisions. Les données fournissent un cadre objectif sur lequel baser les choix, réduisant ainsi les risques d’erreurs coûteuses liées à la prise de décision impulsives ou mal informées. En combinant vitesse et précision, les entreprises peuvent prendre des décisions efficaces tout en maintenant un niveau élevé de qualité et de pertinence

L’importance de la culture de données

Au-delà des outils et des technologies, la prise de décision éclairée repose sur une culture organisationnelle qui valorise les données et favorise la collaboration. Les entreprises qui encouragent une culture de données sont mieux équipées pour collecter, analyser et utiliser efficacement les informations pour prendre des décisions. En encourageant la transparence, la communication et la collaboration, ces entreprises peuvent exploiter pleinement le potentiel des données pour stimuler l’innovation et la croissance

Conclusion

En adoptant une approche axée sur les données, les entreprises peuvent transformer leur manière de prendre des décisions, en passant d’une approche basée sur l’intuition à une approche basée sur des données tangibles et vérifiables. En conséquence, elles peuvent améliorer leur efficacité opérationnelle, stimuler leur croissance et maintenir leur compétitivité sur le marché en constante évolution. En fin de compte, les entreprises qui s’engagent pleinement dans les décisions basées sur les données sont mieux positionnées pour prospérer dans l’économie moderne.

La prise de décision éclairée, basée sur les données, offre un avantage concurrentiel indéniable dans l’environnement commercial moderne. En combinant rapidité et efficacité avec la précision des données, les entreprises peuvent s’adapter rapidement aux changements du marché, saisir les opportunités et maintenir leur position de leader dans leur secteur. En investissant dans des technologies de traitement des données avancées et en favorisant une culture de données au sein de l’organisation, les entreprises peuvent naviguer avec succès dans un monde en constante évolution et prospérer dans l’incertitude.

Cet article vous a inspiré ?

Discutons-en !

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

22 février 20240

Maîtriser Vos Données : l’essence et l’impact du catalogue de données décryptés

Dans le monde hyperconnecté d’aujourd’hui, où les données sont considérées comme le nouvel or, savoir les gérer et les exploiter s’avère essentiel pour les entreprises souhaitant prendre des décisions éclairées et rester compétitives. Le concept de « Data catalog », ou catalogue de données, émerge comme une réponse clé à ce défi, offrant une boussole dans l’océan vaste et souvent tumultueux des données.

Cet article vise à éclairer les enjeux et les avantages des data catalog, ces bibliothèques modernes où les metadonnées ne sont pas seulement stockées, mais rendues compréhensibles et accessibles. À travers l’automatisation de la documentation des metadonnées et la mise en place d’une gouvernance des données collaborative, les catalogues de données transforment la manière dont les organisations accèdent, comprennent et utilisent leurs précieuses informations.

En facilitant la découverte et le partage des données fiables, ils permettent aux entreprises de naviguer avec assurance vers une stratégie véritablement pilotée par les données.

Mais encore…

Un Data catalogue est un outil centralisé conçu pour gérer efficacement les données au sein d’une organisation. Selon Gartner, il maintient un inventaire des données actives en facilitant leur découverte, description et organisation.

L’analogie basique serait de dire qu’il s’agit d’un répertoire, une sorte d’annuaire où les lecteurs trouvent les informations dont ils ont besoin sur les livres et où ils se trouvent : titre, auteur, résumé, édition et avis des autres lecteurs.

Le but d’un data catalogue est de rendre la gouvernance des données collaborative, en améliorant l’accessibilité, l’exactitude et la pertinence des données pour l’entreprise. Il soutient la confidentialité des données et la conformité réglementaire grâce à un traçage intelligent du lignage des données et un suivi de la conformité.

Voici 5 raisons pour vos équipes data d'utiliser un data catalogue :

Data analysts / Business Analysts

Ils utilisent le data catalogue pour trouver et comprendre les données nécessaires à leurs analyses. Cela leur permet d’avoir accès rapidement aux données pertinentes, d’appréhender leur contexte et de garantir leur qualité et leur fiabilité pour les rapports et les analyses.

Data Scientists

Le data catalogue est essentiel pour localiser les datasets nécessaires à leurs modèles de machine learning et d’intelligence artificielle. Il facilite également la compréhension des métadonnées (provenance des données et les transformations qu’elles ont subies) ce qui est capital pour le pré-traitement des données.

Data Stewards (gestionnaires de données)

Ce sont eux qui sont responsables de la qualité, de la disponibilité et de la gouvernance des données. Ils utilisent le data catalogue pour documenter les métadonnées, gérer les standards de données, et surveiller la conformité et l’utilisation des données au sein de l’organisation.

Responsables de la conformité et de la sécurité

Le data catalogue les aide à assurer que les données sont gérées et utilisées conformément aux réglementations en vigueur, comme le RGPD pour la protection des données personnelles. Ils peuvent l’utiliser pour suivre l’accès aux données sensibles et auditer l’utilisation des données.

Architectes et ingénieurs de données

Ces techniciens s’appuient sur le data catalogue pour concevoir et maintenir l’infrastructure de données. Il leur fournit une vue d’ensemble des données disponibles, de leur structure et de leur interrelation, facilitant ainsi l’optimisation de l’architecture de données et l’intégration de nouvelles sources de données.

Attention il est important de noter que les utilisateurs métiers ne sont pas moins en reste de cet outil. En effet bien qu’ils ne soient pas des utilisateurs techniques, ils profitent du data catalogue pour accéder aux informations et insights nécessaires à la prise de décision. Le répertoire leur permet de trouver facilement les données pertinentes sans nécessiter de connaissances techniques approfondies.

Ce qu'il faut retenir

Un data catalogue sert à :

Améliorer la découverte et l’accès aux données

Renforcer la gouvernance des données

Améliorer de la qualité et de la fiabilité des données

Faciliter la collaboration entre les équipes

Optimiser l’utilisation des ressources de données

Grâce aux Data catalogues, tout comme nous le faisons désormais avec notre propre solution révolutionnaire DUKE, naviguez dans le paysage complexe des données dès aujourd’hui, offrez-vous le luxe d’accéder efficacement, de gérer et d’exploiter les données pour soutenir la prise de décision éclairée et l’innovation en entreprise.

Faites brillez vos équipes Data dès aujourd’hui et plongez sans plus attendre au cœur de notre projet DUKE

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data visualisation

21 juin 20230

DATA: Les 7 pièges à éviter, Ep 4/7 – Erreurs statistiques – Les faits sont des choses têtues, mais les statistiques sont malléables

« Il y a des mensonges, des maudits mensonges et des statistiques » B.Disraeli

Pourquoi un tel dégoût pour un domaine qui, selon le Merriam-dictionnaire Webster, est simplement « une branche des mathématiques traitant de la collecte, de l’analyse, de l’interprétation et de la présentation de masses de données numériques. »1 Pourquoi le domaine de la statistique est-il sous un jour si négatif par tant de personnes ?

Il y a quatre raisons principales à cela

C’est un domaine complexe. Même les concepts de base ne sont pas accessibles aisément et sont très difficile à expliquer
Même les experts les mieux intentionnés peuvent mal appliquer les outils à leur disposition
La troisième raison derrière toute cette haine est que ceux qui ont un agenda peuvent facilement créer des statistiques pour mentir lorsqu’ils communiquent avec nous
La dernière raison est que les statistiques peuvent souvent sembler froides et distantes, rendant l’appropriation très complexes par le public

Les Déboires descriptifs

Les statistiques descriptives ont pour objectif de résumer les principales caractéristiques d’un ensemble de données. Cependant, un usage incorrect ou inapproprié peut conduire à des conclusions trompeuses. Un exemple typique est l’utilisation de la moyenne pour résumer une distribution, sans tenir compte de la variabilité ou de l’asymétrie. Une autre erreur courante est de présenter des pourcentages sans expliquer l’effectif total, ce qui peut induire en erreur sur l’ampleur réelle d’un phénomène. Il est donc crucial de comprendre les hypothèses et les limites de chaque mesure descriptive pour l’utiliser correctement.

Prenons l’exemple de l’analyse des salaires au sein d’une entreprise. Si l’on se contente de regarder la moyenne des salaires, on pourrait conclure que l’entreprise rémunère bien ses employés. Cependant, si les salaires de la direction sont très élevés comparativement au reste des employés, la moyenne serait biaisée à la hausse. Il serait plus pertinent d’utiliser la médiane qui donne le salaire du milieu, ou encore de regarder la distribution complète des salaires pour avoir une vue plus précise.

Cette erreur est très bien décrite ici avec des chats :

Les Incendies inférentiels

Toujours une explication féline :

L’inférence statistique vise à tirer des conclusions sur une population à partir d’un échantillon de cette population. Cependant, ce processus est sujet à des erreurs. Les erreurs d’échantillonnage et les erreurs de type I et II sont courantes. De plus, les erreurs peuvent être exacerbées par la confusion entre corrélation et causalité. Il est essentiel d’avoir une solide compréhension des principes de l’inférence statistique pour éviter ces pièges.

Imaginons une étude de santé publique cherchant à établir un lien entre une habitude alimentaire particulière (comme manger bio) et un meilleur état de santé général. Si l’étude conclut à une corrélation positive, cela ne signifie pas forcément que manger bio cause un meilleur état de santé. Il pourrait y avoir des facteurs de confusion, comme le niveau de revenu ou le mode de vie, qui influencent à la fois l’habitude alimentaire et l’état de santé. Ici, on peut tomber dans le piège de confondre corrélation et causalité.

L'Échantillonnage glissant

L’échantillonnage est une étape cruciale dans tout processus de collecte de données. Pourtant, de nombreuses erreurs peuvent survenir à ce stade. L’échantillon peut ne pas être représentatif de la population cible, en raison de biais de sélection ou de non-réponse. De plus, la taille de l’échantillon peut être insuffisante pour détecter un effet. Il est donc essentiel de planifier soigneusement l’échantillonnage pour obtenir des résultats fiables.

Considérons une enquête de satisfaction client menée par une entreprise de commerce en ligne. Si l’entreprise ne sollicite que les avis des clients qui ont fait un achat récent, elle risque d’obtenir une image faussée de la satisfaction globale de sa clientèle. En effet, les clients insatisfaits peuvent avoir cessé de faire des achats et donc ne pas être inclus dans l’échantillon. C’est un exemple de biais de sélection.

L'insensibilité à la taille de l'échantillon

Une erreur courante dans l’analyse de données est d’ignorer l’impact de la taille de l’échantillon sur les résultats. Une taille d’échantillon importante peut rendre significatif un effet très faible, tandis qu’une taille d’échantillon trop petite peut ne pas avoir la puissance suffisante pour détecter un effet existant. De plus, la signification statistique ne signifie pas nécessairement une signification pratique. Ainsi, il est important de considérer la taille de l’échantillon dans l’interprétation des résultats.

Supposons que vous meniez une étude pour évaluer l’effet d’un médicament sur la baisse de la tension artérielle. Si vous avez un très grand échantillon de patients, vous pourriez constater une baisse statistiquement significative de la tension artérielle. Cependant, cette baisse peut être très faible, disons 0.1 mm Hg, une valeur cliniquement insignifiante malgré sa significativité statistique. C’est un exemple où la taille de l’échantillon peut rendre un effet faible significatif. D’un autre côté, si l’échantillon est trop petit, on peut passer à côté d’un effet réel. Il est donc important de considérer l’importance clinique ou pratique en plus de la significativité statistique.

En approfondissant cette question, Ben Jones (voir auteur ayant inspiré cet article) a réussi à trouver des chiffres sur le taux de cancer du rein ainsi que les données démographiques pour chaque comté américain, et il a créé un tableau de bord interactif (figure ci-dessous) pour illustrer visuellement le fait que Kahneman, Wainer et Zwerlink sont faire assez clairement dans les mots.

Remarquez quelques éléments dans le tableau de bord. Sur la carte choroplèthe (remplie), les comtés orange les plus foncés (taux élevés par rapport au taux global des États-Unis) et les comtés bleus les plus foncés (taux faibles par rapport au taux global des États-Unis) sont souvent côte à côte.

De plus, notez comment dans le nuage de points sous la carte, les marques forment une forme d’entonnoir, avec des comtés moins peuplés (à gauche) plus susceptibles de s’écarter de la ligne de référence (le taux global des États-Unis), et des comtés plus peuplés comme Chicago, L.A. , et New York sont plus susceptibles d’être proches de la ligne de référence globale.

Une dernière observation : si vous survolez un comté avec une petite population dans la version interactive en ligne, vous remarquerez que la moyenne

le nombre de cas par an est extrêmement faible, parfois 4 cas ou moins. Une petite déviation – même juste 1 ou 2 cas – dans une année suivante tirera un comté du bas de la liste vers le haut, ou vice versa.

Dans le prochain article, nous allons explorer le 5eme type d’erreur que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : Les aberrations analytiques.

Cet article est inspiré fortement par le livre « Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, edition WILEY. Nous vous recommandons cette excellente lecture!

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics

10 octobre 20220

MEMENTO 10/22 – Libérez le potentiel de vos données !

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data visualisation, Machine Learning, Self-service Analytics, Technology

19 juillet 20220

DATA : les 7 pièges à éviter. Ep 3/7 – Erreurs mathématiques : comment sont calculées les données ?

Nous avons tous un jour exprimé notre incrédulité quant à l’intérêt des mathématiques dans notre vie quotidienne. A quoi ce sujet dense et complexe pouvait bien servir ? Et bien, dans un monde où les données sont présentes partout et infusent chaque décision stratégique des organisations, les mathématiques sont d’une importance vitale (nda : elles l’ont toujours été !)

Dans nos projets d’analyse de données, les erreurs mathématiques peuvent arriver dès lors qu’un champ calculé est créé pour générer des informations supplémentaires à partir de notre jeu de données initial. Ce type d’erreur peut être retrouvé par exemple lorsque :

On réalise des agrégations (somme, moyenne, médiane, minimum, maximum, comptage, comptage distinct etc.) à différents niveaux de détail
Nous faisons des divisions pour produire des ratios ou des pourcentages
Nous travaillons avec des unités différentes

Il s’agit évidemment d’une infime partie des types d’opérations où des erreurs peuvent se glisser. Mais au regard de notre expérience, ce sont les causes principales de problème que nous rencontrons.

Et, dans chacun de ces cas, il ne faut pas être un ingénieur ou scientifique de génie pour les corriger. Un peu d’attention et pas mal de rigueur sont nécessaires !

1. Les erreurs de traitement d’unité

Dans cet article, nous n’allons pas trop nous attarder sur cette erreur fréquente. En effet, il existe un nombre important d’articles et d’anecdotes qui illustrent parfaitement et en détail ce type de problématique (dont nous avons également parlé dans l’article précédent).

L’exemple le plus fameux, et coûteux, est le crash de la sonde « Mars Orbiter ». Si vous voulez en savoir plus alors cela sera par ici : Mars Climate Orbiter – Wikipedia

Vous pouvez arguer qu’aucun d’entre nous ne fait partie de la NASA et doit poser une sonde sur une planète lointaine et donc ne pas être concerné. Et bien, vous pouvez à votre mesure, vous retrouver nez à nez avec ce type d’erreur lorsque vous manipulez des données temporelles (heures, jours, secondes, minutes, années), financières (différentes devises), ou que vous gériez des stocks (unités, kilos, palettes, barres etc.).

2. Aggravation des agrégations

Nous agrégeons des données lorsque nous regroupons des enregistrements qui ont un attribut en commun. Il y a toutes sortes de regroupements de ce genre que nous traitons dans notre monde dès lors que nous pouvons établir des liens hiérarchiques ; le temps (jour, semaine, mois, années), la géographie (villes, région, pays), les organisations (employés, équipes, sociétés) etc.

Les agrégations sont un outil puissant pour appréhender le monde, mais attention, elles comportent plusieurs facteurs de risque :

Les agrégations résument une situation et ne présentent pas les informations détaillées. Tous ceux qui ont participé à une formation sur la datavisualisation avec nos équipes sont familiers du quarter d’Anscombe :

Le résumé statistique est un exemple typique de ce que peuvent masquer des agrégats. Dans cet exemple les quatre jeux de données ont exactement les mêmes sommes, moyennes et déviation standards sur les deux coordonnées (X,Y). Lorsque l’on représente chacun des points sur des courbes, il est aisé de constater que les 4 histoires sont significativement différentes.

Dès lors que des données sont agrégées, nous essayons de résumer une situation. Il faut toujours se rappeler que ce résumé masque les détails et le contexte qui l’expliquent. Alors soyez prudent lorsque, lors d’une discussion, vos interlocuteurs ne parlent que de valeurs moyenne, de sommes ou de médiane sans entrer dans le détail de ce qui a pu engendrer ce scénario précis.

Les agrégations peuvent également masquer les valeurs manquantes et induire en erreur. En effet, selon la façon dont nous représentons des informations, il est possible que le fait que des données soient manquantes ne soit pas clairement visibles de prime abord.

Prenons par exemple un jeu de données dans lequel nous observons pour une compagnie aérienne le nombre d’impacts d’oiseaux sur des avions.

Notre objectif est de déterminer le (ou les) mois de l’année où le plus d’incidents ont été relevés. Cela donne :

Le mois de juillet semble être le mois où le nombre d’impacts décomptés a été le plus important. Toutefois, si nous regardons le détail par année, nous nous rendons compte que l’agrégation choisie pour répondre à notre interrogation ne permettait pas de déterminer que les saisies pour l’année 2017 s’arrêtaient lors de ce fameux mois de juillet :

La réponse à notre question était donc le mois d’Août si nous excluons les données de l’année pour laquelle nous n’avions pas tous les enregistrements.

Totaux et agrégations :

Dernier exemple de problématiques liées aux agrégations que nous allons découvrir dans cet article. Il s’agit d’une des erreurs « favorites » de l’auteur de cet article. D’aucun pourrait même parler de spécialité !

Elle intervient lorsqu’il est nécessaire de compter les individus distincts dans une population donnée. Mettons que nous regardons notre base client et cherchons à savoir combien d’individus uniques sont présents dans celle-ci.

Le comptage des id distincts pour l’ensemble de la société nous donne un décompte de nos clients uniques :

Mais si l’on regarde par ligne de produit et affichons une somme sans y prêter attention :

Nous trouvons 7 clients de plus !

Cela arrive simplement car il existe dans la clientèle de la société étudiée des clients qui prennent à la fois des prestations ET des licences, et qui finissent par être comptés deux fois dans le total !

Il s’agit d’un problème ayant des solutions simples dans tous les logiciels modernes de datavisualisation et de BI mais celui-ci à tendance à se cacher au détour d’une série de calculs et d’agrégations, causant des écarts parfois surprenants en bout de chaîne.

3. Panique à bord, un ratio !

Nous allons illustrer ce point avec un exemple sorti de l’un des dashboards que nous avons fait pour un de nos clients. Avec toute notre expertise, il nous arrive aussi de sauter à pieds joints dans ce type d’erreurs :

Et oui, il s’agit d’un taux d’occupation qui excède « légèrement » les 100% !

Comment est-ce possible ? Un simple oubli !

La somme des divisions n’est pas égale à la division des sommes…

En effet, dans ce cas précis, nous avions un jeu de données similaire à celui ci-dessous :

Est-ce que le taux d’occupation est égal à :

La somme des taux d’occupation individuels ? FAUX !

Cela nous donne un total de 30 % + 71 % + 100 % + 50 % + 92 % +70 % soit 414 %.

Et c’est exactement l’erreur que nous avons faite sur un jeu de données encore plus vaste…

Ou le ratio du total des passagers sur le total de la capacité disponible ? 125/146 = 86%. C’est plus juste !

Remarque : la moyenne des taux d’occupation individuels serait également fausse.

En résumé, dès lors que l’on manipule un ratio, il s’agit de diviser le total des valeurs du numérateur et du dénominateur pour éviter ce type de soucis.

Il s’agit dans ce cas précis d’un seul exemple d’erreur liée au ratio. Des mentions honorables peuvent être attribuées au traitement des valeurs NULL dans un calcul, ou à la comparaison de ratios qui ne sont pas calculés avec les mêmes dénominateurs.

Dans le prochain article, nous allons explorer le 4ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure :

Les dérapages statistiques. (Spoilers : « There are lies, damned lies and statistics » B.Disraeli)

Cet article est inspiré fortement par le livre ” Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, édition WILEY. Nous vous recommandons cette excellente lecture!

Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/