Artificial Intelligence

Artificial Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation

DATA: Les 7 pièges à éviter, Ep 7/7 – Dangers du design

L’importance du design dans la présentation des données

Le design joue un rôle crucial dans la façon dont les données sont perçues et interprétées. Un bon design peut rendre les données plus accessibles et compréhensibles, tandis qu’un mauvais design peut conduire à des malentendus et des interprétations erronées. Dans ce dernier épisode de notre série, nous explorerons les dangers liés au design dans la présentation des données.

Piège 7A: les couleurs confuses

Le choix des couleurs est un aspect crucial du design de visualisation de données. Des couleurs mal choisies peuvent rendre la visualisation difficile à lire ou induire en erreur. Voici quelques pièges courants :

  1. Utiliser trop de couleurs : Cela peut surcharger visuellement et rendre la compréhension difficile.
  2. Choisir des couleurs qui ne se distinguent pas bien : Cela peut rendre difficile la différenciation des catégories.
  3. Ignorer le daltonisme : Certaines combinaisons de couleurs peuvent être indiscernables pour les personnes daltoniennes.
Considérons cet exemple de dashboard sur les crimes à Orlando :

Dans ce dashboard, l’utilisation de couleurs similaires pour différentes catégories rend difficile la distinction entre les types de crimes.

Piège 7B: les opportunités manquées

Parfois, dans notre quête de simplicité, nous pouvons manquer des opportunités d’améliorer la compréhension à travers le design. Par exemple, l’ajout judicieux d’éléments visuels peut grandement améliorer l’engagement et la mémorisation.

Voici un exemple d’une visualisation améliorée des œuvres d’Edgar Allan Poe :

Cette visualisation utilise des éléments de design pour évoquer l’ambiance sombre des œuvres de Poe, rendant la visualisation plus mémorable et engageante.

Piège 7C: les problèmes d'utilisabilité

Un bon design ne se limite pas à l’aspect visuel, il doit également prendre en compte l’utilisabilité. Des visualisations difficiles à manipuler ou à comprendre peuvent frustrer les utilisateurs et limiter l’efficacité de la communication des données.

Considérons cet exemple de dashboard interactif sur les crimes à Orlando :

Ce dashboard offre de nombreuses options d’interaction, mais sans une conception soignée de l’interface utilisateur, il peut devenir écrasant et difficile à utiliser efficacement.

CONCLUSION

Dans ce dernier article de notre série, nous avons exploré le septième type d’erreur que nous pouvons rencontrer lorsque nous travaillons avec des données : les dangers du design. Nous avons vu comment les choix de couleurs, les opportunités manquées et les problèmes d’utilisabilité peuvent affecter l’efficacité de nos visualisations de données.

Au cours de cette série de sept articles, nous avons couvert un large éventail de pièges courants dans le travail avec les données, de la façon dont nous pensons aux données jusqu’à la manière dont nous les présentons. En étant conscients de ces pièges et en apprenant à les éviter, nous pouvons améliorer considérablement notre capacité à travailler efficacement avec les données et à communiquer des insights précieux.

Cette série d’articles est fortement inspirée par le livre « Avoiding Data Pitfalls – How to Steer Clear of Common Blunders When Working with Data and Presenting Analysis and Visualizations » écrit par Ben Jones, Founder and CEO de Data Literacy, édition WILEY. Nous vous recommandons vivement cette excellente lecture pour approfondir votre compréhension des pièges liés aux données et comment les éviter !

Vous trouverez tous les sujets abordés dans cette série ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Cet article vous a inspiré ?
Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

La prise de décision éclairée : rapide et efficace

« La promptitude dans la décision est le pilier de la réussite, mais l’éclairage des données en est la fondation »

Cet adage résume parfaitement le sujet des prises de décisions efficaces et rapides qui se basent dans la majorité des entreprises sur les données.

Dans le monde des affaires contemporain, les données sont devenues le carburant propulsant la prise de décision stratégique. De la planification des opérations quotidiennes à l’élaboration de stratégies à long terme, les entreprises tirent désormais parti des données pour guider leurs choix et améliorer leur efficacité globale.

Voici comment les décisions basées sur les données peuvent transformer radicalement votre entreprise. Que vous soyez leader sur votre secteur d’activité, ou en plein développement sur un nouveau marché, vous aurez inéluctablement des décisions stratégiques à prendre qui vont engager votre projet.

Sachant qu’une mauvaise décision pourra entraîner des conséquences parfois graves sur ce dernier voire pour votre entreprise, il est essentiel de disposer des bons process, outils d’aide à la décision et surtout les données.

Précision et pertinence

Les décisions basées sur les données reposent sur des informations tangibles et factuelles, éliminant ainsi les conjectures et les intuitions souvent sujettes à l’erreur. En utilisant des données précises et actualisées, les entreprises peuvent prendre des décisions plus éclairées et pertinentes, ce qui réduit les risques d’erreurs coûteuses

Identification de tendances

En analysant de vastes ensembles de données, les entreprises peuvent repérer des tendances significatives et des schémas récurrents. Cela leur permet d’anticiper les changements du marché, d’identifier de nouvelles opportunités et de rester en avance sur la concurrence.

Personnalisation des expériences client

Les données sur le comportement des clients permettent aux entreprises de créer des expériences personnalisées et sur mesure. En comprenant les préférences et les besoins individuels des clients, les entreprises peuvent offrir des produits et des services mieux adaptés, renforçant ainsi la fidélité et la satisfaction client

Utilisation de la technologie pour accélérer & optimiser le processus

Les données opérationnelles permettent aux entreprises d’optimiser leurs processus internes. En identifiant les inefficacités et les goulets d’étranglement, les entreprises peuvent apporter des ajustements précis pour améliorer la productivité, réduire les coûts et accroître l’efficacité opérationnelle globale.

Les technologies de traitement des données telles que l’intelligence artificielle (IA), l’apprentissage automatique et l’analyse prédictive peuvent accélérer le processus de prise de décision en automatisant les tâches répétitives et en fournissant des insights exploitables en temps réel. Les algorithmes avancés peuvent détecter des modèles subtils dans les données, aidant ainsi les décideurs à prendre des décisions plus éclairées et plus rapides

Décisions basées sur les données : la clé de l’agilité & de prise de décision agile

Grâce à l’accès en temps réel aux données, les entreprises peuvent prendre des décisions plus rapidement et de manière plus agile. En utilisant des tableaux de bord et des analyses en temps réel, les décideurs disposent des informations nécessaires pour réagir rapidement aux changements du marché et aux nouvelles opportunités.

La prise de décision éclairée repose sur l’accès à des données précises et actualisées. Les entreprises qui investissent dans des systèmes de collecte, d’analyse et de visualisation des données sont mieux armées pour prendre des décisions rapides et éclairées. En exploitant les données disponibles, elles peuvent évaluer rapidement les tendances du marché, comprendre les besoins des clients et identifier les opportunités de croissance

Rapidité sans compromis sur la qualité

Alors que la rapidité est essentielle dans un environnement commercial concurrentiel, cela ne signifie pas sacrifier la qualité des décisions. Les données fournissent un cadre objectif sur lequel baser les choix, réduisant ainsi les risques d’erreurs coûteuses liées à la prise de décision impulsives ou mal informées. En combinant vitesse et précision, les entreprises peuvent prendre des décisions efficaces tout en maintenant un niveau élevé de qualité et de pertinence

L’importance de la culture de données

Au-delà des outils et des technologies, la prise de décision éclairée repose sur une culture organisationnelle qui valorise les données et favorise la collaboration. Les entreprises qui encouragent une culture de données sont mieux équipées pour collecter, analyser et utiliser efficacement les informations pour prendre des décisions. En encourageant la transparence, la communication et la collaboration, ces entreprises peuvent exploiter pleinement le potentiel des données pour stimuler l’innovation et la croissance

Conclusion

En adoptant une approche axée sur les données, les entreprises peuvent transformer leur manière de prendre des décisions, en passant d’une approche basée sur l’intuition à une approche basée sur des données tangibles et vérifiables. En conséquence, elles peuvent améliorer leur efficacité opérationnelle, stimuler leur croissance et maintenir leur compétitivité sur le marché en constante évolution. En fin de compte, les entreprises qui s’engagent pleinement dans les décisions basées sur les données sont mieux positionnées pour prospérer dans l’économie moderne.

La prise de décision éclairée, basée sur les données, offre un avantage concurrentiel indéniable dans l’environnement commercial moderne. En combinant rapidité et efficacité avec la précision des données, les entreprises peuvent s’adapter rapidement aux changements du marché, saisir les opportunités et maintenir leur position de leader dans leur secteur. En investissant dans des technologies de traitement des données avancées et en favorisant une culture de données au sein de l’organisation, les entreprises peuvent naviguer avec succès dans un monde en constante évolution et prospérer dans l’incertitude.

Cet article vous a inspiré ?
Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

Maîtriser Vos Données : l’essence et l’impact du catalogue de données décryptés

Dans le monde hyperconnecté d’aujourd’hui, où les données sont considérées comme le nouvel or, savoir les gérer et les exploiter s’avère essentiel pour les entreprises souhaitant prendre des décisions éclairées et rester compétitives. Le concept de « Data catalog », ou catalogue de données, émerge comme une réponse clé à ce défi, offrant une boussole dans l’océan vaste et souvent tumultueux des données.

Cet article vise à éclairer les enjeux et les avantages des data catalog, ces bibliothèques modernes où les metadonnées ne sont pas seulement stockées, mais rendues compréhensibles et accessibles. À travers l’automatisation de la documentation des metadonnées et la mise en place d’une gouvernance des données collaborative, les catalogues de données transforment la manière dont les organisations accèdent, comprennent et utilisent leurs précieuses informations.

En facilitant la découverte et le partage des données fiables, ils permettent aux entreprises de naviguer avec assurance vers une stratégie véritablement pilotée par les données.

Mais encore…

Un Data catalogue est un outil centralisé conçu pour gérer efficacement les données au sein d’une organisation. Selon Gartner, il maintient un inventaire des données actives en facilitant leur découverte, description et organisation.

L’analogie basique serait de dire qu’il s’agit d’un répertoire, une sorte d’annuaire où les lecteurs trouvent les informations dont ils ont besoin sur les livres et où ils se trouvent : titre, auteur, résumé, édition et avis des autres lecteurs.

Le but d’un data catalogue est de rendre la gouvernance des données collaborative, en améliorant l’accessibilité, l’exactitude et la pertinence des données pour l’entreprise. Il soutient la confidentialité des données et la conformité réglementaire grâce à un traçage intelligent du lignage des données et un suivi de la conformité​​.

Voici 5 raisons pour vos équipes data d'utiliser un data catalogue :

Data analysts / Business Analysts

Ils utilisent le data catalogue pour trouver et comprendre les données nécessaires à leurs analyses. Cela leur permet d’avoir accès rapidement aux données pertinentes, d’appréhender leur contexte et de garantir leur qualité et leur fiabilité pour les rapports et les analyses.

 

Data Scientists

Le data catalogue est essentiel pour localiser les datasets nécessaires à leurs modèles de machine learning et d’intelligence artificielle. Il facilite également la compréhension des métadonnées (provenance des données et les transformations qu’elles ont subies) ce qui est capital pour le pré-traitement des données.

 

Data Stewards (gestionnaires de données)

Ce sont eux qui sont responsables de la qualité, de la disponibilité et de la gouvernance des données. Ils utilisent le data catalogue pour documenter les métadonnées, gérer les standards de données, et surveiller la conformité et l’utilisation des données au sein de l’organisation.

 

Responsables de la conformité et de la sécurité

Le data catalogue les aide à assurer que les données sont gérées et utilisées conformément aux réglementations en vigueur, comme le RGPD pour la protection des données personnelles. Ils peuvent l’utiliser pour suivre l’accès aux données sensibles et auditer l’utilisation des données.

 

Architectes et ingénieurs de données

Ces techniciens s’appuient sur le data catalogue pour concevoir et maintenir l’infrastructure de données. Il leur fournit une vue d’ensemble des données disponibles, de leur structure et de leur interrelation, facilitant ainsi l’optimisation de l’architecture de données et l’intégration de nouvelles sources de données.

Attention il est important de noter que les utilisateurs métiers ne sont pas moins en reste de cet outil. En effet bien qu’ils ne soient pas des utilisateurs techniques, ils profitent du data catalogue pour accéder aux informations et insights nécessaires à la prise de décision. Le répertoire leur permet de trouver facilement les données pertinentes sans nécessiter de connaissances techniques approfondies.

Ce qu'il faut retenir

Un data catalogue sert à :

 

  • Améliorer la découverte et l’accès aux données

 

  • Renforcer la gouvernance des données

 

  • Améliorer de la qualité et de la fiabilité des données

 

  • Faciliter la collaboration entre les équipes

 

  • Optimiser l’utilisation des ressources de données

 

Grâce aux Data catalogues, tout comme nous le faisons désormais avec notre propre solution révolutionnaire DUKE, naviguez dans le paysage complexe des données dès aujourd’hui, offrez-vous le luxe d’accéder efficacement, de gérer et d’exploiter les données pour soutenir la prise de décision éclairée et l’innovation en entreprise.

Faites brillez vos équipes Data dès aujourd’hui et plongez sans plus attendre au cœur de notre projet DUKE

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data visualisation

DATA: Les 7 pièges à éviter, Ep 4/7 – Erreurs statistiques – Les faits sont des choses têtues, mais les statistiques sont malléables

« Il y a des mensonges, des maudits mensonges et des statistiques » B.Disraeli

 

Pourquoi un tel dégoût pour un domaine qui, selon le Merriam-dictionnaire Webster, est simplement « une branche des mathématiques traitant de la collecte, de l’analyse, de l’interprétation et de la présentation de masses de données numériques. »1 Pourquoi le domaine de la statistique est-il sous un jour si négatif par tant de personnes ?

Il y a quatre raisons principales à cela

  • C’est un domaine complexe. Même les concepts de base ne sont pas accessibles aisément et sont très difficile à expliquer
  • Même les experts les mieux intentionnés peuvent mal appliquer les outils à leur disposition
  • La troisième raison derrière toute cette haine est que ceux qui ont un agenda peuvent facilement créer des statistiques pour mentir lorsqu’ils communiquent avec nous
  • La dernière raison est que les statistiques peuvent souvent sembler froides et distantes, rendant l’appropriation très complexes par le public

Les Déboires descriptifs

Les statistiques descriptives ont pour objectif de résumer les principales caractéristiques d’un ensemble de données. Cependant, un usage incorrect ou inapproprié peut conduire à des conclusions trompeuses. Un exemple typique est l’utilisation de la moyenne pour résumer une distribution, sans tenir compte de la variabilité ou de l’asymétrie. Une autre erreur courante est de présenter des pourcentages sans expliquer l’effectif total, ce qui peut induire en erreur sur l’ampleur réelle d’un phénomène. Il est donc crucial de comprendre les hypothèses et les limites de chaque mesure descriptive pour l’utiliser correctement.

Prenons l’exemple de l’analyse des salaires au sein d’une entreprise. Si l’on se contente de regarder la moyenne des salaires, on pourrait conclure que l’entreprise rémunère bien ses employés. Cependant, si les salaires de la direction sont très élevés comparativement au reste des employés, la moyenne serait biaisée à la hausse. Il serait plus pertinent d’utiliser la médiane qui donne le salaire du milieu, ou encore de regarder la distribution complète des salaires pour avoir une vue plus précise.

Cette erreur est très bien décrite ici avec des chats :

Les Incendies inférentiels

Toujours une explication féline :

L’inférence statistique vise à tirer des conclusions sur une population à partir d’un échantillon de cette population. Cependant, ce processus est sujet à des erreurs. Les erreurs d’échantillonnage et les erreurs de type I et II sont courantes. De plus, les erreurs peuvent être exacerbées par la confusion entre corrélation et causalité. Il est essentiel d’avoir une solide compréhension des principes de l’inférence statistique pour éviter ces pièges.

Imaginons une étude de santé publique cherchant à établir un lien entre une habitude alimentaire particulière (comme manger bio) et un meilleur état de santé général. Si l’étude conclut à une corrélation positive, cela ne signifie pas forcément que manger bio cause un meilleur état de santé. Il pourrait y avoir des facteurs de confusion, comme le niveau de revenu ou le mode de vie, qui influencent à la fois l’habitude alimentaire et l’état de santé. Ici, on peut tomber dans le piège de confondre corrélation et causalité.

L'Échantillonnage glissant

L’échantillonnage est une étape cruciale dans tout processus de collecte de données. Pourtant, de nombreuses erreurs peuvent survenir à ce stade. L’échantillon peut ne pas être représentatif de la population cible, en raison de biais de sélection ou de non-réponse. De plus, la taille de l’échantillon peut être insuffisante pour détecter un effet. Il est donc essentiel de planifier soigneusement l’échantillonnage pour obtenir des résultats fiables.

Considérons une enquête de satisfaction client menée par une entreprise de commerce en ligne. Si l’entreprise ne sollicite que les avis des clients qui ont fait un achat récent, elle risque d’obtenir une image faussée de la satisfaction globale de sa clientèle. En effet, les clients insatisfaits peuvent avoir cessé de faire des achats et donc ne pas être inclus dans l’échantillon. C’est un exemple de biais de sélection.

L'insensibilité à la taille de l'échantillon

Une erreur courante dans l’analyse de données est d’ignorer l’impact de la taille de l’échantillon sur les résultats. Une taille d’échantillon importante peut rendre significatif un effet très faible, tandis qu’une taille d’échantillon trop petite peut ne pas avoir la puissance suffisante pour détecter un effet existant. De plus, la signification statistique ne signifie pas nécessairement une signification pratique. Ainsi, il est important de considérer la taille de l’échantillon dans l’interprétation des résultats.

Supposons que vous meniez une étude pour évaluer l’effet d’un médicament sur la baisse de la tension artérielle. Si vous avez un très grand échantillon de patients, vous pourriez constater une baisse statistiquement significative de la tension artérielle. Cependant, cette baisse peut être très faible, disons 0.1 mm Hg, une valeur cliniquement insignifiante malgré sa significativité statistique. C’est un exemple où la taille de l’échantillon peut rendre un effet faible significatif. D’un autre côté, si l’échantillon est trop petit, on peut passer à côté d’un effet réel. Il est donc important de considérer l’importance clinique ou pratique en plus de la significativité statistique.

En approfondissant cette question, Ben Jones (voir auteur ayant inspiré cet article) a réussi à trouver des chiffres sur le taux de cancer du rein ainsi que les données démographiques pour chaque comté américain, et il a créé un tableau de bord interactif (figure ci-dessous) pour illustrer visuellement le fait que Kahneman, Wainer et Zwerlink sont faire assez clairement dans les mots.

Remarquez quelques éléments dans le tableau de bord. Sur la carte choroplèthe (remplie), les comtés orange les plus foncés (taux élevés par rapport au taux global des États-Unis) et les comtés bleus les plus foncés (taux faibles par rapport au taux global des États-Unis) sont souvent côte à côte.

De plus, notez comment dans le nuage de points sous la carte, les marques forment une forme d’entonnoir, avec des comtés moins peuplés (à gauche) plus susceptibles de s’écarter de la ligne de référence (le taux global des États-Unis), et des comtés plus peuplés comme Chicago, L.A. , et New York sont plus susceptibles d’être proches de la ligne de référence globale.

 

Une dernière observation : si vous survolez un comté avec une petite population dans la version interactive en ligne, vous remarquerez que la moyenne

le nombre de cas par an est extrêmement faible, parfois 4 cas ou moins. Une petite déviation – même juste 1 ou 2 cas – dans une année suivante tirera un comté du bas de la liste vers le haut, ou vice versa.

 

Dans le prochain article, nous allons explorer le 5eme type d’erreur que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : Les aberrations analytiques.

Cet article est inspiré fortement par le livre « Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, edition WILEY. Nous vous recommandons cette excellente lecture!

Artificial Intelligence, Business Intelligence, Data Governance, Data Marketing, Data visualisation, Machine Learning, Self-service Analytics, Technology

DATA : les 7 pièges à éviter. Ep 3/7 – Erreurs mathématiques : comment sont calculées les données ?

Nous avons tous un jour exprimé notre incrédulité quant à l’intérêt des mathématiques dans notre vie quotidienne. A quoi ce sujet dense et complexe pouvait bien servir ? Et bien, dans un monde où les données sont présentes partout et infusent chaque décision stratégique des organisations, les mathématiques sont d’une importance vitale (nda : elles l’ont toujours été !)

Dans nos projets d’analyse de données, les erreurs mathématiques peuvent arriver dès lors qu’un champ calculé est créé pour générer des informations supplémentaires à partir de notre jeu de données initial. Ce type d’erreur peut être retrouvé par exemple lorsque :

  • On réalise des agrégations (somme, moyenne, médiane, minimum, maximum, comptage, comptage distinct etc.) à différents niveaux de détail
  • Nous faisons des divisions pour produire des ratios ou des pourcentages
  • Nous travaillons avec des unités différentes

Il s’agit évidemment d’une infime partie des types d’opérations où des erreurs peuvent se glisser. Mais au regard de notre expérience, ce sont les causes principales de problème que nous rencontrons.

Et, dans chacun de ces cas, il ne faut pas être un ingénieur ou scientifique de génie pour les corriger. Un peu d’attention et pas mal de rigueur sont nécessaires !

1. Les erreurs de traitement d’unité

Dans cet article, nous n’allons pas trop nous attarder sur cette erreur fréquente. En effet, il existe un nombre important d’articles et d’anecdotes qui illustrent parfaitement et en détail ce type de problématique (dont nous avons également parlé dans l’article précédent).

L’exemple le plus fameux, et coûteux, est le crash de la sonde « Mars Orbiter ». Si vous voulez en savoir plus alors cela sera par ici : Mars Climate Orbiter – Wikipedia

Vous pouvez arguer qu’aucun d’entre nous ne fait partie de la NASA et doit poser une sonde sur une planète lointaine et donc ne pas être concerné. Et bien, vous pouvez à votre mesure, vous retrouver nez à nez avec ce type d’erreur lorsque vous manipulez des données temporelles (heures, jours, secondes, minutes, années), financières (différentes devises), ou que vous gériez des stocks (unités, kilos, palettes, barres etc.).

2. Aggravation des agrégations

Nous agrégeons des données lorsque nous regroupons des enregistrements qui ont un attribut en commun. Il y a toutes sortes de regroupements de ce genre que nous traitons dans notre monde dès lors que nous pouvons établir des liens hiérarchiques ; le temps (jour, semaine, mois, années), la géographie (villes, région, pays), les organisations (employés, équipes, sociétés) etc.

Les agrégations sont un outil puissant pour appréhender le monde, mais attention, elles comportent plusieurs facteurs de risque :

  • Les agrégations résument une situation et ne présentent pas les informations détaillées. Tous ceux qui ont participé à une formation sur la datavisualisation avec nos équipes sont familiers du quarter d’Anscombe :

Le résumé statistique est un exemple typique de ce que peuvent masquer des agrégats. Dans cet exemple les quatre jeux de données ont exactement les mêmes sommes, moyennes et déviation standards sur les deux coordonnées (X,Y). Lorsque l’on représente chacun des points sur des courbes, il est aisé de constater que les 4 histoires sont significativement différentes.

Dès lors que des données sont agrégées, nous essayons de résumer une situation. Il faut toujours se rappeler que ce résumé masque les détails et le contexte qui l’expliquent. Alors soyez prudent lorsque, lors d’une discussion, vos interlocuteurs ne parlent que de valeurs moyenne, de sommes ou de médiane sans entrer dans le détail de ce qui a pu engendrer ce scénario précis.

  • Les agrégations peuvent également masquer les valeurs manquantes et induire en erreur. En effet, selon la façon dont nous représentons des informations, il est possible que le fait que des données soient manquantes ne soit pas clairement visibles de prime abord.

Prenons par exemple un jeu de données dans lequel nous observons pour une compagnie aérienne le nombre d’impacts d’oiseaux sur des avions.

Notre objectif est de déterminer le (ou les) mois de l’année où le plus d’incidents ont été relevés. Cela donne :

Le mois de juillet semble être le mois où le nombre d’impacts décomptés a été le plus important. Toutefois, si nous regardons le détail par année, nous nous rendons compte que l’agrégation choisie pour répondre à notre interrogation ne permettait pas de déterminer que les saisies pour l’année 2017 s’arrêtaient lors de ce fameux mois de juillet :

La réponse à notre question était donc le mois d’Août si nous excluons les données de l’année pour laquelle nous n’avions pas tous les enregistrements.

  • Totaux et agrégations :

Dernier exemple de problématiques liées aux agrégations que nous allons découvrir dans cet article. Il s’agit d’une des erreurs « favorites » de l’auteur de cet article. D’aucun pourrait même parler de spécialité !

Elle intervient lorsqu’il est nécessaire de compter les individus distincts dans une population donnée. Mettons que nous regardons notre base client et cherchons à savoir combien d’individus uniques sont présents dans celle-ci.

Le comptage des id distincts pour l’ensemble de la société nous donne un décompte de nos clients uniques :

Mais si l’on regarde par ligne de produit et affichons une somme sans y prêter attention :

Nous trouvons 7 clients de plus !

Cela arrive simplement car il existe dans la clientèle de la société étudiée des clients qui prennent à la fois des prestations ET des licences, et qui finissent par être comptés deux fois dans le total !

Il s’agit d’un problème ayant des solutions simples dans tous les logiciels modernes de datavisualisation et de BI mais celui-ci à tendance à se cacher au détour d’une série de calculs et d’agrégations, causant des écarts parfois surprenants en bout de chaîne.

3. Panique à bord, un ratio !

Nous allons illustrer ce point avec un exemple sorti de l’un des dashboards que nous avons fait pour un de nos clients. Avec toute notre expertise, il nous arrive aussi de sauter à pieds joints dans ce type d’erreurs :

Et oui, il s’agit d’un taux d’occupation qui excède « légèrement » les 100% !

Comment est-ce possible ? Un simple oubli !

La somme des divisions n’est pas égale à la division des sommes…

En effet, dans ce cas précis, nous avions un jeu de données similaire à celui ci-dessous :

Est-ce que le taux d’occupation est égal à :

  • La somme des taux d’occupation individuels ? FAUX !

Cela nous donne un total de 30 % + 71 % + 100 % + 50 % + 92 % +70 % soit 414 %.

Et c’est exactement l’erreur que nous avons faite sur un jeu de données encore plus vaste…

  • Ou le ratio du total des passagers sur le total de la capacité disponible ? 125/146 = 86%. C’est plus juste !

Remarque : la moyenne des taux d’occupation individuels serait également fausse.

En résumé, dès lors que l’on manipule un ratio, il s’agit de diviser le total des valeurs du numérateur et du dénominateur pour éviter ce type de soucis.

Il s’agit dans ce cas précis d’un seul exemple d’erreur liée au ratio. Des mentions honorables peuvent être attribuées au traitement des valeurs NULL dans un calcul, ou à la comparaison de ratios qui ne sont pas calculés avec les mêmes dénominateurs.

Dans le prochain article, nous allons explorer le 4ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure :

Les dérapages statistiques. (Spoilers : « There are lies, damned lies and statistics » B.Disraeli)

Cet article est inspiré fortement par le livre ” Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, édition WILEY. Nous vous recommandons cette excellente lecture!

 Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Artificial Intelligence, Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation, Machine Learning

DATA : les 7 pièges à éviter. Ep 1/7 – Erreurs Epistémologiques : comment pense-t-on aux données ?

Commençons par définir ce qu’est l’épistémologie.

L’épistémologie (du grec ancien ἐπιστήμη / epistémê « connaissance vraie, science » et λόγος / lógos « discours ») est un domaine de la philosophie qui peut désigner deux champs d’étude : l’étude critique des sciences et de la connaissance scientifique (ou de l’œuvre scientifique).

Autrement dit, il s’agit de la manière dont nous construisons nos connaissances.

Dans le monde de la donnée, il s’agit d’un sujet central et critique. En effet, nous avons été familiarisés avec le processus de transformation de la donnée, en informations, en connaissance et en élément de sagesse :

Ici le problème trouve sa source dans la manière dont nous considérons notre point de départ : les données ! En effet, l’utilisation de celle-ci et sa transformation au cours des étapes suivantes relèvent de procédés et processus conscients et maîtrisés :

==>Je nettoie ma donnée, la traite dans un ETL / ELT, la stocke, la visualise, communique mon résultat et le partage etc. Cette maîtrise nous donne le contrôle sur la qualité des étapes. Toutefois, on aura tendance à se lancer dans ce travail de transformation de notre ressource primaire en omettant un point crucial, source de notre premier obstacle :

LA DONNEE N’EST PAS UNE REPRESENTATION EXACTE DU MONDE REEL !

En effet, il est excessivement simple de travailler avec des données en pensant aux données comme étant la réalité elle-même et pas comme des données collectées à propos de la réalité. Cette nuance est primordiale :

  • Ce n’est pas la criminalité, mais les crimes déclarés
  • Ce n’est pas le diamètre d’une pièce mécanique mais le diamètre mesuré de cette pièce
  • Ce n’est pas le sentiment du public par rapport à un sujet mais le sentiment déclaré des personnes qui ont répondu à un sondage

Entrons dans le détail de cet obstacle avec quelques exemples :

1. Ce que nous ne mesurons pas (ou ce que nous ne mesurions pas)

Regardons ensemble ce dashboard présentant l’ensemble des impacts de météorites sur la Terre entre -2500 et 2012. Pouvez vous identifiez ce qu’il y a d’étranges ici ?

Les météorites semblent avoir évité soigneusement certaines parties de la planète, une large part de l’Amérique du Sud, de l’Afrique, de la Russie, du Groenland etc. Et si l’on se concentre sur le graphique montrant le nombre de météorites par années, que celles-ci ont eu tendance à tomber plutôt dans les 50 dernières années (et presque pas sur l’ensemble de la période couvrant -2055 à 1975).

Est-ce qu’il s’agit bien de la réalité ? Ou plutôt de défauts dans la manière dont les données ont été collectées

  • Nous avons commencé à collecter systématiquement ces informations récemment et nous basons sur l’archéologie pour essayer de déterminer les impacts du passé. L’érosion et le temps faisant leurs œuvres, les traces de la grande majorité des impacts ont ainsi disparu et ceux-ci ne peuvent donc plus être comptabilisés (et non, les météorites n’ont pas commencé à pleuvoir en 1975).
  • Pour qu’un impact de météorite soit intégré dans une base de données, il faut que celui-ci soit enregistré. Et pour cela, il faut une observation, et donc un observateur et que celui-ci sache à qui remonter cette information. Deux biais impactant largement la collecte et permettant d’expliquer les larges zones de Terre qui semblent avoir été épargnées par la chute de météorite.

2. Le système de mesure ne fonctionne pas

Parfois, la cause de cet écart entre la donnée et la réalité peut être expliqué par un défaut du matériel de collecte. Malheureusement, tout ce qui est fabriqué par un être humain en ce bas monde est susceptible d’être défaillant. Cela vaut pour les capteurs et les instruments de mesure évidemment.

Que s’est-il passé les 28 et 29 avril 2014 sur ce pont ? Il semblerait qu’il y ait un énorme pic de traversée du pont de Fremont par des vélos mais uniquement dans un seul sens (courbe bleue).

Source : 7 datapitfalls – Ben Jones

Série temporelle du nombre de vélos traversant le pont de Fremont

On pourrait penser qu’il s’agissait d’une magnifique journée d’été et que tout le monde est passé sur le pont en même temps ? D’une course de vélos n’empruntant celui-ci que dans un sens ? Que tous les pneus de toutes les personnes ayant traversé le pont à l’aller ont crevé avant le retour ?

Plus prosaïquement, il s’avère que le compteur bleu avait un défaut ces jours précis et ne comptait plus correctement les traversées du pont. Un simple changement de batterie et du capteur et le problème a été résolu.

Maintenant, posez vous la question du nombre de fois où vous avez pu être induit en erreur par des données issues d’un capteur ou d’une mesure défaillante sans que cela n’ait été perçu ?

3. Les données sont trop humaines

Et oui, nos propres biais humains ont un effet important sur les valeurs que nous enregistrons lors de la collecte d’informations. Nous avons par exemple tendance à arrondir les résultats des mesures :

Source : 7 datapitfalls – Ben Jones

Si l’on s’en fit à ses données, le changement des couches se fait plus régulièrement toutes les 10 minutes (0, 10, 20, 30, 40, 50) et parfois sur certains quarts d’heure (15, 45). Cela serait assez incroyable n’est-ce pas ?

Il s’agit bien d’un récit incroyable. En effet, il faut se pencher ici sur la manière dont les données ont été collectées. En tant qu’être humain, nous avons cette tendance à arrondir les informations lorsque nous les enregistrons, notamment lorsque nous regardons une montre ou une horloge : pourquoi ne pas indiquer 1:05 lorsqu’il est 1 :04 ? ou encore plus simple 1:00 car c’est plus simple encore ?

On retrouvera ce type de simplification humaine dans toutes les collectes de mesures : poids, tailles, etc.

4. Le Cygne Noir !

Dernier exemple que nous souhaitons mettre en avant ici, et ce que l’on appelle l’effet « Cygne Noir ». Si nous pensons que les données dont nous disposons sont une représentation exacte du monde qui nous entoure et que nous pouvons en sortir des affirmations à graver dans le marbre ; alors nous nous trompons fondamentalement sur ce qu’est une donnée (cf. précédemment).

Le meilleur usage des données est d’apprendre ce qui n’est pas vrai à partir d’une idée préconçue et de nous guider dans les questions que nous devons nous poser pour en apprendre plus ?

Mais revenons à notre cygne noir :

Avant la découverte de l’Australie, toutes les observations de cygne jamais faite pouvaient conforter les européens que tous les cygnes étaient blancs, à tort ! En 1697, l’observation d’un cygne noir a remis intégralement en question cette préconception commune.

Et le lien avec les données ? De la même manière que l’on aura tendance à croire qu’une observation répétée est une vérité générale ; à tort ; on peut être amener à inférer que ce que nous voyons dans les données que nous manipulons peut s’appliquer de manière générale au monde qui nous entoure et à toute époque. C’est une erreur fondamentale dans l’appréciation des données.

5. Comment se prémunir de l’erreur épistémologique ?

Il suffit pour cela d’une légère gymnastique mentale et d’un peu de curiosité :

  • Comprendre clairement comment ont été définies les mesures
  • Comprendre et représenter le processus de collection des données
  • Identifier les limites et erreurs de mesure possibles dans les données utilisées
  • Identifier les changements dans la méthode et les outils de mesure dans le temps
  • Comprendre les motivations des personnes ayant collecté les données

Dans le prochain article, nous allons explorer le 2ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : Les Erreurs Techniques 

Cet article est inspiré fortement par le livre « Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, edition WILEY. Nous vous recommandons cette excellente lecture!

Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-ep-1-7/

Artificial Intelligence, Hospitality

Innovation- Chatbots in the Hospitality Industry

Chatbots were one of the most significant trends of 2017. These small pieces of software with pre-programmed interactions allow you to communicate with them naturally and simulate the behavior of a human being within a conversational environment. It can be a standalone service or integrate within other messaging platforms like Facebook Messenger.
The adoption of these virtual assistants is growing, and brands are using chatbots in lots of exciting ways. You can order food, schedule flights and get recommendations for pretty much anything. Chatbots seemingly are the future of marketing and customer support.
The use of chatbots in the hotel industry is still evolving, but it currently encompasses a wide range of services, from hotel bookings and customer service inquiries to pre/post-stay inquiries and general travel advice.
The hotel industry can experience many benefits from the use of chatbots, among them:
  • They can be used as a reservation channel to increase direct bookings.
  • Since chatbots are available 24/7, they will reduce reception workload by giving guests instant and helpful answers around the clock.
  • Guests can check-in/check-out on the fly with the aid of a chatbot.
  • They will help independent hotels to build accurate guest profiling so that they can provide personalized offers to their guests. The hotel will be able to deliver tailor-made offers instantly and directly via chat before, during or after their stay.
  • Guests can opt-in to be notified from chatbots about the places to visit, the rates of the hotel’s cars, etc.
  • The ease of booking and the proactive concierge services create brand loyalty and improve guest satisfaction.
  • Hoteliers will be able to obtain customer reviews post-stay via a chatbot. This is much less invasive compared to traditional email marketing, which is often ignored.
What challenges do they pose for hoteliers?
Adopting this new hotel technology involves many challenges for hoteliers. For instance:
  • Independent hotels will need to simplify their booking process to accommodate chatbots.
  • Hoteliers will need to provide a consistent booking experience on chatbots in comparison to other channels.
  • General managers will need to monitor chatbots where there is a human element. They will need to allocate staff resources.
  • Hoteliers will need to manage guest expectations since guests will expect a quick turnaround on their requests through chatbots.
As you can see, chatbots present many opportunities for hoteliers, from increasing customer loyalty to enhancing the guest experience. To keep your guests coming back for more, definitely consider joining the chatbot revolution – but only if your hotel is equipped and prepared for this big step.