Clients

Business Intelligence, Clients, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data visualisation, Data Warehouse, Machine Learning, Technology

SQL basique: quézako ?

Pendant très longtemps réservé aux personnes averties et techniques du service informatique, le SQL n’était pas à la portée de n’importe quelle entité ou service d’une société. Rôle exclusivement réservé au service IT de l’entreprise auparavant. Désormais, la vulgarisation de « l’informatique » a permis à de nombreux services d’accéder aux données de leur entreprises via le SQL pour interroger leurs bases de données tels que les départements marketing, la comptabilité, le contrôle de gestion, les ressources humaines et bien d’autres encore !

Vous êtes une entreprise spécialiste du commerce électronique, de la santé, du retail ou tout simplement une PME / PMI? Vous avez un ensemble de données stockées dans une base de données?

Il est indispensable de connaître les éléments basiques du langage de requêtes structurées (SQL) pour vous permettre d’avoir rapidement des réponses à vos interrogations.

DEFINITION

Le SQL, ou Structured Query Language (Langage de Requête Structurée), est un langage de programmation spécialement conçu pour la gestion et la manipulation de bases de données relationnelles.

Il offre une interface standardisée permettant aux utilisateurs de communiquer avec les bases de données, d’effectuer des opérations telles que l’insertion, la mise à jour, la suppression et la récupération de données de manière efficace.

LES BASES DU SQL

Rappelons que le SQL n’est rien d’autre qu’un moyen de lire le contenu d’une base de données relationnelle pour remonter les informations dont un utilisateur a besoin pour répondre à un besoin.

STRUCTURATION DES DONNEES

Le SQL se base sur le modèle relationnel, qui organise les données sous forme de tables. Chaque table est composée de colonnes (champs) représentant des attributs spécifiques, et de lignes contenant les enregistrements

La structure des tables :

Dans le monde du SQL, la structure des tables est cruciale. Chaque table est définie par des colonnes, où chaque colonne représente un attribut particulier des données que vous stockez. Par exemple, une table « employés » pourrait avoir des colonnes telles que « nom« , « prénom« , « âge« , etc. Ces tables sont reliées par des clés, qui peuvent être des identifiants uniques pour chaque enregistrement, facilitant ainsi les relations entre différentes tables.

Les principales opérations (ou commandes / requêtes SQL basiques)

SELECT : Utilisé pour extraire des données d’une ou plusieurs tables. La clause SELECT permet de spécifier les colonnes à récupérer, les conditions de filtrage et l’ordre de tri. Cette clause est l’une des plus fondamentale du SQL. La clause WHERE, souvent utilisée avec SELECT, permet de filtrer les résultats en fonction de conditions spécifiques. Par exemple, vous pourriez vouloir récupérer uniquement les employés dont l’âge est supérieur à 30 ans, ou comme dans l’exemple ci-dessous uniquement les employés du service des ventes.

SELECT nom, prenom FROM employes WHERE service = Ventes;

INSERT : Permet d’ajouter de nouvelles lignes dans une table

INSERT INTO clients (nom, prenom, email) VALUES (‘Doe’, ‘John’, ‘john.doe@email.com);

UPDATE : Permet d’ajouter de nouvelles lignes dans une table

UPDATE produits SET prix = prix * 1.1 WHERE categorie = ‘Electronique‘;

DELETE : Permet de supprimer des lignes d’une table en fonction de certaines conditions

DELETE FROM commandes WHERE date_commande < 2023-01-01;

Filtrage et tri

Pour filtrer les résultats, le SQL utilise la clause WHERE, permettant de spécifier des conditions pour sélectionner les données. De plus, la clause ORDER BY permet de trier les résultats selon une ou plusieurs colonnes.

Le filtrage et le tri sont des opérations essentielles dans le langage SQL, permettant de récupérer des données spécifiques et de les organiser de manière significative. Explorons ces concepts avec des exemples pratiques

Filtrage avec la Clause WHERE

La clause WHERE est utilisée pour filtrer les résultats d’une requête en spécifiant des conditions. Cela permet de sélectionner uniquement les données qui répondent à ces critères.

–Sélectionner les employés avant un salaire supérieur à 50000

SELECT nom, prenom, salaire

FROM employes

WHERE salaire > 50000;

Dans cet exemple, seuls les employés dont le salaire est supérieur à 50000 seront inclus dans les résultats.

Filtrage avec la Clause ORDER BY

La clause ORDER BY permet de trier les résultats d’une requête en fonction d’une ou plusieurs colonnes. Vous pouvez spécifier l’ordre de tri (croissant ou décroissant)

–Sélectionner les clients et trier par ordre alphabétique du nom

SELECT nom, prenom, email

FROM clients

ORDER BY nom ASC;

Dans cet exemple, les résultats seront triés par ordre alphabétique croissant du nom du client

Filtrage et Tri peuvent être combiné également, à savoir la combinaison entre la clause WHERE et la clause ORDER BY pour filtrer les résultats en même temps

–Sélectionner les produits de la catégorie ‘Electronique’ et trier par prix décroissant

SELECT nom_produit, prix

FROM produits

WHERE categorie = ‘Electronique’

ORDER BY prix DESC;

Il existe d’autres filtrages et tri avec des opérateurs mais cela devient du SQL qui n’est plus basique mais devient pour un public plus averti.

En comprenant ces concepts de filtrage et de tri, vous serez en mesure d’extraire des données spécifiques de vos bases de données SQL de manière ciblée et organisée.

Les jointures

Les jointures sont essentielles pour combiner des données provenant de plusieurs tables.

Les types courants de jointures incluent INNER JOIN, LEFT JOIN, RIGHT JOIN et FULL JOIN, chacun offrant des méthodes spécifiques pour associer des lignes entre différentes tables.

Exemple de jointure simple :

SELECT client.nom, commandes.date

FROM clients

INNER JOIN commandes ON clients.id_client = commandes.id_client;

Les types de jointures :

INNER JOIN : Renvoie les lignes lorsque la condition de jointure est vraie dans les deux tables.

LEFT JOIN (ou LEFT OUTER JOIN) : Renvoie toutes les lignes de la table de gauche et les lignes correspondantes de la table de droite.

RIGHT JOIN (ou RIGHT OUTER JOIN) : L’inverse du LEFT JOIN.

FULL JOIN (ou FULL OUTER JOIN) : Renvoie toutes les lignes lorsque la condition de jointure est vraie dans l’une des deux tables.

Contraintes pour l’intégrité des données et Index pour optimiser les performances

Les contraintes jouent un rôle crucial dans la garantie de l’intégrité des données. Les clés primaires assurent que chaque enregistrement dans une table est unique, tandis que les clés étrangères établissent des liens entre différentes tables. Les contraintes d’unicité garantissent qu’aucune valeur dupliquée n’est autorisée dans une colonne spécifiée

Les index sont des structures de données qui améliorent les performances des requêtes en accélérant la recherche de données. En créant un index sur une colonne, vous facilitez la recherche, mais il est essentiel de les utiliser judicieusement, car ils peuvent également augmenter la taille de la base de données

Conclusion

Le SQL est un outil puissant et universel pour travailler avec des bases de données relationnelles. Comprendre ses bases permet aux développeurs et aux analystes de données d’interagir de manière efficace avec les systèmes de gestion de bases de données, facilitant ainsi la manipulation et la récupération d’informations cruciales. Que ce soit pour des tâches simples ou des opérations plus complexes, le SQL reste un incontournable dans le domaine de la gestion de données

Il offre une panoplie d’outils pour interagir avec les bases de données relationnelles de manière puissante et flexible. En comprenant ces concepts de base, vous serez mieux équipé pour manipuler efficacement les données, créer des rapports personnalisés et répondre à des questions complexes à partir de vastes ensembles de données. Que vous soyez un développeur, un analyste de données ou un administrateur de base de données, la maîtrise du SQL est un atout inestimable dans le monde de la gestion de données.

Cet article vous a inspiré ?
Artificial Intelligence, Business Intelligence, Clients, Data Governance, Data Marketing, Data visualisation, L'entreprise, Machine Learning, Self-service Analytics, Technology

Maîtriser Vos Données : l’essence et l’impact du catalogue de données décryptés

Dans le monde hyperconnecté d’aujourd’hui, où les données sont considérées comme le nouvel or, savoir les gérer et les exploiter s’avère essentiel pour les entreprises souhaitant prendre des décisions éclairées et rester compétitives. Le concept de « Data catalog », ou catalogue de données, émerge comme une réponse clé à ce défi, offrant une boussole dans l’océan vaste et souvent tumultueux des données.

Cet article vise à éclairer les enjeux et les avantages des data catalog, ces bibliothèques modernes où les metadonnées ne sont pas seulement stockées, mais rendues compréhensibles et accessibles. À travers l’automatisation de la documentation des metadonnées et la mise en place d’une gouvernance des données collaborative, les catalogues de données transforment la manière dont les organisations accèdent, comprennent et utilisent leurs précieuses informations.

En facilitant la découverte et le partage des données fiables, ils permettent aux entreprises de naviguer avec assurance vers une stratégie véritablement pilotée par les données.

Mais encore…

Un Data catalogue est un outil centralisé conçu pour gérer efficacement les données au sein d’une organisation. Selon Gartner, il maintient un inventaire des données actives en facilitant leur découverte, description et organisation.

L’analogie basique serait de dire qu’il s’agit d’un répertoire, une sorte d’annuaire où les lecteurs trouvent les informations dont ils ont besoin sur les livres et où ils se trouvent : titre, auteur, résumé, édition et avis des autres lecteurs.

Le but d’un data catalogue est de rendre la gouvernance des données collaborative, en améliorant l’accessibilité, l’exactitude et la pertinence des données pour l’entreprise. Il soutient la confidentialité des données et la conformité réglementaire grâce à un traçage intelligent du lignage des données et un suivi de la conformité​​.

Voici 5 raisons pour vos équipes data d'utiliser un data catalogue :

Data analysts / Business Analysts

Ils utilisent le data catalogue pour trouver et comprendre les données nécessaires à leurs analyses. Cela leur permet d’avoir accès rapidement aux données pertinentes, d’appréhender leur contexte et de garantir leur qualité et leur fiabilité pour les rapports et les analyses.

 

Data Scientists

Le data catalogue est essentiel pour localiser les datasets nécessaires à leurs modèles de machine learning et d’intelligence artificielle. Il facilite également la compréhension des métadonnées (provenance des données et les transformations qu’elles ont subies) ce qui est capital pour le pré-traitement des données.

 

Data Stewards (gestionnaires de données)

Ce sont eux qui sont responsables de la qualité, de la disponibilité et de la gouvernance des données. Ils utilisent le data catalogue pour documenter les métadonnées, gérer les standards de données, et surveiller la conformité et l’utilisation des données au sein de l’organisation.

 

Responsables de la conformité et de la sécurité

Le data catalogue les aide à assurer que les données sont gérées et utilisées conformément aux réglementations en vigueur, comme le RGPD pour la protection des données personnelles. Ils peuvent l’utiliser pour suivre l’accès aux données sensibles et auditer l’utilisation des données.

 

Architectes et ingénieurs de données

Ces techniciens s’appuient sur le data catalogue pour concevoir et maintenir l’infrastructure de données. Il leur fournit une vue d’ensemble des données disponibles, de leur structure et de leur interrelation, facilitant ainsi l’optimisation de l’architecture de données et l’intégration de nouvelles sources de données.

Attention il est important de noter que les utilisateurs métiers ne sont pas moins en reste de cet outil. En effet bien qu’ils ne soient pas des utilisateurs techniques, ils profitent du data catalogue pour accéder aux informations et insights nécessaires à la prise de décision. Le répertoire leur permet de trouver facilement les données pertinentes sans nécessiter de connaissances techniques approfondies.

Ce qu'il faut retenir

Un data catalogue sert à :

 

  • Améliorer la découverte et l’accès aux données

 

  • Renforcer la gouvernance des données

 

  • Améliorer de la qualité et de la fiabilité des données

 

  • Faciliter la collaboration entre les équipes

 

  • Optimiser l’utilisation des ressources de données

 

Grâce aux Data catalogues, tout comme nous le faisons désormais avec notre propre solution révolutionnaire DUKE, naviguez dans le paysage complexe des données dès aujourd’hui, offrez-vous le luxe d’accéder efficacement, de gérer et d’exploiter les données pour soutenir la prise de décision éclairée et l’innovation en entreprise.

Faites brillez vos équipes Data dès aujourd’hui et plongez sans plus attendre au cœur de notre projet DUKE

Business Intelligence, Clients, Company, CRM, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, Data Warehouse, Machine Learning, Self-service Analytics

DATA: les 7 pièges à éviter. Ep 2/7 – Erreurs techniques : comment sont créées les données?

Après avoir défini quelques concepts primordiaux au regard de la donnée, nous pouvons nous plonger dans les sujets techniques qui peuvent être source d’erreur. Cet article traite des problématiques liées au process permettant d’obtenir les données qui seront par la suite exploitées. Il s’agit de la construction des fondations de nos analyses.

Et il est évident que nous ne souhaitons pas bâtir un château de cartes sur du sable !

Pour rester dans cette métaphore de la construction, si des problèmes de cette nature existent, ceux-ci seront cachés et peu visibles dans l’édifice final. Il est donc nécessaire d’apporter un soin particulier lors des étapes de collecte, de traitement, de nettoyage des données. Ce n’est pas pour rien que l’on estime que 80% du temps passé sur un projet de data science est consommé sur ce type de tâches. 

Afin d’éviter de tomber dans ce piège et de limiter la charge nécessaire à la réalisation de ces opérations qui peuvent être fastidieuses, il faut accepter trois principes fondamentaux :

  • Virtuellement tous les jeux de données ne sont pas propres et doivent être nettoyés et mis en forme
  • Chaque transition (formatage, jointure, liaison, etc.) lors des étapes de préparation est source potentiel d’une nouvelle erreur
  • Il est possible d’apprendre des techniques pour éviter la création des erreurs issues des deux premiers principes.

Accepter ces principes n’enlève pas l’obligation de passer par ce travail préalable à toute analyse mais, bonne nouvelle : savoir identifier ces risques et apprendre au fur et à mesure de nos projets, permet de limiter la portée de ce deuxième obstacle.

1. Le piège des données sales.

Les données sont sales. Je dirais même plus, toutes les données sont sales (voir premier principe énoncé précédemment), problématique de formatage, de saisie, d’unités incohérentes, de valeurs NULL etc.

Quelques exemples de ce piège sont très connus

Nous pouvons citer le crash de la sonde Mars Climate Orbiter de la NASA en 1999, par exemple. Une erreur à 125 millions de dollars qui a été causée par un double système d’unité : unités impériales et unités issues du système métriques. Cela a occasionné un calcul erroné qui a joué sur la puissance envoyée aux propulseurs de la sonde et à la destruction de celle-ci.

Heureusement, toutes les erreurs de cette nature ne vont pas nous coûter autant d’argent ! Mais elles auront malgré tout des impacts significatifs sur les résultats et le ROI des analyses que nous sommes amenés à mener.

Ainsi, chez DATANALYSIS, nous menons actuellement plusieurs projets spécifiquement sur la qualité de données dans le cadre de sujet de DATA Marketing et nous faisons face à deux types de sujet :

  • La validation des données qui visent à essayer d’améliorer la qualité de celle-ci grâce aux traitements des données, en :

-Normalisant les champs (numéro de téléphone, email etc.) : +262 692 00 11 22 / 00262692001122 / 06-92-00-11-22 correspondent à la même ligne et nous pouvons grâce à des traitements adaptés automatiser une grande partie de ce travail ;

– Complétant des champs vides grâce aux autres données présentes dans la table. Nous pouvons par exemple déduire le pays de résidence à partir des indicatifs téléphoniques, des codes postaux, des villes etc.

 

  • La déduplication, en :

-Cherchant à identifier grâce à des règles adaptées des lignes potentiellement identiques. Deux enregistrements ayant le même mail, ou le même numéro de téléphone, ou le même identifiant pour les entreprises ;

-Cherchant grâce à des algorithmes de calcul de distance à définir les valeurs proches en termes d’orthographe, de prononciation, de caractères communs etc.

Au regard de ces quelques exemples et de nos propres expériences, il est possible de constater que ce type d’erreur provient principalement des processus de saisie, de collecte ou de « scrapping » des données qu’ils soient mis en œuvre automatiquement ou par des humains. Ainsi outre les solutions que l’on peut mettre en œuvre dans les traitements de préparations de données, l’amélioration de ces étapes préalables permettra également d’améliorer grandement la qualité des données à traiter, et cela passe par l’éducation, la formation et la définition de règles et de normes clairement connues et partager (la data gouvernance n’est jamais loin).

Enfin, il convient également de se demander au regard de cette étape, quand nous pouvons considérer comme suffisamment propre. En effet, nous pouvons toujours faire plus et mieux, mais souvent les coûts engendrés peuvent dépasser les retours espérés.

2. Le piège des transformations des données

Dans le monde informatique, il existe une image visant à résumer ce type de problématique :

Souvent l’erreur se situe entre l’écran et le siège !

Et oui, même les meilleurs data scientists, data analysts ou data engineers peuvent se tromper dans les étapes de nettoyage, de transformation et de préparation des données.

Fréquemment, nous manipulons plusieurs fichiers issus de différentes sources, de différentes applications, ce qui multiplie les risques liés aux problématiques de données sales et les risques lors de la manipulation des fichiers en eux-mêmes :

  • Niveaux de granularités différents
  • Jointure sur des champs dont les valeurs ne sont pas exactement identiques (ST-DENIS vs SAINT DENIS par exemple)
  • Périmètre couverts différents sur les fichiers.

Et ce problème peut être également rendu plus complexe en fonction des outils utilisés dans le cadre de nos analyses :

  • Dans Tableau par exemple nous pouvons faire des jointures, des relations ou des liaisons de données pour lier plusieurs jeux de données entre eux. Chaque type d’opération a ses propres règles, contraintes.
  • Dans Qlik, il est nécessaire de bien comprendre comment fonctionne le moteur associatif et les règles de modélisation associées qui diffèrent de celles d’un modèle décisionnel traditionnel.

Il s’agit dans ce cas souvent de contraintes techniques liées au métier même de préparation de données et prendre le temps d’appréhender les risques et les processus en place permettra de gagner un temps important sur la mise à disposition d’analyse de données fiables et performantes.

Dans le prochain article, nous allons explorer le 3ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : Les Erreurs Mathématiques

Cet article est inspiré fortement par le livre ” Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, édition WILEY. Nous vous recommandons cette excellente lecture!

 Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Artificial Intelligence, Business Intelligence, Clients, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data visualisation, Machine Learning

DATA : les 7 pièges à éviter. Ep 1/7 – Erreurs Epistémologiques : comment pense-t-on aux données ?

Commençons par définir ce qu’est l’épistémologie.

L’épistémologie (du grec ancien ἐπιστήμη / epistémê « connaissance vraie, science » et λόγος / lógos « discours ») est un domaine de la philosophie qui peut désigner deux champs d’étude : l’étude critique des sciences et de la connaissance scientifique (ou de l’œuvre scientifique).

Autrement dit, il s’agit de la manière dont nous construisons nos connaissances.

Dans le monde de la donnée, il s’agit d’un sujet central et critique. En effet, nous avons été familiarisés avec le processus de transformation de la donnée, en informations, en connaissance et en élément de sagesse :

Ici le problème trouve sa source dans la manière dont nous considérons notre point de départ : les données ! En effet, l’utilisation de celle-ci et sa transformation au cours des étapes suivantes relèvent de procédés et processus conscients et maîtrisés :

==>Je nettoie ma donnée, la traite dans un ETL / ELT, la stocke, la visualise, communique mon résultat et le partage etc. Cette maîtrise nous donne le contrôle sur la qualité des étapes. Toutefois, on aura tendance à se lancer dans ce travail de transformation de notre ressource primaire en omettant un point crucial, source de notre premier obstacle :

LA DONNEE N’EST PAS UNE REPRESENTATION EXACTE DU MONDE REEL !

En effet, il est excessivement simple de travailler avec des données en pensant aux données comme étant la réalité elle-même et pas comme des données collectées à propos de la réalité. Cette nuance est primordiale :

  • Ce n’est pas la criminalité, mais les crimes déclarés
  • Ce n’est pas le diamètre d’une pièce mécanique mais le diamètre mesuré de cette pièce
  • Ce n’est pas le sentiment du public par rapport à un sujet mais le sentiment déclaré des personnes qui ont répondu à un sondage

Entrons dans le détail de cet obstacle avec quelques exemples :

1. Ce que nous ne mesurons pas (ou ce que nous ne mesurions pas)

Regardons ensemble ce dashboard présentant l’ensemble des impacts de météorites sur la Terre entre -2500 et 2012. Pouvez vous identifiez ce qu’il y a d’étranges ici ?

Les météorites semblent avoir évité soigneusement certaines parties de la planète, une large part de l’Amérique du Sud, de l’Afrique, de la Russie, du Groenland etc. Et si l’on se concentre sur le graphique montrant le nombre de météorites par années, que celles-ci ont eu tendance à tomber plutôt dans les 50 dernières années (et presque pas sur l’ensemble de la période couvrant -2055 à 1975).

Est-ce qu’il s’agit bien de la réalité ? Ou plutôt de défauts dans la manière dont les données ont été collectées

  • Nous avons commencé à collecter systématiquement ces informations récemment et nous basons sur l’archéologie pour essayer de déterminer les impacts du passé. L’érosion et le temps faisant leurs œuvres, les traces de la grande majorité des impacts ont ainsi disparu et ceux-ci ne peuvent donc plus être comptabilisés (et non, les météorites n’ont pas commencé à pleuvoir en 1975).
  • Pour qu’un impact de météorite soit intégré dans une base de données, il faut que celui-ci soit enregistré. Et pour cela, il faut une observation, et donc un observateur et que celui-ci sache à qui remonter cette information. Deux biais impactant largement la collecte et permettant d’expliquer les larges zones de Terre qui semblent avoir été épargnées par la chute de météorite.

2. Le système de mesure ne fonctionne pas

Parfois, la cause de cet écart entre la donnée et la réalité peut être expliqué par un défaut du matériel de collecte. Malheureusement, tout ce qui est fabriqué par un être humain en ce bas monde est susceptible d’être défaillant. Cela vaut pour les capteurs et les instruments de mesure évidemment.

Que s’est-il passé les 28 et 29 avril 2014 sur ce pont ? Il semblerait qu’il y ait un énorme pic de traversée du pont de Fremont par des vélos mais uniquement dans un seul sens (courbe bleue).

Source : 7 datapitfalls – Ben Jones

Série temporelle du nombre de vélos traversant le pont de Fremont

On pourrait penser qu’il s’agissait d’une magnifique journée d’été et que tout le monde est passé sur le pont en même temps ? D’une course de vélos n’empruntant celui-ci que dans un sens ? Que tous les pneus de toutes les personnes ayant traversé le pont à l’aller ont crevé avant le retour ?

Plus prosaïquement, il s’avère que le compteur bleu avait un défaut ces jours précis et ne comptait plus correctement les traversées du pont. Un simple changement de batterie et du capteur et le problème a été résolu.

Maintenant, posez vous la question du nombre de fois où vous avez pu être induit en erreur par des données issues d’un capteur ou d’une mesure défaillante sans que cela n’ait été perçu ?

3. Les données sont trop humaines

Et oui, nos propres biais humains ont un effet important sur les valeurs que nous enregistrons lors de la collecte d’informations. Nous avons par exemple tendance à arrondir les résultats des mesures :

Source : 7 datapitfalls – Ben Jones

Si l’on s’en fit à ses données, le changement des couches se fait plus régulièrement toutes les 10 minutes (0, 10, 20, 30, 40, 50) et parfois sur certains quarts d’heure (15, 45). Cela serait assez incroyable n’est-ce pas ?

Il s’agit bien d’un récit incroyable. En effet, il faut se pencher ici sur la manière dont les données ont été collectées. En tant qu’être humain, nous avons cette tendance à arrondir les informations lorsque nous les enregistrons, notamment lorsque nous regardons une montre ou une horloge : pourquoi ne pas indiquer 1:05 lorsqu’il est 1 :04 ? ou encore plus simple 1:00 car c’est plus simple encore ?

On retrouvera ce type de simplification humaine dans toutes les collectes de mesures : poids, tailles, etc.

4. Le Cygne Noir !

Dernier exemple que nous souhaitons mettre en avant ici, et ce que l’on appelle l’effet « Cygne Noir ». Si nous pensons que les données dont nous disposons sont une représentation exacte du monde qui nous entoure et que nous pouvons en sortir des affirmations à graver dans le marbre ; alors nous nous trompons fondamentalement sur ce qu’est une donnée (cf. précédemment).

Le meilleur usage des données est d’apprendre ce qui n’est pas vrai à partir d’une idée préconçue et de nous guider dans les questions que nous devons nous poser pour en apprendre plus ?

Mais revenons à notre cygne noir :

Avant la découverte de l’Australie, toutes les observations de cygne jamais faite pouvaient conforter les européens que tous les cygnes étaient blancs, à tort ! En 1697, l’observation d’un cygne noir a remis intégralement en question cette préconception commune.

Et le lien avec les données ? De la même manière que l’on aura tendance à croire qu’une observation répétée est une vérité générale ; à tort ; on peut être amener à inférer que ce que nous voyons dans les données que nous manipulons peut s’appliquer de manière générale au monde qui nous entoure et à toute époque. C’est une erreur fondamentale dans l’appréciation des données.

5. Comment se prémunir de l’erreur épistémologique ?

Il suffit pour cela d’une légère gymnastique mentale et d’un peu de curiosité :

  • Comprendre clairement comment ont été définies les mesures
  • Comprendre et représenter le processus de collection des données
  • Identifier les limites et erreurs de mesure possibles dans les données utilisées
  • Identifier les changements dans la méthode et les outils de mesure dans le temps
  • Comprendre les motivations des personnes ayant collecté les données

Dans le prochain article, nous allons explorer le 2ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : Les Erreurs Techniques 

Cet article est inspiré fortement par le livre « Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, edition WILEY. Nous vous recommandons cette excellente lecture!

Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-ep-1-7/

Business Intelligence, Change and Project Management, Clients, Data Marketing, Data Mining and Data Integration, Machine Learning, Self-service Analytics, Technology

OFFRE D’EMPLOI-CONSULTANT SÉNIOR BI & DATA VISUALISATION H/F – CDI

En recherche d’un nouveau challenge ?

Votre mission :

Accompagner nos clients dans leurs projets de transformation numérique et d’analyse de données.
Partenaires majeurs des entreprises de l’océan Indien pour leurs projets autour de la données, DATANALYSIS dans le cadre de son expansion recrute un Consultant Sénior BI & Data Visualisation.

Véritable actif stratégique des entreprises, la donnée est aujourd’hui au cœur des enjeux de performance économique et concurrentielle. Nos équipes maîtrisent parfaitement son cycle de vie et les leviers pour que cette donnée devienne une information précieuse. Pour nous aider à aller encore plus loin et pour offrir une expertise additionnelle à nos clients, nous recherchons un profil alliant expertises technologiques et savoir-faire métier pour participer à la réalisation des projets de Business Intelligence de nos clients.

Intégré à une équipe de 8 consultants sénior spécialisés en BI Self-Service, en Data visualisation, Machine Learning et IA, votre poste vous amènera à :
• Participer au cadrage des besoins des entreprises,
• Être force de proposition quant à la réalisation de solutions décisionnelles, en mode Agile,
• Proposez des analyses visuelles claires et génératrices de valeur pour leurs utilisateurs,
• Exploiter vos compétences techniques dans le traitement et la valorisation des données.

Vous aimez relever les nouveaux défis et vous savez faire preuve d’engagement pour réussir et évoluez aisément dans un environnement dynamique.

Vous vous intéressez naturellement à vos clients pour savoir dans quelle mesure vous pouvez les aider à résoudre leurs problèmes.

Vous possédez un bon esprit d’analyse et de synthèse, un excellent relationnel.

Skills incontournables :
  • Dataviz (Tableau ou Power BI ou Qlik)
  • Base de données
  • ETL (Talend, SSIS, etc)

 

VOUS PROFITEREZ PLEINEMENT DE CE POSTE SI…

• Vous disposez d’une forte appétence pour les nouvelles technologies.
• Vous avez des compétences avancées dans l’une ou plusieurs des technologies suivantes :
o 3-5 ans d’expérience minimum sont attendus en développement sur Qlikview/Qliksense
o Des compétences Tableau Software sont un vrai plus
• Vous faites également preuve également de capacités de gestion de projet, de recueil de besoin,
La curiosité, l’intérêt pour le monde de la donnée, de la data visualisation et de l’IA sont des vraies plus.

Enfin, et surtout, vous êtes chaleureux, souriant, dynamique et vous avez un bon esprit d’équipe. Vous aimez rendre service en apportant du soin à la qualité de votre travail.

 

OÙ TRAVAILLEREZ-VOUS ?

Le poste est basé à la Saline, commune de Saint Paul, la Réunion. Des déplacements sur toute l’île, et potentiellement sur l’île Maurice et Madagascar sont à prévoir.

 

POURQUOI REJOINDRE DATANALYSIS ?

We are data people and we rock, like you !

Business Intelligence, Clients, Company, L'entreprise

A la conquête de Madagascar…

DATANALYSIS et S@phir Conseils signent un partenariat pour accompagner les entreprises Malgaches dans le déploiement de plateformes d’analyses de données en self-service grâce à une gamme complète de services, de conseil et de solutions.

Pour la rentrée 2021, DATANALYSIS se lance un nouveau challenge ! La société étant déjà présente sur les belles îles de la Réunion et Maurice (sous la marque Business Lab Consulting), nous avions envie d’élargir notre scope d’activités et de continuer à explorer les données à travers l’Océan Indien.

Pourquoi Madagascar ?

La grande île est en pleine essor et malgré l’instabilité qu’on lui connaît, elle se développe grâce à de nombreux secteurs industriels à forte valeur ajoutée comme l’agro-industrie, le textile, les nouvelles technologies, le tourisme ou encore l’artisanat. 

Stéphane MASSON et son équipe ne ratent jamais une occasion de faire connaître leur méthodologie et leur expertise leur permettant d’aider efficacement une nouvelle clientèle.

Et pour pouvoir avancer de façon construite et réfléchie, rien de mieux qu’avoir un partenaire local !

Représentée par Monsieur Jacques RAKOTOARIVELO, S@PHIR, entreprise de conseils en informatique, a choisi de mener cette aventure à nos côtés et nous en sommes reconnaissants.

Munis de nos meilleurs outils, nous sommes donc prêts à relever le défi, jongler avec de nouvelles données et par-dessus tout : aider et accompagner le marché malgache à prendre les meilleures décisions qu’il soit. #wearedatapeople

Business Intelligence, Clients, Data Governance, Data Marketing, Data Mining and Data Integration, L'entreprise, Machine Learning, Self-service Analytics

Période incertaine : comment engager ses clients grâce aux données ? // S2E3

La façon dont vous engagez les clients commence par l’écoute. Il est fort probable qu’après une période aussi complexe que la pandémie mondiale, leurs attentes, leurs envies et leurs besoins aient évolué drastiquement. Investissez dans la compréhension des nouvelles réalités de vos clients, cela sera à coût sûr un investissement payant alors que l’on n’a jamais été aussi proches d’une réouverture plus complète de l’économie.

Et comment mieux les écouter que de développer des plateformes analytiques mettant à disposition de tous les opérateurs des données fiables et disponibles simplement (et évidemment dans le respect de la RGPD) ?

Avant la COVID-19, l’un des objectifs majeurs pour les organisations était de devenir « Customer-Centric » (organisé autour des besoins, des enjeux, des attentes et des contraintes du client). Cet objectif est devenu d’autant plus critique. Il est nécessaire de penser son entreprise en repensant les processus, et donc les flux de données et les outils d’analyses associées autour de vos clients, et non en silos ou en département.

La clé sera de personnaliser vos expériences et communication et d’associer pleinement les différents départements et services à cet effort de changement. Pour ce faire, nous vous donnons quelques éléments clés autour de deux axes sur lesquels orienter votre réflexion :

1. Comprenez parfaitement les besoins changeants des clients

L’objectif principal ici est de savoir si vous disposez de toutes les informations qui vous permettent de comprendre vos clients. Avez-vous accès aux données externes à votre entreprise ? Savez-vous les récupérer ? Savez-vous les croiser avec les données dont vous disposez déjà ? Un investissement dans de nouvelles sources d’informations pour votre organisation sera probablement nécessaire pour atteindre vos clients et tâter leur pouls sur toutes les plateformes où ils peuvent discuter de vos produits.

Une fois que les données sont obtenues, traitées, intégrées et exploitables (de manière éthique et respectueuse de la vie privée) avec celles issues de vos outils traditionnels, il est important de pouvoir les utiliser simplement grâce à votre plateforme self-service d’analyse. Votre objectif sera d’identifier et comprendre les nouveaux besoins de vos clients : est-ce que vos segmentations ont bougé ? Est-ce que les comportements d’achats ont évolué (fréquence, montant, panier, remise, produits etc.) ? Comment est-ce que j’adapte mes opérations pour répondre à mon nouvel environnement ?

Cela vous donnera les moyens d’offrir une expérience optimale et personnalisée à vos clients et reconstruire un nouveau lien avec eux :
  • Capturez les besoins des clients grâce à l’acquisition de données extérieures à votre organisation (réseau Sociaux, sites de notations etc.). Intégrez ces nouvelles données à vos analyses marketing pour déterminer les nouvelles attentes de vos clients
  • Faites évoluer la stratégie de données en fonction des nouvelles exigences en matière de données pour garantir une expérience client optimale
  • Mettre en place un conseil consultatif sur l’utilisation éthique et des lignes directrices pour régir la santé et l’utilisation d’autres données sensibles
  • Adapter les propositions de valeur et les offres pour répondre à la demande du marché à court terme
  • Etablissez à nouveau la confiance grâce à des expériences personnalisées

2. Exploitez tout le potentiel de votre entreprise

Vous avez à disposition toutes les données vous permettant de comprendre les nouvelles attentes de vos clients, c’est très bien ! Mais il ne faut pas oublier d’organiser vos méthodes de travail et vos outils pour arriver à exploiter parfaitement ce nouveau gisement d’information.

Nous l’avons vu dans la série précédente sur la Data Governance, la clé pour qu’une solution d’analyse de données soit réellement efficiente, vous offre un véritable retour sur investissement, et permette à votre organisation d’exploiter son plein potentiel est de prévoir une organisation adaptée :

  1. Adéquation de votre stratégie DATA et votre stratégie d’entreprise
  2. Rôles et processus de tous les acteurs interagissant avec les données
  3. Environnement de Data Governance : DATA Catalogue, DATA Lineage, Compliance
  4. Solution analytique : Traitement des données, stockage, analyse visuelle, Machine Learning et IA
  5. Formation et établissement d’une DATA Communauté
Investir dans la mise en œuvre d’une vraie politique de Data Governance est la seule solution pour réellement engager ses clients dans le long terme. En clair et spécifiquement à cet enjeu :
  • Redéfinissez les processus métier pour qu’ils soient centrés sur le client
  • Créez une source unique de vérité client pour mettre toutes les équipes sur la même page en agrégeant plusieurs sources de données
  • Auditez systématiquement les moments clients en fonction du « travail à faire » pour identifier les points faibles et les opportunités de différenciation
  • Développer des processus et des composants réutilisables (ensembles de données, API) pour accélérer le développement d’applications grâce à une réutilisation maximale
  • Tirez parti des données de cas de service pour identifier les améliorations et les investissements les plus prioritaires

Comme souvent, on en revient toujours à une conclusion similaire. La clé pour pouvoir exploiter parfaitement les données et engager ses clients est à la fois dans l’établissement des capacités (construire la plateforme analytique et l’alimenter en données) et dans le développement des méthodes de travail (stratégie, rôles, processus, et formation) qui permettront de les exploiter et prendre les bonnes décisions.

Se concentrer sur un des aspects du problème et oublier le second est le meilleur moyen de ne pas être dans les « starting blocks » pour la réouverture prochaine et laisser ces concurrents prendre une avance non négligeable !

« Quand trop de DATA tue la DATA ? Quels sont les écueils à éviter ? ».

Rendez-vous dans notre prochain épisode !

Cet article vous a inspiré ?