Data Warehouse – Datanalysis – Mettons vos données en action

Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, Data Warehouse, L'entreprise, Machine Learning, Self-service Analytics, Technology

10 juin 20240

Bien démarrer avec la Business Intelligence: conseils pratiques

« La sagesse consiste à extraire de l’or des données brutes ; avec une Business Intelligence bien affûtée, chaque information devient une pépite. »

Cet adage résumé parfaitement le potentiel de la BI en prenant soin de suivre quelques conseils pratiques. Les mines d’or d’informations existantes permettent aux entreprises d’en faire des pépites d’or façonnées à leur image.

Définition

La Business Intelligence (BI) est un ensemble de processus, technologies et outils utilisés pour collecter, analyser, interpréter et présenter des données afin de fournir des informations exploitables aux décideurs et aux parties prenantes d’une organisation. L’objectif principal de la BI est d’aider les entreprises à prendre des décisions stratégiques en se basant sur des données fiables et pertinentes.

La BI est largement utilisée dans de nombreux domaines de l’entreprise, tels que la gestion des finances, la gestion des ressources humaines, le marketing, les ventes, la logistique et la chaîne d’approvisionnement, entre autres. En résumé, la Business Intelligence vise à transformer les données en connaissances exploitables pour améliorer les performances globales d’une organisation.

Avant de voir les conseils pratiques, examinons les éléments qui définissent ce qu’est la BI. Pour mettre en pratique la BI au sein de son entreprise, il existe 5 principales étapes qu’il faut suivre pour mener à bien une BI pertinente et efficace.

Collecte de données	Les données sont collectées à partir de diverses sources internes et externes à l’entreprise, telles que les bases de données transactionnelles, les applications métier, les médias sociaux, les sondages clients, etc.
Nettoyage et transformation des données	Les données collectées sont nettoyées, normalisées et transformées en un format compatible pour l’analyse. Cela implique souvent l’élimination des doublons, la correction des erreurs et la normalisation des formats de données.
Analyse des données	Les données sont analysées à l’aide de diverses techniques telles que l’analyse statistique, l’exploration de données, les modèles prédictifs et les algorithmes d’apprentissage automatique pour identifier des tendances, des modèles et des insights.
Visualisation des données	Les résultats de l’analyse sont généralement présentés sous forme de tableaux de bord, de rapports, de graphiques et d’autres visualisations interactives pour faciliter la compréhension et la prise de décision.
Diffusion des informations	Les informations obtenues sont partagées avec les décideurs et les parties prenantes à travers l’organisation, leur permettant ainsi de prendre des décisions éclairées basées sur des données fiables.

CONSEILS PRATIQUES

Maintenant que nous savons globalement ce qu’est la BI dans sa définition, n’oublions pas que démarrer avec la Business Intelligence (BI) peut être un défi, mais avec une approche stratégique et des conseils pratiques, vous pouvez mettre en place une infrastructure efficace pour votre entreprise.

Voici quelques conseils pratiques pour bien initier une Business Intelligence pertinente et efficace.

Clarifiez vos objectifs

Avant de commencer à mettre en œuvre la BI, identifiez clairement les objectifs commerciaux que vous souhaitez atteindre. Que ce soit pour améliorer la prise de décision, optimiser les processus métier ou mieux comprendre vos clients, des objectifs clairs vous aideront à orienter vos efforts.

Commencez par les bases

Ne cherchez pas à tout faire d’un coup. Commencez par des projets pilotes ou des initiatives spécifiques pour vous familiariser avec les concepts et les outils de la BI. Cela vous permettra également de mesurer rapidement les résultats et de vous ajuster en conséquence.

Identifiez vos sources de données

Identifiez les sources de données internes et externes à votre organisation. Cela peut inclure des bases de données transactionnelles, des feuilles de calcul, des systèmes CRM, des outils de marketing en ligne, etc. Assurez-vous que les données que vous collectez sont fiables, complètes et pertinentes pour vos objectifs.

Nettoyez et préparez vos données

La qualité des données est essentielle pour une BI efficace. Mettez en place des processus pour nettoyer, normaliser et préparer vos données avant de les analyser. Cela implique souvent d’éliminer les doublons, de corriger les erreurs et de normaliser les formats de données.

Choisissez les bons outils

Il existe de nombreuses solutions de BI sur le marché, alors faites des recherches pour trouver celles qui correspondent le mieux à vos besoins. Considérez des facteurs tels que la facilité d’utilisation, la capacité à gérer de grands ensembles de données, l’intégration avec vos systèmes existants et le coût.

Formez votre équipe

Assurez-vous que votre équipe est formée à l’utilisation des outils de BI et à l’interprétation des données. La BI est un outil puissant, mais son efficacité dépend de la capacité de votre équipe à l’utiliser correctement.

Communiquez et collaborez

Impliquez les parties prenantes dès le début du processus de mise en œuvre de la BI. Leur soutien et leurs commentaires seront essentiels pour garantir le succès à long terme de votre initiative BI.

Commencer petit et évoluer

Ne cherchez pas à mettre en œuvre toutes les fonctionnalités de BI en même temps. Commencez par des projets pilotes ou des initiatives spécifiques, puis étendez progressivement votre utilisation de la BI en fonction des résultats obtenus.

Impliquer les parties prenantes

Mesurez et ajustez

Suivez les performances de votre BI et mesurez son impact sur votre entreprise. Utilisez ces informations pour identifier les domaines d’amélioration et apporter des ajustements à votre stratégie de BI au fil du temps.

En suivant ces conseils pratiques initiaux, vous pouvez bien démarrer avec la Business Intelligence et commencer à tirer parti de vos données pour prendre des décisions éclairées et stimuler la croissance de votre entreprise

CONCLUSION

Un projet de Business Intelligence (BI) est considéré comme réussi lorsqu’il parvient à fournir de la valeur ajoutée à l’entreprise en répondant à ses objectifs commerciaux de manière efficace et efficiente. Voici quelques indicateurs clés qui peuvent définir un projet de BI réussi :

Alignement avec les objectifs commerciaux : le projet de BI doit être aligné sur les objectifs stratégiques de l’entreprise. Il doit contribuer à améliorer la prise de décision, à optimiser les processus métier, à accroître la rentabilité ou à renforcer la compétitivité de l’entreprise.

Utilisation efficace des données : un projet de BI réussi utilise efficacement les données pour fournir des informations exploitables. Cela implique de collecter, nettoyer, analyser et présenter les données de manière appropriée pour répondre aux besoins de l’entreprise.

Adoption par les utilisateurs : les utilisateurs finaux doivent adopter les outils de BI et les utiliser de manière régulière pour prendre des décisions. Un projet de BI réussi est celui qui répond aux besoins des utilisateurs et qui est facile à utiliser et à comprendre.

Amélioration des performances : un projet de BI réussi se traduit par une amélioration des performances de l’entreprise. Cela peut se manifester par une augmentation des ventes, une réduction des coûts, une amélioration de la productivité ou toute autre mesure de la performance pertinente pour l’entreprise.

Retour sur investissement (ROI) positif : un projet de BI réussi génère un retour sur investissement positif pour l’entreprise. Cela signifie que les avantages obtenus grâce à l’utilisation de la BI dépassent les coûts de mise en œuvre et de maintenance du projet.

Évolutivité et flexibilité : un projet de BI réussi est capable de s’adapter aux besoins changeants de l’entreprise et d’évoluer avec elle. Il doit être suffisamment flexible pour prendre en charge de nouveaux besoins, de nouveaux types de données ou de nouveaux scénarios d’utilisation.

Soutien et engagement de la direction : un projet de BI réussi bénéficie du soutien et de l’engagement de la direction de l’entreprise. La direction doit reconnaître la valeur de la BI et fournir les ressources nécessaires pour soutenir le projet tout au long de son cycle de vie.

En résumé, un projet de BI réussi est celui qui contribue à atteindre les objectifs commerciaux de l’entreprise en utilisant efficacement les données pour prendre des décisions éclairées. Il est caractérisé par son alignement avec les objectifs de l’entreprise, son adoption par les utilisateurs, son impact positif sur les performances de l’entreprise et son retour sur investissement positif.

Cet article vous a inspiré ?

Discutons-en !

Business Intelligence, Company, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data Regulations, Data visualisation, Data Warehouse, Machine Learning, Technology

14 mars 20240

SQL basique: quézako ?

Pendant très longtemps réservé aux personnes averties et techniques du service informatique, le SQL n’était pas à la portée de n’importe quelle entité ou service d’une société. Rôle exclusivement réservé au service IT de l’entreprise auparavant. Désormais, la vulgarisation de « l’informatique » a permis à de nombreux services d’accéder aux données de leur entreprises via le SQL pour interroger leurs bases de données tels que les départements marketing, la comptabilité, le contrôle de gestion, les ressources humaines et bien d’autres encore !

Vous êtes une entreprise spécialiste du commerce électronique, de la santé, du retail ou tout simplement une PME / PMI? Vous avez un ensemble de données stockées dans une base de données?

Il est indispensable de connaître les éléments basiques du langage de requêtes structurées (SQL) pour vous permettre d’avoir rapidement des réponses à vos interrogations.

DEFINITION

Le SQL, ou Structured Query Language (Langage de Requête Structurée), est un langage de programmation spécialement conçu pour la gestion et la manipulation de bases de données relationnelles.

Il offre une interface standardisée permettant aux utilisateurs de communiquer avec les bases de données, d’effectuer des opérations telles que l’insertion, la mise à jour, la suppression et la récupération de données de manière efficace.

LES BASES DU SQL

Rappelons que le SQL n’est rien d’autre qu’un moyen de lire le contenu d’une base de données relationnelle pour remonter les informations dont un utilisateur a besoin pour répondre à un besoin.

STRUCTURATION DES DONNEES

Le SQL se base sur le modèle relationnel, qui organise les données sous forme de tables. Chaque table est composée de colonnes (champs) représentant des attributs spécifiques, et de lignes contenant les enregistrements

La structure des tables :

Dans le monde du SQL, la structure des tables est cruciale. Chaque table est définie par des colonnes, où chaque colonne représente un attribut particulier des données que vous stockez. Par exemple, une table « employés » pourrait avoir des colonnes telles que « nom« , « prénom« , « âge« , etc. Ces tables sont reliées par des clés, qui peuvent être des identifiants uniques pour chaque enregistrement, facilitant ainsi les relations entre différentes tables.

Les principales opérations (ou commandes / requêtes SQL basiques)

SELECT : Utilisé pour extraire des données d’une ou plusieurs tables. La clause SELECT permet de spécifier les colonnes à récupérer, les conditions de filtrage et l’ordre de tri. Cette clause est l’une des plus fondamentale du SQL. La clause WHERE, souvent utilisée avec SELECT, permet de filtrer les résultats en fonction de conditions spécifiques. Par exemple, vous pourriez vouloir récupérer uniquement les employés dont l’âge est supérieur à 30 ans, ou comme dans l’exemple ci-dessous uniquement les employés du service des ventes.

SELECT nom, prenom FROM employes WHERE service = ‘Ventes‘;

INSERT : Permet d’ajouter de nouvelles lignes dans une table

INSERT INTO clients (nom, prenom, email) VALUES (‘Doe’, ‘John’, ‘john.doe@email.com‘);

UPDATE : Permet d’ajouter de nouvelles lignes dans une table

UPDATE produits SET prix = prix * 1.1 WHERE categorie = ‘Electronique‘;

DELETE : Permet de supprimer des lignes d’une table en fonction de certaines conditions

DELETE FROM commandes WHERE date_commande < ‘2023-01-01‘;

Filtrage et tri

Pour filtrer les résultats, le SQL utilise la clause WHERE, permettant de spécifier des conditions pour sélectionner les données. De plus, la clause ORDER BY permet de trier les résultats selon une ou plusieurs colonnes.

Le filtrage et le tri sont des opérations essentielles dans le langage SQL, permettant de récupérer des données spécifiques et de les organiser de manière significative. Explorons ces concepts avec des exemples pratiques

Filtrage avec la Clause WHERE

La clause WHERE est utilisée pour filtrer les résultats d’une requête en spécifiant des conditions. Cela permet de sélectionner uniquement les données qui répondent à ces critères.

–Sélectionner les employés avant un salaire supérieur à 50000

SELECT nom, prenom, salaire

FROM employes

WHERE salaire > 50000;

Dans cet exemple, seuls les employés dont le salaire est supérieur à 50000 seront inclus dans les résultats.

Filtrage avec la Clause ORDER BY

La clause ORDER BY permet de trier les résultats d’une requête en fonction d’une ou plusieurs colonnes. Vous pouvez spécifier l’ordre de tri (croissant ou décroissant)

–Sélectionner les clients et trier par ordre alphabétique du nom

SELECT nom, prenom, email

FROM clients

ORDER BY nom ASC;

Dans cet exemple, les résultats seront triés par ordre alphabétique croissant du nom du client

Filtrage et Tri peuvent être combiné également, à savoir la combinaison entre la clause WHERE et la clause ORDER BY pour filtrer les résultats en même temps

–Sélectionner les produits de la catégorie ‘Electronique’ et trier par prix décroissant

SELECT nom_produit, prix

FROM produits

WHERE categorie = ‘Electronique’

ORDER BY prix DESC;

Il existe d’autres filtrages et tri avec des opérateurs mais cela devient du SQL qui n’est plus basique mais devient pour un public plus averti.

En comprenant ces concepts de filtrage et de tri, vous serez en mesure d’extraire des données spécifiques de vos bases de données SQL de manière ciblée et organisée.

Les jointures

Les jointures sont essentielles pour combiner des données provenant de plusieurs tables.

Les types courants de jointures incluent INNER JOIN, LEFT JOIN, RIGHT JOIN et FULL JOIN, chacun offrant des méthodes spécifiques pour associer des lignes entre différentes tables.

Exemple de jointure simple :

SELECT client.nom, commandes.date

FROM clients

INNER JOIN commandes ON clients.id_client = commandes.id_client;

Les types de jointures :

INNER JOIN : Renvoie les lignes lorsque la condition de jointure est vraie dans les deux tables.

LEFT JOIN (ou LEFT OUTER JOIN) : Renvoie toutes les lignes de la table de gauche et les lignes correspondantes de la table de droite.

RIGHT JOIN (ou RIGHT OUTER JOIN) : L’inverse du LEFT JOIN.

FULL JOIN (ou FULL OUTER JOIN) : Renvoie toutes les lignes lorsque la condition de jointure est vraie dans l’une des deux tables.

Contraintes pour l’intégrité des données et Index pour optimiser les performances

Les contraintes jouent un rôle crucial dans la garantie de l’intégrité des données. Les clés primaires assurent que chaque enregistrement dans une table est unique, tandis que les clés étrangères établissent des liens entre différentes tables. Les contraintes d’unicité garantissent qu’aucune valeur dupliquée n’est autorisée dans une colonne spécifiée

Les index sont des structures de données qui améliorent les performances des requêtes en accélérant la recherche de données. En créant un index sur une colonne, vous facilitez la recherche, mais il est essentiel de les utiliser judicieusement, car ils peuvent également augmenter la taille de la base de données

Conclusion

Le SQL est un outil puissant et universel pour travailler avec des bases de données relationnelles. Comprendre ses bases permet aux développeurs et aux analystes de données d’interagir de manière efficace avec les systèmes de gestion de bases de données, facilitant ainsi la manipulation et la récupération d’informations cruciales. Que ce soit pour des tâches simples ou des opérations plus complexes, le SQL reste un incontournable dans le domaine de la gestion de données

Il offre une panoplie d’outils pour interagir avec les bases de données relationnelles de manière puissante et flexible. En comprenant ces concepts de base, vous serez mieux équipé pour manipuler efficacement les données, créer des rapports personnalisés et répondre à des questions complexes à partir de vastes ensembles de données. Que vous soyez un développeur, un analyste de données ou un administrateur de base de données, la maîtrise du SQL est un atout inestimable dans le monde de la gestion de données.

Cet article vous a inspiré ?

Discutons-en !

06 mars 20240

Entrepôts de Données vs Lacs de Données : plongée comparative dans le monde de la Technologie

Dans le monde de la technologie, en constante évolution, deux termes font des vagues :

les Entrepôts de Données (Data Warehouses) et les Lacs de Données (Data Lakes).

Tous deux sont des outils puissants pour le stockage et l’analyse des données, mais ils servent à des fins différentes et possèdent des forces et faiblesses uniques. Plongeons dans le monde des données pour explorer ces deux géants technologiques.

Les Entrepôts de Données existent depuis un certain temps, offrant un moyen structuré et organisé de stocker des données. Ils sont comme une bibliothèque bien organisée, où chaque livre (donnée) a sa place. Les avancées récentes les ont rendus encore plus efficaces. Par exemple, la convergence des lacs de données et des entrepôts de données a mené à une approche plus unifiée du stockage et de l’analyse des données. Cela signifie moins de mouvements de données et plus d’efficacité – un double avantage !

De plus, l’intégration de modèles d’apprentissage automatique et de capacités d’IA a automatisé l’analyse des données, fournissant des insights plus avancés. Imaginez avoir un bibliothécaire personnel qui non seulement sait où chaque livre se trouve mais peut aussi prédire quel livre vous aurez besoin ensuite !

Cependant, chaque rose a ses épines. Les entrepôts de données peuvent être complexes et coûteux à mettre en place et à maintenir. Ils peuvent également avoir du mal avec les données non structurées ou le traitement des données en temps réel.

Mais ils brillent lorsqu’il est nécessaire d’avoir des données structurées, historiques pour le reporting et l’analyse, ou lorsque les données de différentes sources doivent être intégrées et cohérentes.

D’autre part, les lacs de données sont comme un vaste océan de données brutes, non structurées. Ils sont flexibles et évolutifs, grâce au développement du Data Mesh. Cela permet une approche plus distribuée du stockage et de l’analyse des données. De plus, l’utilisation croissante de l’apprentissage automatique et de l’IA peut automatiser l’analyse des données, fournissant des insights plus avancés.

Cependant, sans une gestion adéquate, les lacs de données peuvent devenir des « marécages de données », avec des données devenant désorganisées et difficiles à trouver et à utiliser.

L’ingestion et l’intégration des données peuvent également être longues et complexes. Mais ils sont le choix par excellence lorsqu’il est nécessaire de stocker de grands volumes de données brutes, non structurées, ou lorsque le traitement des données en temps réel ou quasi temps réel est requis.

En profondeur

ENTREPOTS DE DONNEES

Les avancées

Convergence des lacs de données et des entrepôts de données : Cela permet une approche plus unifiée du stockage et de l’analyse des données, réduisant le besoin de mouvements de données et augmentant l’efficacité.
Streaming plus facile des données en temps réel : Cela permet des insights plus opportuns et une prise de décision plus rapide.
Intégration de modèles d’apprentissage automatique et de capacités d’IA : Cela peut automatiser l’analyse des données et fournir des insights plus avancés.
Identification et résolution plus rapides des problèmes de données : Cela améliore la qualité et la fiabilité des données.

Les limites

Les entrepôts de données peuvent être complexes et coûteux à mettre en place et à maintenir.
Ils peuvent ne pas convenir aux données non structurées ou au traitement des données en temps réel.

Meilleurs scénarios pour l’implémentation :

Lorsqu’il est nécessaire d’avoir des données structurées, historiques pour le reporting et l’analyse.
Lorsque les données de différentes sources doivent être intégrées et cohérentes.

LACS DE DONNEES

Les avancées

Développement du Data Mesh : Cela permet une approche plus distribuée du stockage et de l’analyse des données, augmentant la scalabilité et la flexibilité.
Utilisation croissante de l’apprentissage automatique et de l’IA : Cela peut automatiser l’analyse des données et fournir des insights plus avancés.
Outils favorisant une approche structurée de développement-test-publication pour l’ingénierie des données : Cela peut améliorer la qualité et la fiabilité des données.

Les limites

Les lacs de données peuvent devenir des « marécages de données » s’ils ne sont pas correctement gérés, avec des données devenant désorganisées et difficiles à trouver et à utiliser.
L’ingestion et l’intégration des données peuvent être longues et complexes.

Meilleurs scénarios pour l’implémentation :

Lorsqu’il est nécessaire de stocker de grands volumes de données brutes, non structurées.
Lorsque le traitement des données en temps réel ou quasi temps réel est requis.

En conclusion, les entrepôts de données et les lacs de données ont tous deux leurs avantages et limites. Le choix entre eux dépend des besoins spécifiques et des circonstances de l’organisation.

C’est comme choisir entre une bibliothèque et un océan – les deux ont leur charme, mais le choix dépend de ce que vous recherchez. Ainsi, que vous soyez un passionné de technologie ou un leader d’entreprise, comprendre ces deux outils peut vous aider à prendre des décisions éclairées dans le monde de la technologie.

Après tout, dans le monde des données, la connaissance, c’est le pouvoir !

Cet article vous a inspiré ?

Discutons-en !

Business Intelligence, Company, CRM, Data Governance, Data Marketing, Data Mining and Data Integration, Data Quality Management, Data visualisation, Data Warehouse, Machine Learning, Self-service Analytics

21 juin 20220

DATA: les 7 pièges à éviter. Ep 2/7 – Erreurs techniques : comment sont créées les données?

Après avoir défini quelques concepts primordiaux au regard de la donnée, nous pouvons nous plonger dans les sujets techniques qui peuvent être source d’erreur. Cet article traite des problématiques liées au process permettant d’obtenir les données qui seront par la suite exploitées. Il s’agit de la construction des fondations de nos analyses.

Et il est évident que nous ne souhaitons pas bâtir un château de cartes sur du sable !

Pour rester dans cette métaphore de la construction, si des problèmes de cette nature existent, ceux-ci seront cachés et peu visibles dans l’édifice final. Il est donc nécessaire d’apporter un soin particulier lors des étapes de collecte, de traitement, de nettoyage des données. Ce n’est pas pour rien que l’on estime que 80% du temps passé sur un projet de data science est consommé sur ce type de tâches.

Afin d’éviter de tomber dans ce piège et de limiter la charge nécessaire à la réalisation de ces opérations qui peuvent être fastidieuses, il faut accepter trois principes fondamentaux :

Virtuellement tous les jeux de données ne sont pas propres et doivent être nettoyés et mis en forme
Chaque transition (formatage, jointure, liaison, etc.) lors des étapes de préparation est source potentiel d’une nouvelle erreur
Il est possible d’apprendre des techniques pour éviter la création des erreurs issues des deux premiers principes.

Accepter ces principes n’enlève pas l’obligation de passer par ce travail préalable à toute analyse mais, bonne nouvelle : savoir identifier ces risques et apprendre au fur et à mesure de nos projets, permet de limiter la portée de ce deuxième obstacle.

1. Le piège des données sales.

Les données sont sales. Je dirais même plus, toutes les données sont sales (voir premier principe énoncé précédemment), problématique de formatage, de saisie, d’unités incohérentes, de valeurs NULL etc.

Quelques exemples de ce piège sont très connus

Nous pouvons citer le crash de la sonde Mars Climate Orbiter de la NASA en 1999, par exemple. Une erreur à 125 millions de dollars qui a été causée par un double système d’unité : unités impériales et unités issues du système métriques. Cela a occasionné un calcul erroné qui a joué sur la puissance envoyée aux propulseurs de la sonde et à la destruction de celle-ci.

Heureusement, toutes les erreurs de cette nature ne vont pas nous coûter autant d’argent ! Mais elles auront malgré tout des impacts significatifs sur les résultats et le ROI des analyses que nous sommes amenés à mener.

Ainsi, chez DATANALYSIS, nous menons actuellement plusieurs projets spécifiquement sur la qualité de données dans le cadre de sujet de DATA Marketing et nous faisons face à deux types de sujet :

La validation des données qui visent à essayer d’améliorer la qualité de celle-ci grâce aux traitements des données, en :

-Normalisant les champs (numéro de téléphone, email etc.) : +262 692 00 11 22 / 00262692001122 / 06-92-00-11-22 correspondent à la même ligne et nous pouvons grâce à des traitements adaptés automatiser une grande partie de ce travail ;

– Complétant des champs vides grâce aux autres données présentes dans la table. Nous pouvons par exemple déduire le pays de résidence à partir des indicatifs téléphoniques, des codes postaux, des villes etc.

La déduplication, en :

-Cherchant à identifier grâce à des règles adaptées des lignes potentiellement identiques. Deux enregistrements ayant le même mail, ou le même numéro de téléphone, ou le même identifiant pour les entreprises ;

-Cherchant grâce à des algorithmes de calcul de distance à définir les valeurs proches en termes d’orthographe, de prononciation, de caractères communs etc.

Au regard de ces quelques exemples et de nos propres expériences, il est possible de constater que ce type d’erreur provient principalement des processus de saisie, de collecte ou de « scrapping » des données qu’ils soient mis en œuvre automatiquement ou par des humains. Ainsi outre les solutions que l’on peut mettre en œuvre dans les traitements de préparations de données, l’amélioration de ces étapes préalables permettra également d’améliorer grandement la qualité des données à traiter, et cela passe par l’éducation, la formation et la définition de règles et de normes clairement connues et partager (la data gouvernance n’est jamais loin).

Enfin, il convient également de se demander au regard de cette étape, quand nous pouvons considérer comme suffisamment propre. En effet, nous pouvons toujours faire plus et mieux, mais souvent les coûts engendrés peuvent dépasser les retours espérés.

2. Le piège des transformations des données

Dans le monde informatique, il existe une image visant à résumer ce type de problématique :

Souvent l’erreur se situe entre l’écran et le siège !

Et oui, même les meilleurs data scientists, data analysts ou data engineers peuvent se tromper dans les étapes de nettoyage, de transformation et de préparation des données.

Fréquemment, nous manipulons plusieurs fichiers issus de différentes sources, de différentes applications, ce qui multiplie les risques liés aux problématiques de données sales et les risques lors de la manipulation des fichiers en eux-mêmes :

Niveaux de granularités différents
Jointure sur des champs dont les valeurs ne sont pas exactement identiques (ST-DENIS vs SAINT DENIS par exemple)
Périmètre couverts différents sur les fichiers.

Et ce problème peut être également rendu plus complexe en fonction des outils utilisés dans le cadre de nos analyses :

Dans Tableau par exemple nous pouvons faire des jointures, des relations ou des liaisons de données pour lier plusieurs jeux de données entre eux. Chaque type d’opération a ses propres règles, contraintes.
Dans Qlik, il est nécessaire de bien comprendre comment fonctionne le moteur associatif et les règles de modélisation associées qui diffèrent de celles d’un modèle décisionnel traditionnel.

Il s’agit dans ce cas souvent de contraintes techniques liées au métier même de préparation de données et prendre le temps d’appréhender les risques et les processus en place permettra de gagner un temps important sur la mise à disposition d’analyse de données fiables et performantes.

Dans le prochain article, nous allons explorer le 3ème type d’obstacle que nous pouvons rencontrer lorsque nous utilisons les données pour éclairer le monde qui nous entoure : Les Erreurs Mathématiques

Cet article est inspiré fortement par le livre ” Avoiding Data pitfalls – How to steer clear of common blunders when working with Data and presenting Analysis and visualisation” écrit par Ben Jones, Founder and CEO de Data Litercy, édition WILEY. Nous vous recommandons cette excellente lecture!

Pour retrouver l’intégralité des sujets qui seront abordés au cours de cette série par ici : https://www.datanalysis.re/blog/business-intelligence/data-les-7-pieges-a-eviter-intro/

Business Intelligence, Data Governance, Data Marketing, Data Mining and Data Integration, Data Warehouse, Machine Learning

30 mars 20220

Vous avez dit Data Engineer ??

La Data Engineering (ingénierie des données) c’est quoi ?

Encore un mot tendance ? On ne partage pas cet avis !

Bien que l’ingénierie des données ne soit pas un domaine nouveau, cette discipline semble être aujourd’hui sortie de l’ombre et propulsée au-devant de la scène.

Nous avions justement envie de parler « métier » comme on dit dans le jargon. Vous apprendrez donc dans cet article en quoi consiste le métier de « Data Engineer », et par conséquent ce que fait une partie de notre équipe au quotidien.

Un jour, un métier : ingénieur de données

La Data Engineering consiste au développement, à l’exploitation et à la maintenance d’une infrastructure de données, sur site ou dans le Cloud (ou hybride ou multicloud), comprenant des bases de données et des pipelines pour extraire, transformer et charger des données.

Une définition, please ?

La Data Engineering étroitement liée à la Data Science, fait partie de l’écosystème du Big Data. Bien que les data engineers (ingénieurs de données) ne reçoivent pas le même niveau d’attention que les data scientists, ils sont essentiels au processus de la science des données. Leur rôles et responsabilités varient en fonction du niveau de maturité des données et de l’organisation de l’entreprise.

Cependant, certaines tâches comme l’extraction, le chargement et la transformation des données, sont fondamentales et incontournables dans le métier du data engineer.

En général en ingénierie des données, on déplace des données d’un système vers un autre, ou on transforme des données dans un format vers un autre. En d’autres termes, le data engineer interroge les données d’une source (extract/extraire), effectue des traitements sur ces données (transform/transformer), et enfin place ces données d’un niveau de qualité de production, à un emplacement où les utilisateurs peuvent y accéder (load/charger). Les termes Extract, Transform et Load (ETL) correspondent aux étapes du processus présent dans les logiciels appartenant à la catégorie des ETL (comme Talend, très connu dans le milieu).

Toutefois, cette définition de l’ingénierie des données est large et simpliste.

A partir d’un exemple, voyons plus en détails en quoi consiste le métier, ça vous parlera sûrement un peu plus :

Un site web de e-commerce de détail vend des gadgets « high-tech » dans une grande variété de couleurs. Le site fonctionne avec une base de données relationnelle, et chaque transaction est stockée dans la base de données.

La problématique du moment : combien de gadgets bleus le détaillant a-t-il vendus au cours du dernier trimestre ?

Pour répondre à cette question, vous pouvez exécuter une requête SQL sur la base de données (SQL : Structured Query Language ; langage de requête structuré. Il s’agit c’est le langage qui est utilisé pour dialoguer et faire des traitements sur les bases de données relationnelles). Il est clair que pour une tâche simple comme celle-ci, vous n’avez pas besoin d’un data engineer mais à mesure que le site se développe, exécuter des requêtes sur la base de données de production n’est plus pratique. De plus, il peut y avoir plus d’une base de données qui enregistre les transactions, et ces bases peuvent se trouver à différents emplacements géographiques.

Par exemple, le site de e-commerce pourrait très bien avoir une base de données en Amérique du Nord, une autre en Asie, une autre en Afrique et enfin une autre en Europe.

Dans le domaine de l’ingénierie des données (la data engineering) ce genre de pratique est courante !

Pour répondre à la question précédente concernant les ventes de gadgets « high-tech » de couleurs bleus, le data engineer va créer des connexions à chacune des bases de données réparties dans les différentes régions, extraire les données, et les chargera dans un entrepôt de données. A partir de là, l’ingénieur peut maintenant effectuer une requête pour compter le nombre de gadgets bleus vendus.

Plutôt que de trouver le nombre de gadgets bleus vendus, les entreprises ont plus souvent tendance à chercher des réponses aux questions suivantes :

Quelle région vend le plus de gadgets ?
Quelles sont les heures où on observe un pic des ventes sur ce type de produit ?
Combien d’utilisateurs mettent ce produit dans leur panier et le suppriment plus tard ?
Quels sont les gadgets vendus ensemble ?

Vous avez des problématiques similaires ?

Pour répondre à ces questions, il ne suffit pas d’extraire les données et de les charger dans un système. Une transformation est requise entre l’extraction et le chargement. Il y a aussi la différence de fuseaux horaires dans les différentes régions. Par exemple, les Etats-Unis ont à eux seuls quatre fuseaux horaires. Pour cela, il faudra transformer les champs de date dans un format normalisé. Il faudra également trouver un moyen de distinguer les ventes dans chaque région. Cela pourrait se faire en ajoutant un champ « région » aux données. Ce champ doit-il être spatial, en coordonnées, ou sous forme de texte, ou s’agira-t-il simplement de texte qui pourrait être transformé dans un traitement d’ingénierie des données ?

Dans ce cas présent, le data engineer devra extraire les données de chaque base de données, puis transformer ces données en y ajoutant un champ supplémentaire pour la région. Pour comparer les fuseaux horaires, le data engineer doit être familiarisé avec les normes internationales de standardisation des données. Aujourd’hui, l’Organisation Internationale de Normalisation (ISO) a la norme – ISO 8601 pour faire face à cette problématique.

Donc pour répondre aux questions précédentes, l’ingénieur devra :

Extraire les données de chaque base de données
Ajouter un champ pour localiser la région de chaque transaction dans les données
Transformer la date de l’heure locale dans la norme ISO 8601
Charger les données dans l’entrepôt de données.

La suite d’étapes (extraction -> transformation -> chargement) est réalisée par la création de ce qu’on appelle un Pipeline (ou encore Job). Ce pipeline est une série de traitements successifs qui récupère en amont les données « brutes », pouvant contenir des fautes de frappe ou des données manquantes. Au fur et à mesure des traitements, les données sont nettoyées de sorte qu’à la fin du processus, ces dernières sont stockées dans un entrepôt de données et prêtes à être exploitées. Le schéma suivant illustre le pipeline requis pour accomplir les quatre tâches précédentes :

Figure 1: Pipeline qui ajoute une région et modifie la date

Après ce petit tour d’horizon sur ce qu’est l’ingénierie des données et ce que font les ingénieurs de données, vous devriez commencer à avoir une idée des responsabilités et des compétences que les ingénieurs de données doivent acquérir. Vrai ?

Quelles sont les connaissances et compétences requises pour être Data engineer ?

L’exemple précédent montre bien que le data engineer doit être familiarisé avec différentes technologies, et nous n’avons même pas encore mentionné les processus ou les besoins de l’entreprise.

Pour démarrer la première étape du processus d’un pipeline (l’extraction), le data engineer doit savoir comment extraire des données depuis des fichiers pouvant être en différents formats, ou depuis différents types de bases de données. L’ingénieur doit donc connaître plusieurs langages de programmation tels que SQL et Python, afin de pouvoir effectuer ces différentes tâches. Lors de la phase de transformation des données, il devra également maîtriser la modélisation et les structures de données. De plus, il doit aussi être en mesure de comprendre les besoins de l’entreprise et les informations ou connaissances qu’elle souhaite extraire des données, afin d’éviter les erreurs de conception du ou des modèles de données.

Le chargement des données dans l’entrepôt de données nécessite aussi que le data engineer connaisse les bases de conception d’un entrepôt de données, ainsi que les types de bases de données utilisés dans leur construction.

Enfin, l’ensemble de l’infrastructure sur laquelle le pipeline de données s’exécute peut également être sous la responsabilité de l’ingénieur de données. Il doit savoir comment administrer des serveurs Linux, et comment installer et configurer des logiciels tels qu’Apache Airflow ou NiFi.

Les entreprises ont de plus en plus tendance aujourd’hui à migrer vers le cloud, et incitent donc les Data engineer à se familiariser avec la mise en place de l’infrastructure sur des plateformes cloud comme Amazon, Google Cloud Platform ou Azure.

Nous sommes heureux de vous avoir partagé le métier data engineers et on espère que vous y voyez plus clair désormais !

Cet article vous a inspiré ?

Discutons-en !