Cette étape correspond à l’identification des données et à la mise en place des processus d’extraction, de traitement et de transformation automatisés.
En effet, ce que l’on peut appeler communément l’ETL dans le jargon-courant-technique (Extract, Transform, Load) est effectivement un procédé d’intégration des données permettant de migrer des données brutes existantes sur un système source, de les préparer pour une utilisation future et de les envoyer vers une base de données, un entrepôt de données (data warehouse) ou un serveur cible.
Dans ce procédé, il y a 2 étapes :
Transformation des données sur un serveur intermédiaire en amont puis le chargement sur le serveur cible en aval. Il est important de noter que ce système de data intégration est très utile notamment dans le traitement d’ensembles de données massifs et hétérogènes dans le cadre du Big Data (ensemble très volumineux de données) et de l’informatique décisionnelle.
Le traitement intégré de données est un avantage considérable de l’ETL car cela constitue un système plus rapide : cela réduit les délais de chargement de données et donc généralement cela réduit aussi la durée du transfert des données. Tout cela à donc une conséquence non négligeable sur le coût ; c’est une solution économique.