ETL (Extract, Transform, Load): cos'è e come funziona

Data di pubblicazione: 28 Luglio 2023Autore: Alessandro Achilli

I big data sono divenuti, nel giro degli ultimi anni, il vero petrolio del futuro: per le aziende, infatti, le informazioni rappresentano un valore imprescindibile. Raccogliere e utilizzare questi dati è ormai indispensabile per qualsiasi organizzazione nel mondo, che grazie a loro può migliorare le proprie strategie di business, la propria offerta di servizi e incrementare nettamente le vendite.

Quali sono gli strumenti più utili per organizzare e gestire una grande quantità di dati provenienti da diverse sorgenti? Quali sono i processi standard che un dato deve e può subire per poter essere utilizzato ai fini di analytics? Scopriamo uno dei processi più comuni ed efficienti per la centralizzazione dei dati: l’ETL process.

Indice dei contenuti

Cos’è l’ETL (Estrazione, Trasformazione e Caricamento)?

ETL è l’acronimo della formula Extract, Transform, Load (estrazione, trasformazione, caricamento). Questo acronimo si riferisce al processo di raccolta dei dati provenienti da qualsiasi tipologia di sorgente: un processo che prevede, altresì, l’organizzazione, la centralizzazione e l’integration del dato all’interno di un unico repository.

Ancora oggi molte aziende non sono in grado di beneficiare dei vantaggi offerti dal pacchetto di dati in loro possesso, in quanto le informazioni risultano inaccessibili. I dati, spesso, rimangono bloccati in silos isolati, non possono essere utilizzati mediante applicazioni specifiche o vengono frenati dai sistemi legacy.

Un vero e proprio spreco di opportunità in termini di business: gestire e utilizzare i dati, infatti, può davvero fare la differenza per un’impresa. Anche per questo il processo ETL rappresenta un valido supporto per l’estrazione, la trasformazione e il caricamento dei dati. Le informazioni, al termine del processo ETL, saranno pulite e pronte per essere usate per molteplici finalità di business.

La preparazione dei dati, svolta mediante l’ETL process, può essere necessaria quando occorre:

eseguire la data migration da un’applicazione a un’altra;
sincronizzare i sistemi chiave;
migrare applicazioni locali presso infrastrutture cloud, multi cloud o hybrid cloud;
inserire i dati in un data warehouse per l’ordinamento, l’assimilazione e la transformation;
replicare i dati per l’esecuzione di backup e analisi delle ridondanze;
trasferire i dati da un sistema CRM in un ODS, dove vengono ottimizzati e arricchiti, per poi trasferire nuovamente i dati nel sistema CRM.

ETL: come funziona

Negli ultimi anni, molte aziende preferiscono estrarre i dati dalle sorgenti, caricarli all’interno di un data warehouse e infine trasformarli. Questo processo, denominato ELT (Extraction, Loading, Transformation) si differenzia dal processo ETL per la diversa gestione delle fasi relative all’organizzazione dei dati. Il processo ETL, infatti, si suddivide in tre fasi che vengono seguite con un preciso criterio temporale. Vediamo qual è il diagramma del processo ETL.

Extraction

L’ETL process viene svolto con lo specifico obiettivo di ottenere un pacchetto di dati puliti e accessibili, utilizzabili ai fini di analytics e per qualsiasi esigenza di business. Pertanto, la prima fase operativa prevede le attività di estrazione dei dati. Le informazioni possono provenire da una pluralità di fonti, come:

database già esistenti (report di errori, traffico di rete, etc);
report su anomalie e prestazioni delle applicazioni;
attività transazionali segnalate per motivi di conformità;
eventi di sicurezza.

Il dato viene estratto e inserito all’interno di un data warehouse o di un data lake.

Transformation

La seconda fase del processo ETL è la più delicata di tutte: durante questo step, infatti, i dati vengono trasformati a seconda delle regole e delle esigenze aziendali. I dati grezzi vengono modificati nel formato di segnalazione corretto: la pulizia dei dati è fondamentale durante questa attività, che altrimenti diventerebbe troppo complessa.

Il dato deve rispondere a determinati standard che garantiscono la sua stessa qualità e accessibilità. Pertanto, durante la trasformazione il dato viene modificato nel rispetto dei seguenti standard:

deduplicazione, esclusione/eliminazione dei dati ridondanti mediante la segnalazione delle duplicazioni;
verifica. Esecuzione di verifiche automatiche finalizzate a confrontare le informazioni simili, contrassegnare le anomalie e perfezionare la qualità dei dati esistenti;
standardizzazione, ovvero la definizione dei dati che verranno considerati e relativa modalità secondo cui verranno memorizzati e formattati;
ordinamento, ovvero l’ottimizzazione dell’efficienza interna ai data warehouse mediante il raggruppamento/ordinamento del dato in categorie (dati grezzi, multimediali, altri oggetti o audio). Durante i processi ETL i dati vengono classificati secondo delle specifiche regole di trasformazione. Spesso tale processo viene seguito per la creazione di tabelle di aggregazione e report riepilogativi.

Durante la fase di trasformazione i dati vengono modellati affinché siano pronti per la fase finale: il caricamento.

Loading

Il processo ETL, in ultima fase, prevede il caricamento dei dati pronti presso una nuova destinazione, che può essere un data warehouse o un data lake. È in questa fase che avviene la data integration. Il dato può essere caricato secondo due modalità:

caricamento completo;
caricamento incrementale.

Il singolo ciclo ETL (o una serie programmata di cicli) può essere lanciato eseguendo un’attività da una riga di comando o da un’interfaccia grafica. Occorre, però, prestare attenzione a determinati aspetti:

gestione delle eccezioni;
estrazione dei dati (soprattutto se uno o più sistemi risultano inattivi);
presenza di dati di cattiva qualità.

ELT o ETL?

Due i possibili approcci ELT o ETL alla pre-elaborazione dei dati: da un lato, il processo ETL sin ora descritto. Dall’altro, il processo ELT. La principale differenza tra i due sta nell’ordine temporale delle tre fasi principali. Mentre ETL elabora, trasforma e infine carica i dati, ELT elabora, carica e infine trasforma i dati.

Nonostante il processo ETL sia una procedura collaudata e apprezzata da infinite organizzazioni nel mondo, negli ultimi anni e con la diffusione delle tecnologie fondate su cloud, nuovi processi sono stati sperimentati. Le tecnologie basate su cloud permettono di archiviare ed elaborare i dati a un costo più conveniente: pertanto, le aziende moderne sono sempre più incentivate a usufruire di servizi di prima scelta, rapidi, accessibili, versatili e anche economici. L’approccio ELT ha conquistato sempre maggiori consensi anche e soprattutto perché facilmente applicabile anche in ambienti cloud.

Il processo ELT è considerato la procedura preferibile per la gestione dei dati, poiché il dato grezzo può essere conservato sin quando deve essere utilizzato, potendo concentrare maggiore attenzione sugli step relativi all’estrazione e al caricamento. Inoltre, la fase di trasformazione permette di accedere ai seguenti vantaggi:

standardizzazione dei valori dei dati;
preparazione dei dati per l’apprendimento automatico e conseguente miglioramento della precisione degli algoritmi;
pulizia dei dati e ottimizzazione qualitativa degli stessi;
deduplicazione e corrispondenza dei dati.

Tipi di strumenti ETL

Per la gestione dei dati secondo la procedura ETL le aziende moderne possono scegliere 4 diversi strumenti, che si differenziano in base alle pipeline. Vediamo quali sono.

Pipeline di elaborazione batch

Questa pipeline viene utilizzata nei classici casi d’uso finalizzati all’analisi, ovvero quando i dati devono essere raccolti, trasformati e spostati periodicamente in un data warehouse (anche in cloud). Trattasi di una pipeline particolarmente adatta a soddisfare gli scenari di utilizzo convenzionali di business intelligence.

In questo caso, l’utente muove i dati ad alto volume in un data lake o data warehouse in cloud, programmando le attività di elaborazione e prevedendo un minimo intervento umano. L’elaborazione batch consente di memorizzare e raccogliere i dati all’interno di una finestra batch, che gestisce una mole immensa di dati in modo efficiente, seguendo una procedura ripetitiva.

Pipeline di elaborazione on-premise

Tale pipeline permette una distribuzione in loco, con relativo miglioramento nella sicurezza dei dati gestiti. Questa pipeline è ideale per le aziende che gestiscono sistemi legacy i quali usufruiscono di repository on-premise per la raccolta dei dati.

Pipeline di elaborazione in tempo reale

Questa pipeline rappresenta la migliore alternativa per gli utenti che desiderano elaborare dati strutturati e non strutturati, prelevandoli da numerose fonti (IoT, dispositivi connessi, fonti streaming, dati dei sensori, feed dei social media, applicazioni mobili). Tale pipeline permette di utilizzare un sistema di messaggistica estremamente veloce, che garantisce l’acquisizione rapida dei dati.

La fase di trasformazione avviene in tempo reale, usando un sistema di elaborazione real time per sviluppare attività di analisi (come, ad esempio, nel caso delle campagne di marketing, per l’assistenza proattiva ai clienti, per la manutenzione predittiva e per il rilevamento delle frodi).

Pipeline di elaborazione sul cloud

In base alle differenti applicazioni cloud, questo strumento ETL può essere declinato a dovere, essendo particolarmente agile e flessibile.

Esempi di ETL

In quali contesti e per quali utilizzi può essere declinato il processo ETL? Vediamo alcuni esempi:

costruzione di un data warehouse. ETL rappresenta un passaggio fondamentale per la creazione di questa architettura di data management, la quale contiene dati critici per l’azienda;
abilitazione del machine learning. ETL fornisce dati affidabili e di qualità per l’analisi, automatizzando il processo di raccolta, trasformazione e consolidamento del dato. ETL, nell’ottica di abilitare il machine learning, viene utilizzato per pulire i dati e per le attività di profiling e auditing;
data migration nel cloud. Quest’ultimo garantisce maggiore sicurezza e scalabilità al dato. Per spostare i dati nel cloud, si sceglie spesso il processo ETL perché contribuisce a estrarre i dati, a declinarli nel formato corretto e compatibile con la nuova architettura, ma anche a caricarli presso i sistemi in cloud. ETL consente di standardizzare i formati, rimuovere i duplicati, sincronizzare i dati e rendere più semplice l’analisi dei dati;
abilitazione e ottimizzazione della business intelligence. ETL analizza i dati strutturati, non strutturati e semi strutturati prelevandoli da più fonti (real time, streaming, batch). L’abilitazione della business intelligence e della statistica descrittiva consente di classificare, rilevare e sintetizzare i dati evitando inferenze, da qualsiasi dato a qualsiasi latenza. ETL è in grado di fornire un contesto storico completo, combinando i dati raccolti ai dati legacy.

Description: Estrazione, trasformazione e caricamento: cos’è il processo ETL, come funziona e quando viene eseguito? Scopriamo questa procedura di data management.

Gestione dati e analisi

Cookie	Durata	Descrizione
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durata	Descrizione
bcookie	2 years	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
bscookie	2 years	LinkedIn sets this cookie to store performed actions on the website.
lang	session	LinkedIn sets this cookie to remember a user's language setting.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Cookie	Durata	Descrizione
__kla_id	2 years	Cookie set to track when someone clicks through a Klaviyo email to a website.
SRM_B	1 year 24 days	Used by Microsoft Advertising as a unique ID for visitors.

Cookie	Durata	Descrizione
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_UA-137720848-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gat_UA-35242002-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au	3 months	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
_hjAbsoluteSessionInProgress	30 minutes	Hotjar sets this cookie to detect the first pageview session of a user. This is a True/False flag set by the cookie.
_hjFirstSeen	30 minutes	Hotjar sets this cookie to identify a new user’s first session. It stores a true/false value, indicating whether it was the first time Hotjar saw this user.
_hjIncludedInPageviewSample	2 minutes	Hotjar sets this cookie to know whether a user is included in the data sampling defined by the site's pageview limit.
_hjIncludedInSessionSample	2 minutes	Hotjar sets this cookie to know whether a user is included in the data sampling defined by the site's daily session limit.
_hjTLDTest	session	To determine the most generic cookie path that has to be used instead of the page hostname, Hotjar sets the _hjTLDTest cookie to store different URL substring alternatives until it fails.
ajs_anonymous_id	1 year	This cookie is set by Segment to count the number of people who visit a certain site by tracking if they have visited before.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Durata	Descrizione
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
ANONCHK	10 minutes	The ANONCHK cookie, set by Bing, is used to store a user's session ID and also verify the clicks from ads on the Bing search engine. The cookie helps in reporting and personalization as well.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
MUID	1 year 24 days	Bing sets this cookie to recognize unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Durata	Descrizione
__awc_tld_test__	session	No description
_clck	1 year	No description
_clsk	1 day	No description
_hjSession_1956240	30 minutes	No description
_hjSessionUser_1956240	1 year	No description
AnalyticsSyncHistory	1 month	No description
CLID	1 year	No description
last_pys_landing_page	7 days	No description
last_pysTrafficSource	7 days	No description
li_gc	2 years	No description
pys_first_visit	7 days	No description
pys_landing_page	7 days	No description
pys_session_limit	1 hour	No description
pys_start_session	session	No description
pysTrafficSource	7 days	No description
SM	session	No description available.

ETL (Extract, Transform, Load): Cos’è e come funziona