Qual è la disciplina che consente di individuare automaticamente sequenze, modelli e tendenze (pattern) analizzando un considerevole quantitativo di dati dello stesso tipo? Trattasi di una delle risorse più importanti e utilizzate dalle aziende moderne: il data mining.
Il data mining (in italiano, estrazione di dati) può essere definito come l’insieme di alcune tecniche e metodologie della Data Science il cui obiettivo è estrarre informazioni utili da grandi moli di dati attraverso algoritmi e avanzate tecnologie, sempre più spesso basate su reti neurali artificiali, machine learning e tecniche di intelligenza artificiale.
Il data mining si riferisce alle attività che consentono di estrarre informazioni dai dati, ossia tutto ciò che riguarda la loro esplorazione e analisi.
Indice dei contenuti
Storia del data mining e perché è “accessibile a tutti”
Negli anni Ottanta, con l’inizio del processo di Office Automation che coinvolse le PMI di tutto il mondo, i computer erano divenuti sempre più potenti (e piccoli nelle dimensioni). L’economia di scala determinò un rapido abbassamento dei costi dei sistemi informatici: in quel momento, l’archivio digitalizzato diventò una risorsa essenziale, impiegato in sostituzione del classico archivio fisico. È qui che nasce il data mining: questa tecnica, infatti, si sviluppò a partire dall’esigenza delle imprese di registrare e gestire un’immensa quantità di dati, ma in formato digitale.
Il concetto di data mining nasce e si sviluppa grazie ad alcune tendenze che hanno poi contribuito a renderlo una risorsa accessibile a tutti:
- la disponibilità di grandi quantità di dati digitali (strutturati ma anche e soprattutto non strutturati);
- l’accesso a un’importante capacità di calcolo (server, cpu, gpu) e data storage sempre più performanti, disponibili a costi contenuti (anche grazie al cloud computing);
- nuovi e più elevati livelli di maturità delle tecniche (e delle tecnologie) di analisi dei dati, con accesso semplificato a machine learning, reti neurali artificiali e tecniche di intelligenza artificiale.
Il data mining è il metodo di esplorazione e analisi di grandi quantità di dati (attraverso sistemi automatici o semi-automatici, tra i quali anche il machine learning) per capire e identificare modelli (pattern, correlazioni, strutture di dati) che possono essere utili per una precisa attività o processo.
Gli algoritmi di deep learning e data mining rappresentano pilastri fondamentali nell’ambito dell’analisi dei dati, poiché permettono di rivelare pattern complessi e di estrarre conoscenze significative da grandi volumi di informazioni.
Il data mining spesso si basa sui dati archiviati in grandi dataset e nei data warehouse per condurre analisi dettagliate e complete, identificando modelli e tendenze che possono essere utilizzati per prendere decisioni strategiche all’interno di un’organizzazione.
Il data mining rappresenta, quindi, la base per tutte le piattaforme più evolute di Big Data Analytics. Trattasi, infatti, dell’elemento tecnico che consente di individuare schemi, strutture e correlazioni tra dati.
Il data mining è esso stesso un procedimento di analisi, ma dal punto di vista tecnico coinvolge anche altri aspetti molto importanti nell’ambito del processamento dei dati: configurazione, modellazione, data collection, data visualization. Tutti questi aspetti contribuiscono al raggiungimento dell’obiettivo finale: scavare nei dati ed estrarre informazioni utili, non visibili e non conosciute a priori, che possono generare nuova conoscenza impiegata efficacemente durante il processo decisionale e operativo di business.
Oggi il data mining ha una duplice valenza:
- estrazione, con tecniche analitiche all’avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
- esplorazione e analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern significativi.
I pattern sono, di fatto, il risultato dell’estrazione dei dati e rappresentano gli elementi da cui è possibile ricavare/leggere/interpretare le informazioni. Affinché possano generare tale valore, ossia fornire informazioni utili, i pattern devono essere:
- comprensibili (sia sotto il profilo semantico sia dal punto di vista sintattico), in modo da poter essere opportunamente interpretati e sfruttati;
- validi, nell’accezione della qualità e del grado di confidenza dei dati;
- precedentemente sconosciuti, ossia devono rivelare informazioni che in precedenza non erano note.
Come si chiama il ramo del data mining che si occupa della previsione di probabilità e tendenze future? Trattasi del cosiddetto mining predittivo. Il data mining predittivo impiega la business intelligence per la previsione delle tendenze economiche e in generale dei trend futuri: permette all’azienda di valutare il possibile impatto delle strategie decisionali, proiettando tali decisioni nel futuro. In questo modo, l’azienda può operare scelte sempre più efficaci, riducendo le possibili perdite e individuando le migliori strategie per portare valore al business e raggiungere gli obiettivi aziendali.
Processo del data mining
Per poter impiegare correttamente ed efficacemente il data mining, i tecnici potranno seguire un processo specifico, muovendosi in avanti e in indietro tra gli step secondo le occorrenze. Possono, altresì, avvalersi di numerose tecnologie software per seguire il processo del data mining, suddiviso nei seguenti passaggi:
- comprensione del business e identificazione degli obiettivi. Il data scientist o data miner utilizza le informazioni di progetto (problematiche a cui occorre rispondere, ostacoli o limitazioni, impatto di potenziali soluzioni) per la definizione degli obiettivi del processo di data mining e per comprendere quali risorse impiegare durante le operazioni;
- comprensione dei dati. Il data scientist analizza i dati in modo preliminare raccogliendo i set di dati dalle varie fonti e realizzando report descrittivi. Successivamente, si occupa di esplorare e verificare i dati, manipolandoli mediante tecniche statistiche di base. Sulla base della valutazione della qualità, sceglie un set di dati per procedere con la fase successiva;
- preparazione dati. Il software di data mining può impiegare solo dati di alta qualità: pertanto, il data scientist perfeziona i dati prima del processo di modellazione, occupandosi della pulizia (gestendo dati mancanti, eliminando errori e valori predefiniti), integrazione (combinando due set di dati caotici in un unico set finale), formattazione (convertendo o configurando i dati sulla base della tecnologia mining che verrà impiegata);
- modellazione. A questo punto, il data miner inserisce i dati puliti all’interno del software. Scrive test di valutazione della qualità del risultato ottenuto, studiandolo approfonditamente. Qualora la qualità dei dati sia bassa il data miner, per la modellazione dei dati, può scegliere se addestrare i modelli di machine learning su set di dati minori (dai risultati noti), oppure impiegare il modello per analizzare più volte i set di dati, o riconfigurare il software per ottenere risultati soddisfacenti;
- valutazione. Una volta creati i modelli, il data miner dovrà misurarli in base all’obiettivo di business originale. Il modello, infatti, potrebbe rispondere adeguatamente alle domande iniziali, offrire nuovi schemi sconosciuti: i risultati vengono condivisi con gli analisti aziendali in modo che il modello e schema del mining possa risultare adatto all’obiettivo. In caso contrario, deve essere rivisto. Eventuali modifiche e la valutazione costante rappresentano attività essenziali, che permettono di ottenere una conoscenza più profonda dei dati;
- implementazione. Il modello di lavoro può essere utilizzato per la business intelligence. Pertanto, il data miner dovrà occuparsi della sua distribuzione (e della formazione del personale non tecnico sull’utilizzo del modello). Si occuperà, inoltre, di monitorare l’applicazione di data mining e delle operazioni di manutenzione.
Tecniche di data mining
Al giorno d’oggi sono numerose le tecniche di data mining basate su diversi campi dell’apprendimento (sempre interconnessi), come il machine learning, la matematica e l’analisi statistica. Scopriamo le principali tecniche di data mining nei paragrafi successivi.
Classificazione
Questa tecnica di data mining, piuttosto complessa, viene utilizzata per addestrare l’algoritmo di machine learning affinché ordini i dati in categorie distinte. Si impiegano metodi statistici come gli alberi decisionali per identificare le singole categorie, preprogrammando l’algoritmo con classificazioni note di dati. In questo modo è possibile individuare le tipologie dei nuovi elementi di dati.
Mining delle regole di associazione
Tale tecnica prevede la ricerca delle relazioni tra due diversi set di dati, utilizzando le affermazioni “if/then” per dimostrare la probabilità di una relazione tra due punti di dati. Il data scientist riesce a misurare l’accuratezza dei dati impiegando criteri basati su affidabilità e supporto: l’una mostra il numero di casi in cui l’affermazione if/then è accurata, l’altro misura la frequenza con la quale gli elementi correlati possono apparire nel set di dati.
Analisi del percorso e della sequenza
Questa tecnica di data mining prevede la ricerca di pattern nei quali un insieme di valori o di eventi conduce agli insiemi successivi. Il software può, quindi, riconoscere le variazioni dei dati che occorrono regolarmente nel tempo.
Clustering
Questa tecnica di data mining permette di raggruppare più punti di dati allo stesso tempo, sulla base della somiglianza tra dati. Una tecnica differente rispetto alla classificazione poiché è in grado di distinguere i dati per categorie specifiche, individuando modelli in base alle somiglianze tra dati. In questo modo è possibile creare un insieme di cluster nei quali le raccolte si distinguono dagli altri gruppi. Gli oggetti dei vari cluster, però, sono simili tra di loro.
Alcuni esempi di applicazione
Il data mining viene impiegato, al giorno d’oggi, in moltissimi settori: dalla finanza al settore manifatturiero, dal marketing al settore legale. Tale tecnologia consente di trovare gruppi di documenti simili per tipologia o per termini, o di raggruppare clienti dalle caratteristiche affini o che condividono la medesima area geografica. Il data mining viene utilizzato anche per comprendere come proporre la merce sui canali e-commerce, oppure per valutare la migliore strategia di posizionamento dei prodotti in store. Le possibili applicazioni del data mining sono molteplici: scopriamo alcuni degli esempi più comuni.
Churn analysis
In questo caso, il data mining viene utilizzato per l’analisi delle probabilità di perdere un cliente. Il data mining è in grado di identificare le caratteristiche che accomunano il cliente dall’alta probabilità di abbandono. L’impiego dell’analisi predittiva permette, inoltre, di modellare gli scenari e le strategie aziendali per riuscire a prevenire l’abbandono, o per predisporre strategie di risposta in grado di ridurre la percentuale di perdita.
Fraud detection
Questo modello di utilizzo delle tecniche di data mining si concentra sulla prevenzione delle frodi. Il data mining è in grado di analizzare le transazioni eseguite online o presso sportelli bancomat, identificando le transazioni corrette e i casi in cui tali transazioni vengono ritenute fraudolente.
Market basket analysis
In questo caso, il data mining viene impiegato con la finalità di suggerire all’utente un prodotto/servizio che può soddisfare le sue aspettative. Analizzando i comportamenti dell’utente e mediante la tecnica della profilazione dei consumatori, è possibile offrire suggerimenti riguardo i prodotti/servizi che risulteranno graditi all’utente.
Preoccupazioni ed etica della privacy
Pur rappresentando una risorsa estremamente vantaggiosa, il data mining desta significative preoccupazioni per quanto riguarda la privacy individuale.
Una delle principali criticità coinvolge la raccolta massiva di dati personali: raccolta che si svolge senza il consenso esplicito degli individui interessati. Questo solleva interrogativi etici sulla trasparenza e sull’autodeterminazione garantite agli utenti, poiché spesso questi ultimi non risultano essere pienamente consapevoli di come le loro informazioni verranno utilizzate o condivise.
Il data mining, inoltre, presenta una natura particolarmente invasiva in quanto può generare profili estremamente dettagliati delle persone. Questi profili contengono dati sensibili relativi alle abitudini di consumo, informazioni mediche e preferenze personali. Ciò, quindi, apre le porte a un possibile impiego non conforme da parte di terze parti, o nell’ambito di decisioni automatizzate (assegnazione dei crediti, accesso ai servizi e alle opportunità di lavoro).
Diventa essenziale trovare un equilibrio tra l’innovazione offerta dal data mining e l’esigenza di tutelare la privacy delle persone. L’implementazione di pratiche di anonimizzazione, insieme a una chiara comunicazione sulle finalità della raccolta dati, può contribuire a mitigare le preoccupazioni legate alla privacy.
Data mining vs. data analytics
Data analytics e data mining sono la medesima cosa? Quali sono le differenze tra le due tecniche?
Si può affermare che il data mining si trova alla base del processo, e che comprende nel suo insieme tanti altri rami più settorizzati, come la data analytics. Il data mining, infatti, è il procedimento volto a raccogliere e raggruppare dati per individuare correlazioni e modelli ricorrenti.
La data analytics, invece, è un metodo analitico che traduce questi dati e a partire dagli schemi estrapolati elabora ipotesi e ricava informazioni concrete.Il data mining raccoglie infiniti tasselli di un puzzle, individua i pezzi giusti, capisce come metterli insieme e crea un quadro coerente e utile a trarre delle conclusioni. La data analytics osserva il quadro e trasforma i tasselli in informazioni concrete.
Il data mining (in italiano, estrazione di dati) può essere definito come l’insieme di alcune tecniche e metodologie della Data Science il
Desideri parlare con un nostro esperto? Contattaci
Ultime News Analytics
-
Differenze tra overfitting e underfitting
5 Gennaio 2024 -
OLAP: Cos’è, Come funziona, Caratteristiche e Tipologie
27 Novembre 2023 -
ETL vs ELT: differenze chiave e il migliore
25 Settembre 2023 -
Data lake vs data warehouse: 10 differenze chiave
13 Agosto 2023 -
Data mart: cos’è, tipologie e struttura
2 Agosto 2023 -
ETL (Extract, Transform, Load): Cos’è e come funziona
28 Luglio 2023
Gestione dati e analisi
-
Tutte le novità di SQL Server e le funzionalità aggiuntive
18 Luglio 2024 -
Come fare manutenzione dei database SQL Server
8 Luglio 2024 -
Quali sono le differenze tra SQL Server e Oracle?
13 Maggio 2024 -
Cos’è e come fare monitoraggio di Microsoft SQL Server
23 Aprile 2024 -
Guida SQL Server, tutto quello che devi sapere
19 Aprile 2024 -
OLTP: Cos’è, Come funziona, Vantaggi ed Esempi
28 Dicembre 2023