- Luiss Open - https://open.luiss.it -

Informarsi bene è informarsi meglio. Per un nuovo modello di raccolta dati

Basandosi su dati di consumo e comportamentali, le aziende di marketing suddividono i clienti in “segmenti di mercato”, ossia gruppi di consumatori con caratteristiche e comportamenti simili. Una volta identificati i segmenti, le aziende individuano le caratteristiche principali dei loro componenti e le differenze tra i diversi gruppi, in modo da mettere in atto politiche di marketing mirate per ciascuna tipologia di consumatori.

In epidemiologia, la definizione dei focolai di un’epidemia avviene rilevando per ciascun contagio il luogo in cui vi è stato e determinando, poi, le zone in cui i contagi tendono ad addensarsi in modo anomalo. Questa situazione è apparentemente diversa da quella vista sopra, ma dal punto di vista tecnico il problema è lo stesso: qui le unità da aggregare sono i contagi e le caratteristiche osservate sono le loro coordinate geografiche. Gruppi numerosi di contagi avvenuti nella stessa zona (ovvero gruppi numerosi di unità con coordinate simili tra loro) costituiscono un cluster a cui viene associato un focolaio. In modo analogo vengono definiti ed individuati addensamenti anomali di oggetti distribuiti nello spazio, come le zone ad alto tasso di criminalità oppure, in astronomia, gli ammassi di galassie.

L’identificazione di comunità di utenti è anche il primo passo per poter cercare di orientarsi nello studio dei social network. Oltre ai motivi di marketing accennati in precedenza, l’identificazione di gruppi di utenti di un social network può essere particolarmente rilevante per indagare sull’origine e la propagazione di fake news, così come per identificare situazioni socialmente pericolose. Più che sulla similarità tra le unità, in questo contesto i criteri di aggregazione tra elementi di un gruppo sono basati sugli scambi di “amicizia” e di “like” tra gli utenti del social network.

In ambito genetico, poi, l’individuazione di cluster di geni con espressioni (produzione di proteine) collegate tra loro è rilevante sia per identificare le funzioni dei diversi geni che per ricostruire la storia evolutiva. Ad esempio, quando un virus infetta una cellula umana ne altera il genoma e costringe la cellula a fabbricare proteine virali. L’identificazione dei geni virali aiuta a comprendere l’evoluzione del virus ed è strumento cruciale nello sviluppo dei vaccini.

Per quanto i contesti applicativi siano estremamente diversi, in tutti i casi elencati vi è la necessità di suddividere le unità osservate in più gruppi omogenei. Questa operazione, detta clustering, permette di estrarre informazioni essenziali da dataset complessi.

Il clustering è un filone di ricerca molto attivo sia in Statistica che in Machine Learning e sono numerose le proposte provenienti da entrambe le comunità di ricerca. Anche se spesso i diversi approcci non concordano neppure sulla definizione di cluster, le tecniche di clustering possono essere raggruppate in poche categorie: dai più tradizionali metodi gerarchici e partizionali, l’attenzione si sta spostando su metodi più moderni basati sulle caratteristiche della funzione di densità.

All’interno di quest’ultima classe di tecniche, il clustering basato su mode (mode-based clustering) costituisce un approccio relativamente recente e sta diventando sempre più popolare perché permette di trattare dataset di grandi dimensioni senza bisogno di formulare assunzioni riguardanti la distribuzione dei dati.

Semplificando la questione, le tecniche di clustering basate su mode associano ciascun cluster a un “picco” della funzione di densità che genera i dati. L’idea sottostante è che i picchi, ossia regioni relativamente piccole in cui la densità è significativamente maggiore rispetto all’aerea circostante, sono regioni in cui vi è maggiore probabilità di osservare un’alta concentrazione di osservazioni. Ogni picco viene poi identificato con il suo vertice, che tecnicamente è una moda della densità.

È stato osservato (e dimostrato formalmente sotto condizioni di regolarità non particolarmente stringenti) che per identificare le mode sarebbe sufficiente seguire i tragitti che partono da ciascun punto osservato e risalgono la densità nella direzione di massima pendenza. I cluster sarebbero, poi, ottenuti come “bacini di attrazione” delle mode: ogni cluster costituito dall’insieme delle osservazioni i cui tragitti terminano nello stesso vertice.

Dal momento che la densità e il suo gradiente non sono note, i tragitti di massima pendenza sono stimati utilizzando l’algoritmo dello spostamento medio (mean shift algorithm), basato su stime iterative del gradiente della densità.

Le proprietà teoriche dell’algoritmo dello spostamento medio sono state ampiamente dimostrate e ne sono state elaborate variazioni che permettono di trattare situazioni complicate in cui altre tecniche non funzionano. Il limite è che, richiedendo un calcolo ricorsivo del gradiente della stima di densità, lo spostamento medio è piuttosto impegnativo dal punto di vista computazionale.

Recentemente, è stata introdotta una nuova procedura di clustering basata su mode, detta clustering con picchi di densità (density peak clustering). Anche qui l’idea sottostante è di identificare i cluster con i picchi della funzione di densità. Tuttavia, la procedura per identificare le mode è incentrata sullo studio di un grafico molto semplice da costruire, chiamato grafico di decisione.

Non prevedendo la stima iterativa dei tragitti di massima pendenza, la procedura è molto più semplice dal punto di vista computazionale e quindi più rapida rispetto a quella basata sullo spostamento medio. Altra caratteristica molto apprezzata di questo metodo è la semplicità di costruzione del grafico di decisione e l’immediatezza del suo apporto informativo.

Dopo la sua prima apparizione, il clustering con picchi di densità è stata citata in oltre un migliaio di articoli scientifici con proposte di miglioramento e applicazioni di ogni genere. Tuttavia, nessuno o quasi sembra essersi preoccupato di controllare le proprietà teoriche di questi metodi. Gli aspetti che necessitano di una verifica teorica approfondita sono legati soprattutto all’allocazione delle unità ai diversi cluster: in assenza di informazioni sul gradiente della densità, i criteri utilizzati per la ripartizione delle unità appaiono talvolta poco rigorosi.

Passi avanti rilevanti per l’uso di queste tecniche potrebbero essere ottenuti combinando alcuni dei principi del cluster con picchi di densità con strumenti tipici dello spostamento medio: in particolare, l’idea è quella di integrare le informazioni contenute nel grafico di decisione con quelle sul gradiente della densità. Rispetto alla versione attuale del clustering con picchi di densità, se, da un lato, si perdesse parte dell’immediatezza computazionale, dall’altro si dovrebbe riuscire a mettere a punto criteri di partizione dei dati più rigorosi e, auspicabilmente, versioni che permettano l’identificazione di cluster in sottospazi di diverse dimensioni.