La moneta 391 e il dilemma della dimensionalità. Perché predire i mercati con Google può rivelarsi una trappola

27 agosto 2018
Libri Letture Open Society
FacebookFacebook MessengerTwitterLinkedInWhatsAppEmail

Immaginate che la vostra strategia per predire il mercato azionario sia quella di trovare una moneta fortunata, selezionandola però attraverso dei test accurati. Ecco la vostra metodologia: numerate mille monete da uno a mille. Ogni mattina, per due anni, lanciate ogni moneta, segnatevi se esce testa o croce, e annotate se l’indice Standard & Poor quel giorno sale o scende. Esaminate i dati, e voilà, avete trovato qualcosa. A quanto pare il 70.3 per cento delle volte che la moneta 391 ha dato testa, l’indice S&P è salito. Il rapporto è statisticamente molto significativo. Avete trovato la vostra moneta fortunata.

Lanciate ogni giorno la moneta 391 e se esce testa comprate azioni. Addio alle magliette dell’hard discount e al ramen precotto, con la moneta 391 inizia la vostra vita da nababbi!

Oppure no.

Siete solo un’altra vittima di uno degli aspetti più diabolici della “maledizione della dimensionalità”. Può colpire quando ci sono tante variabili (o “dimensioni”), in questo caso mille monete, e un numero basso di osservazioni, in questo caso 504 giorni di mercato azionario in due anni. Con ogni probabilità una di queste dimensioni, nel nostro caso la moneta 391, apparirà fortunata. Diminuite le variabili – lanciate solo cento monete – e le probabilità che una di loro si riveli fortunata scenderanno. Aumentate le osservazioni – provate a predire l’indice S&P per vent’anni – e le monete non riusciranno a tenere il passo.

La maledizione della dimensionalità è un problema cruciale quando si tratta di Big Data, visto che i dataset nuovi ci offrono una quantità esponenzialmente più alta di variabili rispetto alle fonti di dati consuete: ogni termine di ricerca, ogni categoria di tweet ecc. Molte persone che dichiarano di saper predire il mercato utilizzando qualche fonte di Big Data in realtà sono semplicemente rimaste intrappolate dalla maledizione. Hanno solo trovato l’equivalente della moneta 391.

Pensiamo per esempio a un team di informatici dell’Indiana University e della Manchester University, che avevano affermato di poter predire l’andamento dei mercati basandosi sui tweet della gente. Hanno elaborato un algoritmo per codificare l’umore generale quotidiano basandosi sui tweet. Hanno usato tecniche simili alla cosiddetta analisi del sentiment. Non hanno codificato solo un umore, ma molti: felicità, rabbia, gentilezza, e altri. Hanno scoperto che una maggioranza di tweet che rimandavano alla calma, come “mi sento tranquillo”, potevano predire che dopo sei giorni si sarebbe innalzato l’indice Dow Jones. Per sfruttare le loro scoperte è stato creato un fondo speculativo.

Qual è il problema?

Il problema fondamentale è che hanno testato troppe cose. Se testi un certo numero di cose, solo per puro caso, una di loro si rivelerà statisticamente significativa. Hanno testato molte emozioni, e le hanno testate a un giorno, due giorni, tre giorni, fino a sette giorni di distanza dal comportamento del mercato azionario che volevano predire. E hanno usato tutte queste variabili per spiegare pochi mesi di oscillazioni del Dow Jones.

La calma registrata sei giorni prima del rialzo non era un indicatore affidabile per fare previsioni di mercato. Era l’equivalente nel mondo dei Big Data della nostra ipotetica moneta 391. Questo fondo speculativo basato sui tweet è stato chiuso un mese dopo il suo avvio per i profitti deludenti.

Come sconfiggere la maledizione della dimensionalità? Dovete approcciarvi al vostro lavoro con umiltà, senza innamorarvi dei risultati. Dovete sottoporre tali risultati a ulteriori test. Ad esempio, prima di giocarvi i risparmi sulla moneta 391, potreste metterla alla prova per un altro paio d’anni. I sociologi lo chiamano test “out-of-sample”. Più variabili testate, più avrete bisogno di essere umili. Più variabili testate, più il test out-of-sample dev’essere difficile. È inoltre fondamentale registrare ogni tentativo di test. Solo in tal modo potrete sapere se siete vittime della maledizione, e con quanto scetticismo dovete osservare i vostri risultati. Questo ci riporta al mio tentativo di battere i mercati con Larry Summers.

L’idea iniziale di Summers era di utilizzare le ricerche per predire le vendite future di alcuni prodotti chiave, come gli iPhone, che avrebbero potuto delineare la performance futura delle azioni di un’azienda come la Apple. Di certo doveva esserci una correlazione tra la ricerca della parola “iPhone” e la vendita di iPhone. Quando la gente cerca spesso su Google “iPhone”, puoi scommettere che ne vengono venduti tanti. Questa informazione però era già incorporata nel prezzo azionario della Apple. Evidentemente i fondi speculativi avevano già capito che le azioni salivano quando in tanti cercavano “iPhone” su Google, e non importava che ci fossero riusciti utilizzando i dati delle ricerche o altre fonti.

L’idea successiva di Summers è stata predire gli investimenti futuri nei paesi in via di sviluppo. Se molti investitori mettono fiumi di denaro in paesi come il Brasile o il Messico, di certo gli stock azionari delle aziende di questi paesi sono destinati a salire. E allora possiamo forse prevedere un aumento degli investimenti utilizzando alcune ricerche chiave di Google, come “investire in Messico” o “opportunità d’investimento in Brasile”. Questo però si è rivelato un vicolo cieco. Qual era il problema? Troppo poche ricerche. I dati delle ricerche non rivelavano dei pattern significativi, ma avevano un andamento imbizzarrito.

Abbiamo provato a cercare le singole azioni. Se le persone cercavano “GOOG”, magari erano intenzionate ad acquistare azioni di Google. Erano però ricerche che sembravano predire grandi scambi d’azioni, ma non se le azioni sarebbero salite o scese. Queste ricerche avevano un grosso limite, ovvero non ci dicevano se le persone erano interessate a vendere o comprare azioni di un determinato tipo.

Un giorno, tutto entusiasta, ho proposto a Summers una nuova idea: sembrava che le ricerche passate di “comprare oro” fossero correlate a futuri aumenti del prezzo dell’oro. Summers mi ha detto di testare questa idea nei giorni a venire per provarne l’accuratezza. Ha smesso di funzionare, perché qualche fondo speculativo ha scoperto la stessa correlazione.
In conclusione, nel corso di alcuni mesi non abbiamo trovato niente di utile in tutti i nostri test. Senza dubbio, se avessimo cercato una correlazione tra l’andamento del mercato e i miliardi di termini inseriti su Google, ne avremmo trovato uno funzionante, pur debolmente. Ma con grande probabilità sarebbe stato solo la nostra moneta 391.

 

Il brano proposto è un estratto dal libro La macchina della verità. Come Google e i Big Data ci mostrano chi siamo veramente, in libreria dal 27 settembre per LUISS University Press

La macchina della verità

Come Google e i Big Data ci mostrano chi siamo veramente

Seth Stephens-Davidowitz
LUISS University Press
In libreria dal 27 settembre

Scheda

L'autore

Seth Stephens-Davidowitzè il data scientist che ha svelato il modo corretto di interpretare i Big Data. Già analista per Google, è editorialista del New York Times.


Website
Articoli correlati