Giornale on-line dell'AISRe (Associazione Italiana Scienze Regionali) - ISSN:2239-3110
 

Big Data e Scienze Regionali: una relazione inesplorata

Print Friendly, PDF & Email

di: Barbara Martini

EyesReg, Vol.6, N.6, Novembre 2016

 

Il termine Big Data sta riscuotendo un notevole interesse in numerosi campi. Esso fu utilizzato per la prima volta nel 2011 dal McKinsey Global Institute e, allo stato attuale, non esiste una definizione univoca (Floridi 2012, Loverace et al., 2016; Kitchin, 2014). Le diverse definizioni oltre a identificare i Big Data con le usuali 3V: velocità (dati che possono essere ottenuti in tempo reale), volume (grande mole di dati) e varietà (dati provenienti da fonti diverse), ne sottolineano da un lato la complessità e dall’altro l’eterogeneità delle fonti. Ne consegue che i Big Data non sono “grandi” soltanto per le loro dimensioni ma anche per la possibilità di essere messi in relazione con altri dati spesso provenienti da fonti diverse (Boyd & Crawford, 2012). Nonostante il crescente interesse da parte di molte discipline le scienze sociali, ed in particolare l’economia regionale, sembrano non aver colto le potenzialità e le problematiche ad essi connesse rimanendo ancora ai margini del dibattito.

Obiettivo di questo lavoro è quello di esplorare lo stato dell’arte dell’utilizzo dei Big Data nell’ambito delle scienze sociali, e di trarre alcune considerazioni in merito alle potenzialità e ai rischi derivanti dal loro utilizzo.

Per un lungo periodo di tempo le scienze sociali hanno operato in un ambiente povero di dati. Come conseguenza le più comuni tecniche di analisi si basano sull’utilizzo di un numero di dati limitato provenienti da campionamento e insiemi di informazioni raggruppati in forma di panel data o di serie storiche costruite per rispondere ad una specifica domanda di ricerca. La possibilità di accedere a una grande mole di dati da un lato aumenta l’esattezza e la completezza delle misurazioni, ponendo lo studioso in grado di catturare fenomeni che prima erano difficili da indagare ma, contemporaneamente, dall’altro lato ne incrementa il livello di complessità. Questa crescente complessità richiede un cambio di paradigma che le tecniche di analisi comunemente usate nelle scienze sociali e nelle scienze regionali non hanno ancora affrontato (Einav and Levin, 2013).  I Big Data provengono da fonti diverse, sono archiviati in basi dati differenti, non sono privi di rumore (noise) e sono spesso incompleti; sono pertanto dati non strutturati.  In presenza di dati non strutturati il primo problema diviene quello di organizzare e strutturare i dati stessi, nonché ridurne la mole cercando di mantenere l’informazione (segnale) ed eliminando tutto ciò che non è necessario per l’analisi (rumore). Uno dei metodi più comunemente utilizzati è rappresentato dal così detto Knowledge Discovery from Database (KDD). Il KDD è un processo volto a scoprire informazioni utili da una grande mole di dati, e si basa sull’ipotesi che l’informazione possa essere trovata attraverso la scoperta di sentieri relazionali nascosti in una grande mole di dati, in cui la conoscenza è la conclusione di un processo data driven.

L’utilizzo dei Big Data e delle sue tecniche di analisi muta, in modo più profondo, l’approccio epistemologico ed il modo di fare scienza (Kitchin, 2014), passando da un modello science driven ad un modello data driven, in cui il rischio è che “i dati parlino da soli” senza che vi sia una vera teoria di supporto: la catena causale che fino ad ora ha guidato la ricerca scientifica potrebbe essere invertita. In altre parole, anziché partire dalla formulazione di ipotesi ed utilizzare i dati per sottoporle a verifica, l’utilizzo dei Big Data e le tecniche di analisi ad essi associati, potrebbero portare alla scoperta di significative associazioni tra i dati senza essere guidati da una ipotesi (Kitchin, 2014). Generalmente, l’approccio seguito nelle scienze regionali è quello di lavorare con campioni rappresentativi, costruiti per rispondere ad una specifica domanda di ricerca, che vengono generalizzati utilizzando tecniche quali l’inferenza. Nel caso di utilizzo dei Big Data, al contrario, si utilizza spesso la dizione “correlation supersedes causation” (Anderson’s, 2008). L’idea sottostante questa affermazione è che i possibili pattern trovati all’interno di una base dati siano significativi. Questa osservazione, oltre ad essere falsa, è anche pericolosa: la correlazione tra due variabili all’interno di una base dati può essere casuale o spuria. Gli approcci basati sul KDD sono ben lungi dal proporre soluzioni automatiche. Il loro obiettivo è quello di descrivere soluzione e scenari che potrebbero non essere catturati o percepiti. La scoperta di eventuali correlazioni, non precedentemente ipotizzate, può divenire oggetto di ulteriori analisi (Kitchin, 2014). Ne consegue che i Big Data costituiscono una opportunità per la disciplina che non si sostituisce, bensì si affianca, alle tradizionali tecniche di analisi.

Le nuove fonti di dati aprono la possibilità, soprattutto nel campo delle scienze sociali, di studiare fenomeni fino ad ora difficili da catturare.  Come è stato sottolineato da Capello (2016), le scienze regionali focalizzano la loro attenzione sull’aspetto spaziale nella analisi del funzionamento del mercato. Tutti i dati concernenti le città, i comportamenti sociali, i network di imprese e sociali che possono concorrere a determinare l’attrattività delle città, la concentrazione spaziale delle imprese e gli effetti sulle politiche economiche e sociali, sono stati fino ad ora collezionati attraverso l’utilizzo di survey ed interviste. I Big Data in questo campo possono rappresentare una opportunità per sviluppare nuovi tipi di analisi più accurate e geo-referenziate. Nonostante queste opportunità i Big Data non sembrano riscuotere interesse nelle scienze regionali.

Analizzando le riviste più importanti di scienze regionali (http://www.regionalscience.org) emerge che in solo 7 di esse la parola Big Data appare nel titolo, nelle key words o nell’abstract, come riportato nella tabella I in appendice. La tabella IA riassume le caratteristiche dei contributi che riportano nel titolo, nelle keywords o nell’abstract, la parola Big Data a cui sono state aggiunte due pubblicazioni apparse su NBER. Come si osserva dalle fonti dei dati non è ancora possibile fare emergere una applicazione organica dei Big Data nell’ambito della disciplina delle Scienze Sociali.  Un copioso numero di contributi (ben 8, dal 2013 al 2016) è stato pubblicato in Geojournal che, nell’agosto 2015, ha dedicato una sezione speciale al tema dal titolo “What’s So Big about Big Data? Finding the Spaces and Perils of Big Data”. Le Tabelle II e IIA sintetizzano i contributi ed i relativi obiettivi. Dall’analisi emerge come le scienze regionali possano beneficiare dei Big Data utilizzando informazioni di tipo spaziale in essi contenute, evidenziando le criticità connesse al loro utilizzo.

Nonostante questo scarso interesse da parte delle scienze regionali nei confronti del tema dei Big Data, è possibile affermare che essi possono rappresentare un valore aggiunto sotto una serie di profili. Utilizzando i Big Data è possibile avere migliori informazioni circa i comportamenti sociali, le opinioni politiche, i network relazionali. Queste informazioni risultano essere molto utili per analizzare tutta una serie di comportamenti sociali che spesso non potevano essere studiati con i dati a nostra disposizione. Inoltre, sotto il profilo delle policies, è possibile ottenere, in fase decisionale, significativi contributi circa le azioni da intraprendere attraverso l’analisi dei bisogni e dei desiderata dei cittadini, e, in fase operativa, dei feedback circa i risultati e il gradimento delle policies adottate. È inoltre possibile concorrere alla creazione e al miglioramento di smart cities attraverso un aggiornamento continuo sul modo con cui le città sono organizzate e regolamentate. Infine è possibile ottimizzare o migliorare l’uso di alcuni beni pubblici ottenendo maggiori informazioni in termini di domanda e di efficienza degli stessi.  Per quanto i Big Data possano rappresentare una preziosa fonte di informazioni, esse devono essere utilizzate con le opportune cautele. Esiste infatti un problema connesso al campionamento. Nell’ambito degli small data il campione, oltre ad essere scelto per rispondere ad una specifica domanda di ricerca, è rappresentativo. Nel caso dei Big Data il campione, per quanto amplio, potrebbe essere non rappresentativo (self selected). Se si prendono tutti gli utenti che utilizzano Facebook per misurare qualche attributo della popolazione italiana, si è di fronte ad un campione non rappresentativo. Inoltre, i dati e le informazioni che le persone decidono di rilasciare attraverso i social sono filtrati dagli stessi utenti: le informazioni condivise sono una parziale rappresentazione dell’individuo e dei suoi comportamenti.  La narrazione e l’immagine che gli utenti vogliono dare di loro stessi potrebbe non corrispondere alla realtà. Un utente potrebbe decidere di postare una foto su Facebook mentre si trova ad un concerto lirico, ma potrebbe decidere di non postare una foto di se stesso in palestra alle 10 del mattino. Mentre la prima da’ un’immagine colta e raffinata, la seconda potrebbe fornire una immagine negativa.

A conclusione, è necessario evidenziare un elemento importante nell’ambito della analisi. I Big Data generalmente provengono da imprese private e come tali sono di proprietà delle stesse. Essi rappresentano spesso, per le imprese detentrici, la possibilità di avere informazioni che conferiscono loro un vantaggio competitivo. L’accesso ai dati da parte della comunità scientifica è spesso inibito. Occorre pertanto che gli Atenei concorrano a stipulare accordi con le imprese detentrici dei dati affinché gli studiosi possano, nel rispetto della normativa vigente, accedervi ed utilizzarli nei loro lavori.

Barbara Martini, Università di Roma “Tor Vergata”

 

Riferimenti bibliografici

Anderson C. (2008), The end of theory: the data deluge makes the scientific method obsolete, Wired, 23.

Body D., & Crawford K. (2012), Critical Questions for Big Data, Information Communication and Society, 15,5: 662-679.

Capello R. (2016), Regional Economics, NY: Routledge.

Einav L., & Levin J. D. (2013), The Data Revolution and Economic Analysis, NBER Working Paper, n. 19035.

Floridi L. (2012), Big Data and their Epistemiological Challenger, Philosopy and Technology, 25: 435-437.

Kitchin R. (2014), The Data Revolution, London: Sage.

Loverace L., Birkin M., Cross P., & Clarke M. (2016), From Big Noise to Big data: towards the verification of large data set for understanding regional retail flows, Geographical Analysis, 48, 59-81

 

Appendice

tabi_new

 

tab-ia_parte-prima_new

 

tab-ia_parte-seconda_new

 

 

 

 

 

tab-ii_new

 

 

 

 

 

 

 

 

 

tab-iia_new

Condividi questo contenuto
 
 
 
 
 
 

1 Comment

  • Complimenti per l’articolo; proprio ben fatto. Suggerisco all’autrice di mettersi in contatto con i responsabili della Rete Europea sul Mercato del Lavoro ENRLMM che da due anni ha un gruppo impegnato proprio sui BIG DATA e il mercato del lavoro, con importanti pubblicazioni al riguardo.Marco Ricceri, segr. gen. Eurispes
    Riferimenti
    Rand Sigrid
    Website: http://www.iwak-frankfurt.de
    Email: [email protected]
    Atin Videgain Eugenia
    PROSPEKTIKER
    Email: [email protected]

 
 

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *