Esiste una correlazione fra immatricolati e volume di ricerche su Google?

Uno studio empirico sui dati degli Atenei italiani

Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).