Audience e Tweet: verso un modello predittivo più preciso

Con nuove variabili ed un modello più complesso si può prevedere l’audience di un talk show politico con Twitter?

Dopo aver scritto il post che presentava l’idea generale del modello predittivo dell’audience di un talk-show politico a partire dall’attività su Twitter (nel post anche il volume medio dei Tweet generati dagli hashtag ufficiali delle principali trasmissioni nella prima parte di stagione) mi è venuto in mente un modo semplice per migliorare significativamente le capacità predittive del modello.

Guardando l’audience delle 376 puntate prese in considerazione sembra piuttosto evidente che le variazioni nelle puntate di un singolo programma siano piuttosto contenute.

Audience Standard Deviation per Show

 

Questo significa che ogni talk-show ha un pubblico piuttosto affezionato ed abitudinario che produce un audience che non si differenzia molto di puntata in puntata. La trasmissione con la varianza maggiore è Omnibus (28% dell’audience media), quella con la minore varianza è ServizioPubblico (0.09%). 

Frazione di varianza per ShowQuesti dati ci danno un’idea di massima di quanto ogni trasmissione abbia un pubblico stabile di puntata in puntata (anche se va tenuto presente che la varianza, di solito, cresce al crescere dal numero di puntate trasmesse). Al di là del dettaglio sul singolo programma quello che conta è che l’audience non cambia molto di puntata in puntata. Questo significa che la media dell’audience delle puntate precedenti dovrebbe essere un buon predittore dell’audience della puntata futura. Infatti le performance di un modello di regressione lineare semplice basato sull’audience media come variabile indipendente vanta performance decisamente migliori di quelli testati in precedenza.

Residuals:
Min 1Q Median 3Q Max
-966867 -96515 -8538 84705 936133

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.305e-09 1.770e+04 0.00 1
showdata$avg_audience 1.000e+00 1.331e-02 75.16 —
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 221300 on 374 degrees of freedom
Multiple R-squared: 0.9379, Adjusted R-squared: 0.9377
F-statistic: 5648 on 1 and 374 DF, p-value: < 2.2e-16

A questo punto possiamo chiederci se l’aggiunta della variabile volume dei Tweet al minuto migliori le performance del modello ed infatti…

Residuals:
Min 1Q Median 3Q Max
-919587 -90990 -8523 82001 928457

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.557e+04 1.700e+04 0.916 0.36
showdata$avg_audience 9.141e-01 1.846e-02 49.512 < 2e-16 ***
showdata$tm 7.485e+03 1.172e+03 6.389 4.97e-10 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 210400 on 373 degrees of freedom
Multiple R-squared: 0.944, Adjusted R-squared: 0.9437
F-statistic: 3145 on 2 and 373 DF, p-value: < 2.2e-16

L’errore standard diminuisce da 221300 a 210400 e la percentuale di varianza spiegata dal modello sale dallo 0.93 allo 0.94%. La differenza fra i due modelli, ancorché contenuta è tuttavia significativa.

Analysis of Variance Table

Model 1: showdata$audience ~ showdata$avg_audience
Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm
Res.Df RSS Df Sum of Sq F Pr(>F)
1 374 1.8314e+13
2 373 1.6508e+13 1 1.8067e+12 40.823 4.972e-10 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

A questo punto rimane solo da fare un’ultima prova. Cosa accade inserendo nel modello anche la variabile networked_publics (ovvero il valore medio del rapporto fra volume di Tweet ed audience – cioè la percentuale di attività dell’audience) propria di ciascuna trasmissione?

Residuals:
Min 1Q Median 3Q Max
-884852 -85906 -29916 89933 893697

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.913e+04 1.938e+04 4.599 5.83e-06 ***
showdata$avg_audience 8.613e-01 1.910e-02 45.098 < 2e-16 ***
showdata$tm 1.501e+04 1.567e+03 9.579 < 2e-16 ***
showdata$networked_publics -9.494e+07 1.400e+07 -6.783 4.66e-11 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 198700 on 372 degrees of freedom
Multiple R-squared: 0.9502, Adjusted R-squared: 0.9498
F-statistic: 2365 on 3 and 372 DF, p-value: < 2.2e-16

Si ottiene un modello ancora più preciso caratterizzato da un errore standard di 198700 ed un Adjusted R-squared di 0.95. In pratica questo modello è in grado di prevedere l’audience di un talk show politico sulla base del volume dei Tweet prodotto dall’hashtag ufficiale della trasmissione con un margine di errore che inizia a diventare interessante e forse utile nella pratica.

L’analisi della varianza degli ultimi due modelli testati conferma che la differenza fra i modelli è statisticamente significativa

Analysis of Variance Table

Model 1: showdata$audience ~ showdata$avg_audience + showdata$tm
Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm + showdata$networked_publics
Res.Df RSS Df Sum of Sq F Pr(>F)
1 373 1.6508e+13
2 372 1.4691e+13 1 1.8168e+12 46.005 4.655e-11 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Come prevedere l'audience di un talk show politico con Twitter

Modello previsionale dell’audience di un talk show basato sull’analisi dell’attività su Twitter

…o almeno come provare a farlo.

Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai#agorarai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico.

Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter.

Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Valori medi per programma
Tab. 1. Valori medi per programma

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Scatterplot audience e Tweet al minuto
Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:
     Min       1Q   Median       3Q      Max
-2249545  -343077  -178238   441166  1837812
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   539764      36556   14.77
showdata$tm    49737       2206   22.55
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 578100 on 374 degrees of freedom
Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575
F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:
     Min       1Q   Median       3Q      Max
-2868842  -399567  -102448   375619  1722195
Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                    700355      35174   19.91
showdata$tm                     68615       2595   26.45
showdata$networked_publics -352324911   32458632  -10.86
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 504600 on 373 degrees of freedom
Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762
F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Scarti fra valori di audience previsti ed osservati nei due modelli
Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell’attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

 

…o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Valori medi per programma
Tab. 1. Valori medi per programma

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Scatterplot audience e Tweet al minuto
Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:
     Min       1Q   Median       3Q      Max
-2249545  -343077  -178238   441166  1837812
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   539764      36556   14.77
showdata$tm    49737       2206   22.55
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 578100 on 374 degrees of freedom
Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575
F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:
     Min       1Q   Median       3Q      Max
-2868842  -399567  -102448   375619  1722195
Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                    700355      35174   19.91
showdata$tm                     68615       2595   26.45
showdata$networked_publics -352324911   32458632  -10.86
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 504600 on 373 degrees of freedom
Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762
F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Scarti fra valori di audience previsti ed osservati nei due modelli
Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

...o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Valori medi per programma
Tab. 1. Valori medi per programma

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Scatterplot audience e Tweet al minuto
Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:
     Min       1Q   Median       3Q      Max
-2249545  -343077  -178238   441166  1837812
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   539764      36556   14.77
showdata$tm    49737       2206   22.55
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 578100 on 374 degrees of freedom
Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575
F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:
     Min       1Q   Median       3Q      Max
-2868842  -399567  -102448   375619  1722195
Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                    700355      35174   19.91
showdata$tm                     68615       2595   26.45
showdata$networked_publics -352324911   32458632  -10.86
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 504600 on 373 degrees of freedom
Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762
F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Scarti fra valori di audience previsti ed osservati nei due modelli
Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

Popolarità su Facebook e successo elettorale nelle amministrative 2012

Risultati e modelli di previsione elettorale con Facebook

Nel post precedente ho messo alla prova il modello sviluppato per le amministrative 2011 sui dati rilevati in questa tornata elettorale.
Vediamo come è andata.
Il modello ha funzionato nel 66,6% dei casi. Nello specifico il candidato con più Facebook Likes è risultato il più votato nel 41,6% dei casi (Catanzaro, Como, Genova, Lecce, Lucca, Monza, Palermo, Rieti, Taranto e Trani) ed è arrivato invece secondo nel 25% dei casi (Agrigento, Belluno, Brindisi, Cuneo, Gorizia e Pistoia).
Nel 2011 il modello aveva funzionato nell’82,1% dei casi (39,2%  primo e 42,86% secondo).
Nel 20,8% dei casi il modello ha previsto correttamente sia il candidato più votato che quello secondo classificato, ma in altrettanti casi il modello ha fallito completamente (in alcuni di questi casi non aveva alcuna chance visto che i candidati che hanno vinto non avevano una pagina Facebook).
L’indice di accuratezza della previsione è stato di 4,875 su 10. Nel 2011 questo indice ha fatto registrare performance simili (4,71).
Vediamo invece come è andata per quanto invece riguarda il secondo modello, il cui scopo è prevedere la percentuale di voti riportati da ciascun candidato.
Il margine di errore rilevato (candidate prediction gap) varia da un minimo di 0,07% ad un massimo di 70,54% (2011 CPG MIN: 0, MAX: 84,18).
Lo scarto medio fra le percentuali di voto e quelle di Likes è stato del -7,04% ovvero del 12,76% facendo la media dei valori assoluti degli scarti. Il primo valore è un indicatore di quanto la previsione sia sbilanciata in un senso o nell’altro (+ voti che like o + likes che voti), il secondo valore indica il margine di errore effettivo. Nel 2011 il CPG medio dei valori assoluti era 15,77% e l’ABS[CPG] -6,21%. Si tratta di margini di errori molto alti che rendono il modello così com’è poco utile dal punto di vista previsionale.
I 24 comuni capoluoghi con almeno due candidati con pagina Facebook avevano 5 e 16 candidati. Il 55,87% di questi candidati aveva una pagina Facebook che è stata monitorata nell’ambito di questo studio. Il margine medio di errore rilevato per comune ovvero ABS[Municipality Prediction Gap] è 15,24% con un massimo di scarto del 35,88% (Agrigento) ed un minimo del 4,70% (Genova). Nel 2011 l’ABS[MPG] rilevato fu 18,99% con un MIN di 5,09% ed un MAX di 51,99%.
Si conferma il rapporto fra ABS[MPG] e percentuale di candidati presenti con una pagina su Facebook rispetto al totale dei candidati. L’ABS[MPG] passa dal 24,78% dei comuni con meno del 33% di candidati su Facebook all’11,89% di quello dei comuni con oltre il 66% di candidati con pagina (nella categoria 34-66% l’ABS[MPG] è di 15,11%).
Confermato anche il rapporto fra dimensione della città (in termini di numero di elettori) e margine di errore. Nelle grandi città si ottengono previsioni più accurate che in quelle più piccole. Si passa infatti da un ABS[MPG] di 17,39% delle città con meno di 80000 elettori ad un ABS[MPG] intorno al 9% tanto per le città con un numero di elettori compreso fra 80000 e 200000 sia per quelle oltre i 200000.
Per quanto riguarda gli schieramenti si è proceduto a calcolare un Party Prediction Gap (PPG). Nel 2011 tutti gli schieramenti avevano ricevuto un maggiore consenso su Facebook, rispetto alle percentuali reali di voto, ma questa tendenza si faceva più evidente in rapporto ai partiti più estremi (sinistra PPG=-11,27% e destra PPG =-8,66%). Il partito invece meno sopravvalutato dal modello risultò il Centro Destra (PPG=-1,30%). Rispetto all’edizione 2011, sono stati aggiunti due nuovi schieramenti: Terzo Polo e Lega Nord. Il primo non esisteva nel 2011 ed il secondo era accorpato al risultato del Centro Destra. Proprio questi due nuovi schieramenti sono stati quelli più sottostimati dal modello Terzo Polo (PPG=4,58%) e Lega Nord (PPG=5,56%). La Destra è invece risultato lo schieramento più sopravvalutato nelle previsioni di Facebook (PPG=-18,71%).
Se dunque si conferma un maggiore attivismo online da parte dei supporter dei partiti più estremi, si evidenzia anche l’anomalia della Lega Nord. Accorpando infatti i dati della Lega Nord con quelli del Centro Destra, quest’ultimo torna ad essere fra gli schieramenti più sopravvalutati dal modello. Questi dati potrebbero far pensare ad un incidenza dei candidati (o meglio delle strategie e supporter) Lega Nord anche sul risultato del 2011. Quello che appare evidente è che le strategie di costruzione del consenso della Lega Nord (e forse la tipologia di elettori di questo partito) non sono passate, almeno in questa occasione, per Facebook.
Per il futuro intendo provare a perfezionare il modello basato sugli scarti prendendo in considerazione solo i voti ottenuti dai candidati effettivamente presenti con una pagina su Facebook e applicando dei correttivi basati sui risultati dei PPG dei diversi schieramenti. Inoltre vorrei capire quali variabili possono influenzare il margine di errore e l’indice di accuratezza in modo da costruire un indice di affidabilità delle previsione.
I dati sono disponibili in questo Google Spreadsheet.
Da oggi ho inoltre reso pubblicamente disponibile il working paper relativo allo studio del 2011: Giglietto, Fabio, If Likes Were Votes: An Empirical Study on the 2011 Italian Administrative Elections (January 16, 2012). Available at SSRN: http://ssrn.com/abstract=1982736. Una versione ridotta di questo articolo sarà pubblicata negli atti dell’ICWSM-12.

Previsioni Facebook sulle elezioni amministrative 2012

Secondo tentativo di previsione dei risultati elettorali con Facebook

Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine.  Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione. Gli elettori chiamati al voto 2012 nei 26 comuni capoluoghi sono in totale 2846168. Il rapporto con i like è dunque sceso dal 3,78% al 2,81% (un calo del 25,6% rispetto all’anno precedente).
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

Score
Most popular candidate on Facebook arrived second 3
Second most popular candidate on Facebook won 3
Second most popular candidate on Facebook arrived second 4
Most popular candidate on Facebook won 6

 
Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

  • l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
  • l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
  • Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
  • In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

  • Salvatore Pennica (Agrigento), scarsamente affidabile;
  • Corrado Parise (Alessandria), poco affidabile;
  • Mariangela Cotto (Asti), poco affidabile;
  • Jacopo Massaro (Belluno), scarsamente affidabile;
  • Mauro D’Attis (Brindisi), poco affidabile;
  • Salvatore Abrano (Catanzaro), poco affidabile;
  • Mario Lucini (Como), poco affidabile;
  • Gigi Garelli (Cuneo), poco affidabile;
  • Marco Doria (Genova), affidabile;
  • Giuseppe Cingolani (Gorizia), scarsamente affidabile;
  • Raffaele Mauro (Isernia), scarsamente affidabile;
  • Ettore Di Cesare (L’Aquila), scarsamente affidabile;
  • Massimiliano Mammì (La Spezia), scarsamente affidabile;
  • Paolo Perrone (Lecce), affidabile;
  • Alessandro Tambellini (Lucca), poco affidabile;
  • Roberto Scanagatti (Monza), poco affidabile;
  • Leoluca Orlando (Palermo), molto affidabile;
  • Roberto Ghiretti (Parma), poco affidabile;
  • Anna Maria Celesti (Pistoia), poco affidabile;
  • Simone Petriangeli (Rieti), scarsamente affidabile;
  • Ezio (Ippazio) Stefano (Taranto), poco affidabile;
  • Gigi Riserbato (Trani), scarsamente affidabile;
  • Sabrina Rocca (Trapani), poco affidabile;
  • Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine.  Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione.
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

Score
Most popular candidate on Facebook arrived second 3
Second most popular candidate on Facebook won 3
Second most popular candidate on Facebook arrived second 4
Most popular candidate on Facebook won 6

 
Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

  • l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
  • l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
  • Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
  • In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

  • Salvatore Pennica (Agrigento), scarsamente affidabile;
  • Corrado Parise (Alessandria), poco affidabile;
  • Mariangela Cotto (Asti), poco affidabile;
  • Jacopo Massaro (Belluno), scarsamente affidabile;
  • Mauro D’Attis (Brindisi), poco affidabile;
  • Salvatore Abrano (Catanzaro), poco affidabile;
  • Mario Lucini (Como), poco affidabile;
  • Gigi Garelli (Cuneo), poco affidabile;
  • Marco Doria (Genova), affidabile;
  • Giuseppe Cingolani (Gorizia), scarsamente affidabile;
  • Raffaele Mauro (Isernia), scarsamente affidabile;
  • Ettore Di Cesare (L’Aquila), scarsamente affidabile;
  • Massimiliano Mammì (La Spezia), scarsamente affidabile;
  • Paolo Perrone (Lecce), affidabile;
  • Alessandro Tambellini (Lucca), poco affidabile;
  • Roberto Scanagatti (Monza), poco affidabile;
  • Leoluca Orlando (Palermo), molto affidabile;
  • Roberto Ghiretti (Parma), poco affidabile;
  • Anna Maria Celesti (Pistoia), poco affidabile;
  • Simone Petriangeli (Rieti), scarsamente affidabile;
  • Ezio (Ippazio) Stefano (Taranto), poco affidabile;
  • Gigi Riserbato (Trani), scarsamente affidabile;
  • Sabrina Rocca (Trapani), poco affidabile;
  • Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine.  Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione.
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

Score
Most popular candidate on Facebook arrived second 3
Second most popular candidate on Facebook won 3
Second most popular candidate on Facebook arrived second 4
Most popular candidate on Facebook won 6

 
Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

  • l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
  • l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
  • Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
  • In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

  • Salvatore Pennica (Agrigento), scarsamente affidabile;
  • Corrado Parise (Alessandria), poco affidabile;
  • Mariangela Cotto (Asti), poco affidabile;
  • Jacopo Massaro (Belluno), scarsamente affidabile;
  • Mauro D’Attis (Brindisi), poco affidabile;
  • Salvatore Abrano (Catanzaro), poco affidabile;
  • Mario Lucini (Como), poco affidabile;
  • Gigi Garelli (Cuneo), poco affidabile;
  • Marco Doria (Genova), affidabile;
  • Giuseppe Cingolani (Gorizia), scarsamente affidabile;
  • Raffaele Mauro (Isernia), scarsamente affidabile;
  • Ettore Di Cesare (L’Aquila), scarsamente affidabile;
  • Massimiliano Mammì (La Spezia), scarsamente affidabile;
  • Paolo Perrone (Lecce), affidabile;
  • Alessandro Tambellini (Lucca), poco affidabile;
  • Roberto Scanagatti (Monza), poco affidabile;
  • Leoluca Orlando (Palermo), molto affidabile;
  • Roberto Ghiretti (Parma), poco affidabile;
  • Anna Maria Celesti (Pistoia), poco affidabile;
  • Simone Petriangeli (Rieti), scarsamente affidabile;
  • Ezio (Ippazio) Stefano (Taranto), poco affidabile;
  • Gigi Riserbato (Trani), scarsamente affidabile;
  • Sabrina Rocca (Trapani), poco affidabile;
  • Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.

Esiste una correlazione fra immatricolati e volume di ricerche su Google?

Uno studio empirico sui dati degli Atenei italiani

Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 

L'agenda dei media e quella dei cittadini

Esiste una discrasia fra l’agenda scelta dai professionisti dell’informazione e gli interessi dei cittadini?

Talvolta si ha la sensazione che l’ordine di importanza delle notizie scelto dai professionisti dell’informazione non corrisponda a quello che, se potessero, sceglierebbero i cittadini. Si tratta poco più di una sensazione perché non vi è alcuno strumento preciso per conoscere in tempi utili le opinioni dei cittadini e confrontarle con le scelte fatte dai professionisti dell’informazione. Ma le cose cambiano in fretta…
Oggi i siti dei principali quotidiani e mezzi di informazione italiani consentono di apprezzare con un Like e/o condividere/consigliare ogni articolo pubblicato. Google News aggrega automaticamente (secondo un algoritmo ignoto) e rilascia in formato RSS i link alle notizie del giorno. Facebook consente di interrogare Open Graph per un dato indirizzo e conoscere quante volte quell’articolo è stato condiviso/consigliato/commentato e quanti Like ha ricevuto.
Ho deciso dunque di provare a mettere insieme i pezzi importando il feed RSS di Google News dentro un Google Spreadsheet (usando la funzione ImportFeed) e creando una classifica di questi articoli ordinandoli in base al numero di condivisione, like e commenti ricevuti.
Ecco il risultato (il foglio si aggiorna ogni ora circa):

Potete divertirvi a confrontarlo con le pagine dei principali quotidiani.
L’idea è quella di perfezionare questo sistema archiviando periodicamente i risultati del foglio di calcolo e le home page dei principali quotidiani italiani per consentire un raffronto delle due agende nel tempo.
Su un piano di riflessione più generale va detto che l’identificazione di eventuali discrasie fra l’agenda dei professionisti dell’informazione e agenda dei cittadini andrebbe interpretata. Il dato andrebbe letto in modo longitudinale cercando di capire se la discrasia sia determinata dal fatto che l’agenda dei cittadini segue quella dei professionisti dell’informazione. Se così fosse dovrebbe comunque emergere dai dati. In teoria o in casi specifici potrebbe avvenire anche il contrario. Ovvero una grossa attenzione dei cittadini verso un certo tema potrebbe spingere i professionisti a dedicare a questo tema maggiore spazio. Anche in questo caso i dati potrebbero dare indicazioni utili anche se l’elenco degli articoli è generato a partire dall’agenda dei professionisti e dunque il fenomeno di temi provenienti dall’agenda dei cittadini potrebbe essere talvolta invisibile.
Alcune limiti e cose da fare:
1. Il feed RSS di Google News è aggregato attraverso un algoritmo sconosciuto e composto da link a fonti eterogenee. Alcune molto popolari ed altre meno. La classifica è influenzata da queste scelte e sarebbe opportuno trovare un modo per utilizzare solo gli articoli delle principali testate (si potrebbe ad esempio usare, aggregandoli con una Yahoo! Pipe direttamente i feed di Repubblica, il Corriere, etc.);
2. Lo script di Google Spreadsheet che controlla i like, etc è basato sulle REST api che sono state deprecate in favore di Open Graph;
3. Bisognerebbe trovare un modo per archiviare il flusso di contenuti ed i dati evitando che si perda lo storico.
Cosa ne pensate? Suggerimenti, idee?

Le performance degli schieramenti politici su Facebook

Quanto e come la popolarità Facebook di un candidato appartenente ad un certo schieramento politico si riflette nelle percentuali di voto valido?

Dopo aver visto gli scostamenti per comune, prosegue l’analisi dei dati raccolti durante il primo turno delle elezioni amministrative del 15 e 16 Maggio. Questa volta abbiamo analizzato gli scostamenti per schieramento. Per farlo abbiamo operato una semplificazione dello scenario creando sette categorie (destra, centro-destra, centro, centro-sinistra, sinistra, movimento 5 stelle e altri) ed assegnano ciascun candidato sindaco ad uno di questi schieramenti.
Il risultato è riassunto in questo grafico:

In generale le percentuali di Facebook mostrano uno scostamento negativo rispetto a quelle ottenute dai candidati alle elezioni (percentuali più alte di Likes che di voti reali). Si tratta di un risultato fisiologico influenzato dall’assenza di molti candidati nella competizione su Facebook (candidati cioè che non hanno una loro pagina Facebook). Riducendosi il numero di competitors si alzano le percentuali medie.
Lo scarto medio fra Likes e voti è del -5% (in valore assoluto +/- 7%).
Emergono tuttavia altre due interessanti considerazioni:

  1. L’unico schieramento che ottiene un risultato in contro-tendenza è il centro-destra che fa registrare uno scostamento positivo del +8%. Lascio ai politologi l’interpretazione di questo dato che potrebbe essere influenzato dalle diverse strategie di campagna adottate dal centro-destra o dalle variabili strutturali che caratterizzano la popolazione di Facebook in Italia;
  2. Le forze estreme fanno registrare scostamenti maggiori rispetto alle forze più moderate. Gli otto candidati del centro (tutti riconducibili al terzo polo) fanno infatti registrare uno scostamento del -0,87%. Destra e Sinistra si attestano invece rispettivamente a -9% e -10%. Rilevante anche lo scostamento delle liste civiche (-15%) trainate con tutta probabilità dalla notorietà dei personaggi candidati.

I dati disaggregati per candidato sono consultabili in questo foglio del Google Spreadsheet di lavoro.
Contare i Mi Piace si è rivelato un esercizio interessante ed istruttivo. Gli indicatori costruiti si sono rivelati più accurati di quanto non si potesse pensare inizialmente. Ovviamente nessuno ipotizza un rapporto di causa-effetto fra popolarità su Facebook di un candidato e risultato elettorale. Si tratta di variabili indipendenti il cui andamento mostra tuttavia delle interessanti similitudini.
Siamo tuttavia consapevoli del fatto che parte dei Likes/Mi Piace di un candidato potrebbero essere rappresentati da detrattori e non da supporter di quel candidato. Per postare contenuti e commenti in una pagina è infatti necessario cliccare preventivamente sul bottone Mi Piace. Una interessante analisi su questo è stata pubblicata oggi su FriendFeed da Gianandrea di BuzzDetector. L’analisi mostra bene le evidenti differenze di comportamento degli utenti della pagina Facebook di Letizia Moratti e di Giuliano Pisapia.
Per questo motivo, durante la campagna elettorale, abbiamo inoltre raccolto tutti i contenuti (post e commenti) delle pagine Facebook dei candidati più popolari nella maggiori città. Abbiamo iniziato l’analisi di questi dati ma ci vorrà del tempo per vedere i risultati.
Per rimanere aggiornati su questo e altri progetti fai Like qui:

Nota metodologica: per calcolare gli scostamenti per schieramento abbiamo eliminato le città dove era presente su Facebook un solo candidato (Olbia e Ravenna).

8 volte su 10 vince o arriva secondo il candidato più popolare su Facebook

Una analisi dell’impatto di Facebook sul voto delle amministrative 2011

Questo post è il terzo di una serie dedicata all’analisi del voto delle elezioni amministrative 2011.
A partire dal 25 Aprile 2011 abbiamo raccolto il numero di Likes o Mi Piace riportati su ciascuna pagina Facebook dei candidati sindaco nei 29 comuni capoluogo di provincia dove si è votato il 15 e 16 Maggio. Di questi 29 comuni solo 1 non aveva candidati con pagine Facebook. La metodologia di raccolta dati è descritta nel post “Predire il risultato elettorale con Facebook?”. I grafici con gli scostamenti riportati nella quattro principali città sono pubblicati da qualche giorno sulla pagina del progetto nel sito LaRiCA. Gli scarti sono stati calcolati mettendo a confronto le percentuali di Likes riportate da ciascun candidato (fatto cento il numero totale di Likes riportato da tutte le pagine Facebook dei candidati di un dato comune. Ovviamente non tutti i candidati erano presenti su Facebook con una propria pagina) e la percentuale di voti validi ottenuti (dati del sito del Ministero degli Interni e della Regione Friuli Venezia Giulia per Trieste).
Come prevedibile lo scarto medio è alto. La percentuale di consenso su Facebook si scosta in media del +/-22% rispetto al risultato reale. Il comune che ha fatto registrare lo scarto medio più basso è Bologna con un +/-7,27%.  Sette comuni hanno fatto registrare scarti inferiori al +/-10%: oltre alla già citata Bologna ci sono anche Cagliari, Cosenza, Napoli, Salerno, Siena e Torino. In generale lo scarto sembra diminuire al crescere dei candidati sindaco presenti con una loro pagina Facebook. In altre parole maggiore è il numero di candidati presenti su Facebook in un dato comune, maggiore sarà l’accuratezza della previsione per quel comune (ad esempio a Salerno 5 su 6 candidati avevano una loro pagina e lo scarto medio è del 9% ). Stiamo lavorando sull’analisi di ogni singolo candidato e schieramento di appartenenza per verificare se gli scarti sono correlati all’appartenenza ad una certa area politica (maggiori dettagli su questo in un successivo post).
Nel 39% dei casi il candidato che era primo su Facebook ha effettivamente vinto le elezioni raccogliendo il maggior numero di voti. Nel 43% dei casi il candidato risultato primo su Facebook è invece arrivato secondo alle elezioni. In altre parole il candidato sindaco che raccoglie il maggior consenso su Facebook ha oltre l’80% di possibilità di diventare sindaco o di arrivare secondo nella competizione elettorale.
Nel 21% dei casi il candidato secondo classificato su Facebook ha vinto la competizione elettorale e nel 10% dei casi il candidato secondo classificato su Facebook si è effettivamente piazzato secondo.
Per ottenere un indice sintetico dell’affidabilità della previsione di Facebook ho inoltre calcolato un punteggio per ciascun comune attribuendo 6 punti in caso il candidato primo su Facebook sia realmente arrivato primo, 4 in caso il candidato secondo sia realmente arrivato secondo e 3 se il candidato primo è arrivato in realtà secondo o il secondo primo.
In due casi (Siena e Salerno) su 29 (7%) la previsione di Facebook si è rivelata totalmente accurata con sia il primo che il secondo classificato piazzatisi rispettivamente primo e secondo nelle elezioni. In 3 casi (Carbonia, Rimini e Rovigo) il punteggio totalizzato è stato 0 (ovvero previsione totalmente sbagliata). Il punteggio medio è 4,7.
I dati, come al solito, sono disponibili in questo foglio del google spreadsheet.

Se i likes fossero voti

Come finirebbero le elezioni nelle quattro principali città italiane chiamate al voto se a contare fossero i Likes su Facebook?

Da quando sono state annunciate le candidature a sindaco per le amministrative del 15 e 16 Maggio stiamo raccogliendo con il LaRiCA i dati sul numero di Likes ricevuti dalle pagine Facebook dei candidati.
Lo scopo del progetto è descritto nel post Predire il risultato elettorale su Facebook?
Ho provato a vedere come andrebbero le cose se i Likes fossero voti (ovvero calcolando la percentuale di Likes ricevuti da ogni candidato sul totale dei Likes ricevuti da tutti i candidati di quel comune).
Ecco come andrebbe nelle quattro maggiori città:

[visualizza il grafico interattivo]

[visualizza il grafico interattivo]

[visualizza il grafico interattivo]

[visualizza il grafico interattivo]
N.B. Il Like, a differenza del voto, può essere espresso per più di un candiadato.

Predire il risultato elettorale con Facebook?

Esiste una correlazione fra la popolarità di una pagina Facebook ed il risultato elettorale di un candidato?

Subito dopo le elezioni politiche americane del 2010, il team politico di Facebook rilasciò una nota che metteva in evidenza come su un campione di 98 competizioni elettorali per il seggio della camera e 34 per quello del senato, rispettivamente nel 74% dei casi e nell’82% dei casi è risultato eletto il candidato che aveva un numero maggiore di fan (oggi Likes) sulla pagina Facebook ufficiale.
Un successivo breve studio realizzato da Trilogy Interactive ha provato a verificare questa ipotesi cercando una semplice correlazione statistica lineare fra il margine di scarto fra il primo ed il secondo candidato alle elezioni ed il margine di scarto fra il candidato più popolare su Facebook ed il secondo classificato. Le conclusioni di questo studio non confermano l’esistenza di una correlazione, ma evidenzia la necessità di altri studi basati su contesti diversi.
Da qui l’idea di raccogliere i dati relativi alle elezioni amministrative del 15 e 16 Maggio 2011. In questa tornata elettorale saranno rinnovate le amministrazioni comunale di oltre tremila comuni, diverse province ed una regione. Si tratta dunque di un test elettorale significativo dal punto di vista politico ma anche di una buona e diversificata base dati.
Per lo studio che abbiamo in mente sarebbe stato particolarmente interessante disporre di tutti i dati, ma per limiti di risorse che possiamo dedicare al progetto abbiamo deciso di limitare, almeno inizialmente, la nostra attenzione alle città capoluogo di provincia con oltre 100.000 abitanti. Questa scelta consente di concentrare l’attenzione sulle principali competizioni (Milano, Torino, Napoli, Bologna, etc.) ma rende i risultati dello studio difficilmente generalizzabili a realtà più piccole.
Per raccogliere i dati abbiamo deciso di utilizzare questo Google Spreadsheet. I dati relativi ai Likes delle pagine Facebook si aggiornano automaticamente grazie ad uno script (FacebookPageLikes) che ho realizzato modificando un esempio simile (Facebook Like Counter realizzato da Martin Hassman, http://twitter.com/hassmanm) già presente nella libreria degli script di Google Spreadsheet.
Il foglio di calcolo di aggiorna automaticamente ad ogni accesso e salva un archivio dei risultati dai quali sarà possibile visualizzare i trend.
Nell’attesa del risultato elettorale e degli esisti dello studio potete dare uno sguardo all’andamento delle diverse competizioni su Facebook in questa pagina del sito LaRiCA.