Audience e Tweet: verso un modello predittivo più preciso

Con nuove variabili ed un modello più complesso si può prevedere l’audience di un talk show politico con Twitter?

Dopo aver scritto il post che presentava l’idea generale del modello predittivo dell’audience di un talk-show politico a partire dall’attività su Twitter (nel post anche il volume medio dei Tweet generati dagli hashtag ufficiali delle principali trasmissioni nella prima parte di stagione) mi è venuto in mente un modo semplice per migliorare significativamente le capacità predittive del modello.

Guardando l’audience delle 376 puntate prese in considerazione sembra piuttosto evidente che le variazioni nelle puntate di un singolo programma siano piuttosto contenute.

Audience Standard Deviation per Show

 

Questo significa che ogni talk-show ha un pubblico piuttosto affezionato ed abitudinario che produce un audience che non si differenzia molto di puntata in puntata. La trasmissione con la varianza maggiore è Omnibus (28% dell’audience media), quella con la minore varianza è ServizioPubblico (0.09%). 

Frazione di varianza per ShowQuesti dati ci danno un’idea di massima di quanto ogni trasmissione abbia un pubblico stabile di puntata in puntata (anche se va tenuto presente che la varianza, di solito, cresce al crescere dal numero di puntate trasmesse). Al di là del dettaglio sul singolo programma quello che conta è che l’audience non cambia molto di puntata in puntata. Questo significa che la media dell’audience delle puntate precedenti dovrebbe essere un buon predittore dell’audience della puntata futura. Infatti le performance di un modello di regressione lineare semplice basato sull’audience media come variabile indipendente vanta performance decisamente migliori di quelli testati in precedenza.

Residuals:
Min 1Q Median 3Q Max
-966867 -96515 -8538 84705 936133

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.305e-09 1.770e+04 0.00 1
showdata$avg_audience 1.000e+00 1.331e-02 75.16 —
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 221300 on 374 degrees of freedom
Multiple R-squared: 0.9379, Adjusted R-squared: 0.9377
F-statistic: 5648 on 1 and 374 DF, p-value: < 2.2e-16

A questo punto possiamo chiederci se l’aggiunta della variabile volume dei Tweet al minuto migliori le performance del modello ed infatti…

Residuals:
Min 1Q Median 3Q Max
-919587 -90990 -8523 82001 928457

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.557e+04 1.700e+04 0.916 0.36
showdata$avg_audience 9.141e-01 1.846e-02 49.512 < 2e-16 ***
showdata$tm 7.485e+03 1.172e+03 6.389 4.97e-10 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 210400 on 373 degrees of freedom
Multiple R-squared: 0.944, Adjusted R-squared: 0.9437
F-statistic: 3145 on 2 and 373 DF, p-value: < 2.2e-16

L’errore standard diminuisce da 221300 a 210400 e la percentuale di varianza spiegata dal modello sale dallo 0.93 allo 0.94%. La differenza fra i due modelli, ancorché contenuta è tuttavia significativa.

Analysis of Variance Table

Model 1: showdata$audience ~ showdata$avg_audience
Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm
Res.Df RSS Df Sum of Sq F Pr(>F)
1 374 1.8314e+13
2 373 1.6508e+13 1 1.8067e+12 40.823 4.972e-10 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

A questo punto rimane solo da fare un’ultima prova. Cosa accade inserendo nel modello anche la variabile networked_publics (ovvero il valore medio del rapporto fra volume di Tweet ed audience – cioè la percentuale di attività dell’audience) propria di ciascuna trasmissione?

Residuals:
Min 1Q Median 3Q Max
-884852 -85906 -29916 89933 893697

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.913e+04 1.938e+04 4.599 5.83e-06 ***
showdata$avg_audience 8.613e-01 1.910e-02 45.098 < 2e-16 ***
showdata$tm 1.501e+04 1.567e+03 9.579 < 2e-16 ***
showdata$networked_publics -9.494e+07 1.400e+07 -6.783 4.66e-11 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 198700 on 372 degrees of freedom
Multiple R-squared: 0.9502, Adjusted R-squared: 0.9498
F-statistic: 2365 on 3 and 372 DF, p-value: < 2.2e-16

Si ottiene un modello ancora più preciso caratterizzato da un errore standard di 198700 ed un Adjusted R-squared di 0.95. In pratica questo modello è in grado di prevedere l’audience di un talk show politico sulla base del volume dei Tweet prodotto dall’hashtag ufficiale della trasmissione con un margine di errore che inizia a diventare interessante e forse utile nella pratica.

L’analisi della varianza degli ultimi due modelli testati conferma che la differenza fra i modelli è statisticamente significativa

Analysis of Variance Table

Model 1: showdata$audience ~ showdata$avg_audience + showdata$tm
Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm + showdata$networked_publics
Res.Df RSS Df Sum of Sq F Pr(>F)
1 373 1.6508e+13
2 372 1.4691e+13 1 1.8168e+12 46.005 4.655e-11 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Adozione ed utilizzo dei social media negli atenei italiani

Oltre il 60% (+11% rispetto al 2011) delle homepage dei siti web degli atenei italiani linkano Facebook, Twitter, YouTube o un altro media sociale. Ma quale social media è più utilizzato? E quale ateneo utilizza al meglio queste presenze?

Anche quest’anno, con Alessandro Lovari, abbiamo analizzato le home page dei siti internet di tutti gli atenei italiani alla ricerca dei link agli spazi ufficiali sui social media. Da questi abbiamo raccolto tutti i dati disponibili attraverso le API delle diverse piattaforme e calcolato le performance dei diversi atenei sulle diverse piattaforme. Infine abbiamo calcolato il così detto University Social Media Performance Index (descritto brevemente qui e nel dettaglio qui).

I dati di maggiore interesse sono riassunti in questa info-grafica:

Ho anche aggiornato l’Osservatorio Università Italiane su Facebook con gli indirizzi di tutte le pagine rintracciate con la rilevazione 2012.

Come prevedere l'audience di un talk show politico con Twitter

Modello previsionale dell’audience di un talk show basato sull’analisi dell’attività su Twitter

…o almeno come provare a farlo.

Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai#agorarai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico.

Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter.

Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Valori medi per programma
Tab. 1. Valori medi per programma

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Scatterplot audience e Tweet al minuto
Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:
     Min       1Q   Median       3Q      Max
-2249545  -343077  -178238   441166  1837812
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   539764      36556   14.77
showdata$tm    49737       2206   22.55
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 578100 on 374 degrees of freedom
Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575
F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:
     Min       1Q   Median       3Q      Max
-2868842  -399567  -102448   375619  1722195
Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                    700355      35174   19.91
showdata$tm                     68615       2595   26.45
showdata$networked_publics -352324911   32458632  -10.86
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 504600 on 373 degrees of freedom
Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762
F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Scarti fra valori di audience previsti ed osservati nei due modelli
Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell’attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

 

…o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Valori medi per programma
Tab. 1. Valori medi per programma

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Scatterplot audience e Tweet al minuto
Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:
     Min       1Q   Median       3Q      Max
-2249545  -343077  -178238   441166  1837812
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   539764      36556   14.77
showdata$tm    49737       2206   22.55
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 578100 on 374 degrees of freedom
Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575
F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:
     Min       1Q   Median       3Q      Max
-2868842  -399567  -102448   375619  1722195
Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                    700355      35174   19.91
showdata$tm                     68615       2595   26.45
showdata$networked_publics -352324911   32458632  -10.86
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 504600 on 373 degrees of freedom
Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762
F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Scarti fra valori di audience previsti ed osservati nei due modelli
Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

...o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Valori medi per programma
Tab. 1. Valori medi per programma

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Scatterplot audience e Tweet al minuto
Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:
     Min       1Q   Median       3Q      Max
-2249545  -343077  -178238   441166  1837812
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   539764      36556   14.77
showdata$tm    49737       2206   22.55
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 578100 on 374 degrees of freedom
Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575
F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:
     Min       1Q   Median       3Q      Max
-2868842  -399567  -102448   375619  1722195
Coefficients:
                             Estimate Std. Error t value Pr(>|t|)
(Intercept)                    700355      35174   19.91
showdata$tm                     68615       2595   26.45
showdata$networked_publics -352324911   32458632  -10.86
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 504600 on 373 degrees of freedom
Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762
F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Scarti fra valori di audience previsti ed osservati nei due modelli
Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

Come trasformare i dataset di DiscoverText in formato YourTwapperKepper

Come trasformare in modo rapido un dataset dal formato di DiscoverText a quello di YourTwapperKeeper

Esistono ormai svariati strumenti che supportano il lavoro del ricercatore nel reperire ed analizzare i contenuti prodotti dagli utenti nei social media.
Personalmente uso DiscoverText per le funzionalità di analisi del contenuto multi-utente che offre. Questo strumento manca tuttavia, almeno nella sua versione Professional, di un tool di analisi quantitativo in grado di rispondere a semplici domande come l’andamento della conversazione nel tempo o il rapporto fra Tweet e RT in un dataset Twitter.
A questo scopo faccio di solito uso degli script realizzati nell’ambito del progetto Mapping Online Publics e resi disponibili gratuitamente da Axel Bruns.
Il problema è che questi script sono pensati per funzionare su dataset in formato YourTwapperKeeper.
Recentemente ho trovato un modo relativamente semplice per passare da un formato all’altro usando un software gratuito chiamato Google Refine (o Open Refine come si chiama ora) e vorrei condividerlo con la comunità in caso qualcuno si trovasse ad affrontare una esigenza analoga.
1. Scaricare il dataset in formato CSV da DiscoverText;
2. Importare il file in Google Refine;
3. Scegliere la codifica UTF8 e come separatore la virgola;
4. Scegliere li nome e procedere con la creazione del progetto;
5. Scegliere Undo/Redo e poi “Apply”;
6. Nella finestra che si apre incollare il contenuto di questo script e scegliere “Perform Operation”;
A questo punto il formato del dataset è quello di TYK. Potete procedere ad esportare il file in formato CSV ed utilizzarlo come input negli script di Axel.
 

Come rimanere aggiornati sui propri temi di ricerca

Uno strumento per rimanere aggiornati sui propri temi di ricerca

Come forse saprete l’agenzia nazionale per la valutazione ha di recente pubblicato una lista delle principali riviste scientifiche divise per disciplina. Questa lista mi ha fatto venire in mente la possibilità di creare uno strumento che consenta al ricercatore di sociologia (ma l’idea può facilmente essere adattata ad altre discipline) di rimanere sempre aggiornato sui propri temi di ricerca. Al momento questa lista comprendere per la sociologia (settori 14/C1-C2-D1) 155 riviste. Di queste 117 hanno un servizio di alert basato su RSS. Mancano purtroppo all’appello molte delle riviste italiane perché la maggior parte delle case editrici (ad esempio Il Mulino) non offre questo utile servizio. Potete dare un’occhiata all’elenco delle riviste incluse ed escluse a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGhpYUFYcW00cjAtTVlIZVYyNExHcWc&output=html. Lo strumento che ho creato consente di utilizzare fino a tre parole chiave per filtrare il flusso complessivo di tutti gli articoli pubblicati di recente. Per ciascuna parola chiave viene cercata una corrispondenza nel titolo o nell’abstract dell’articolo. Passano il filtro gli articoli che contengono almeno una parola chiave. Ora la cosa interessante è che Yahoo!Pipes offre il suo output in formato RSS. Il che significa che un ricercatore può abbonarsi ad un flusso filtrato di articoli che sarà aggiornato non appena un nuovo articolo che corrisponde ai criteri di ricerca sarà pubblicato. Vi faccio alcune esempi:

  • immigration, migration, immigrants restituisce 165 articoli [RSS];
  • facebook, twitter, youtube restituisce 7 articoli [RSS];
  • poverty, povertà, welfare restituisce 104 articoli [RSS].

Potete impostare liberamente i vostri filtri a http://pipes.yahoo.com/fabiogiglietto/0c6fa156dd5354990f466d1da48c0a47. Per chi non usa un lettore di feed RSS, alla voce more options, c’è anche la possibilità di ricevere i nuovi articoli via posta elettronica. Fatemi sapere cose ne pensate e se vi vengono in mente idee per migliorare lo strumento.

La singolarità è vicina: il film

dal volume The Singularity is Near…

Come forse saprete, è da ieri disponibile il film documentario tratto dal libro “The Singularity is Near” di Ray Kurzweil. Il film, non è nulla eccezionale né dal punto di vista della qualità della recitazione né dal punto di vista della sceneggiatura, solleva alcuni punti interessanti riguardo l’impatto sociale del potenziale avvento di intelligenze artificiali che superino le capacità della mente umana. Il pretesto è la storia di Ramona, un’entità artificiale che nel corso del film si confronta con diverse problematiche legate al riconoscimento sociale del proprio status di macchina cosciente. La storia è corredata da spezzoni di interviste nelle quali l’autore del volume si confronta con esperti di varia estrazione fra cui Sherry Turkle e Marvin Minsky.
Se non avete letto il libro potete dare un’occhiata a questo post che ho scritto tempo fa. Se decidete di imbarcarvi nella lettura sappiate che è disponibile dal 2008 una versione italiana del volume edita da Apogeo.
Invece il film può essere scaricato da qui al costo di $9.95 o $14.95 con i contenuti bonus (le interviste ai personaggi, un dietro le quinte ed un filmato intitolato Singularity in a Nuteshell). Il download è 930 Mb per il film e 2,45 Gb per i contenuti bonus.

Popolarità su Facebook e successo elettorale nelle amministrative 2012

Risultati e modelli di previsione elettorale con Facebook

Nel post precedente ho messo alla prova il modello sviluppato per le amministrative 2011 sui dati rilevati in questa tornata elettorale.
Vediamo come è andata.
Il modello ha funzionato nel 66,6% dei casi. Nello specifico il candidato con più Facebook Likes è risultato il più votato nel 41,6% dei casi (Catanzaro, Como, Genova, Lecce, Lucca, Monza, Palermo, Rieti, Taranto e Trani) ed è arrivato invece secondo nel 25% dei casi (Agrigento, Belluno, Brindisi, Cuneo, Gorizia e Pistoia).
Nel 2011 il modello aveva funzionato nell’82,1% dei casi (39,2%  primo e 42,86% secondo).
Nel 20,8% dei casi il modello ha previsto correttamente sia il candidato più votato che quello secondo classificato, ma in altrettanti casi il modello ha fallito completamente (in alcuni di questi casi non aveva alcuna chance visto che i candidati che hanno vinto non avevano una pagina Facebook).
L’indice di accuratezza della previsione è stato di 4,875 su 10. Nel 2011 questo indice ha fatto registrare performance simili (4,71).
Vediamo invece come è andata per quanto invece riguarda il secondo modello, il cui scopo è prevedere la percentuale di voti riportati da ciascun candidato.
Il margine di errore rilevato (candidate prediction gap) varia da un minimo di 0,07% ad un massimo di 70,54% (2011 CPG MIN: 0, MAX: 84,18).
Lo scarto medio fra le percentuali di voto e quelle di Likes è stato del -7,04% ovvero del 12,76% facendo la media dei valori assoluti degli scarti. Il primo valore è un indicatore di quanto la previsione sia sbilanciata in un senso o nell’altro (+ voti che like o + likes che voti), il secondo valore indica il margine di errore effettivo. Nel 2011 il CPG medio dei valori assoluti era 15,77% e l’ABS[CPG] -6,21%. Si tratta di margini di errori molto alti che rendono il modello così com’è poco utile dal punto di vista previsionale.
I 24 comuni capoluoghi con almeno due candidati con pagina Facebook avevano 5 e 16 candidati. Il 55,87% di questi candidati aveva una pagina Facebook che è stata monitorata nell’ambito di questo studio. Il margine medio di errore rilevato per comune ovvero ABS[Municipality Prediction Gap] è 15,24% con un massimo di scarto del 35,88% (Agrigento) ed un minimo del 4,70% (Genova). Nel 2011 l’ABS[MPG] rilevato fu 18,99% con un MIN di 5,09% ed un MAX di 51,99%.
Si conferma il rapporto fra ABS[MPG] e percentuale di candidati presenti con una pagina su Facebook rispetto al totale dei candidati. L’ABS[MPG] passa dal 24,78% dei comuni con meno del 33% di candidati su Facebook all’11,89% di quello dei comuni con oltre il 66% di candidati con pagina (nella categoria 34-66% l’ABS[MPG] è di 15,11%).
Confermato anche il rapporto fra dimensione della città (in termini di numero di elettori) e margine di errore. Nelle grandi città si ottengono previsioni più accurate che in quelle più piccole. Si passa infatti da un ABS[MPG] di 17,39% delle città con meno di 80000 elettori ad un ABS[MPG] intorno al 9% tanto per le città con un numero di elettori compreso fra 80000 e 200000 sia per quelle oltre i 200000.
Per quanto riguarda gli schieramenti si è proceduto a calcolare un Party Prediction Gap (PPG). Nel 2011 tutti gli schieramenti avevano ricevuto un maggiore consenso su Facebook, rispetto alle percentuali reali di voto, ma questa tendenza si faceva più evidente in rapporto ai partiti più estremi (sinistra PPG=-11,27% e destra PPG =-8,66%). Il partito invece meno sopravvalutato dal modello risultò il Centro Destra (PPG=-1,30%). Rispetto all’edizione 2011, sono stati aggiunti due nuovi schieramenti: Terzo Polo e Lega Nord. Il primo non esisteva nel 2011 ed il secondo era accorpato al risultato del Centro Destra. Proprio questi due nuovi schieramenti sono stati quelli più sottostimati dal modello Terzo Polo (PPG=4,58%) e Lega Nord (PPG=5,56%). La Destra è invece risultato lo schieramento più sopravvalutato nelle previsioni di Facebook (PPG=-18,71%).
Se dunque si conferma un maggiore attivismo online da parte dei supporter dei partiti più estremi, si evidenzia anche l’anomalia della Lega Nord. Accorpando infatti i dati della Lega Nord con quelli del Centro Destra, quest’ultimo torna ad essere fra gli schieramenti più sopravvalutati dal modello. Questi dati potrebbero far pensare ad un incidenza dei candidati (o meglio delle strategie e supporter) Lega Nord anche sul risultato del 2011. Quello che appare evidente è che le strategie di costruzione del consenso della Lega Nord (e forse la tipologia di elettori di questo partito) non sono passate, almeno in questa occasione, per Facebook.
Per il futuro intendo provare a perfezionare il modello basato sugli scarti prendendo in considerazione solo i voti ottenuti dai candidati effettivamente presenti con una pagina su Facebook e applicando dei correttivi basati sui risultati dei PPG dei diversi schieramenti. Inoltre vorrei capire quali variabili possono influenzare il margine di errore e l’indice di accuratezza in modo da costruire un indice di affidabilità delle previsione.
I dati sono disponibili in questo Google Spreadsheet.
Da oggi ho inoltre reso pubblicamente disponibile il working paper relativo allo studio del 2011: Giglietto, Fabio, If Likes Were Votes: An Empirical Study on the 2011 Italian Administrative Elections (January 16, 2012). Available at SSRN: http://ssrn.com/abstract=1982736. Una versione ridotta di questo articolo sarà pubblicata negli atti dell’ICWSM-12.

Previsioni Facebook sulle elezioni amministrative 2012

Secondo tentativo di previsione dei risultati elettorali con Facebook

Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine.  Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione. Gli elettori chiamati al voto 2012 nei 26 comuni capoluoghi sono in totale 2846168. Il rapporto con i like è dunque sceso dal 3,78% al 2,81% (un calo del 25,6% rispetto all’anno precedente).
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

Score
Most popular candidate on Facebook arrived second 3
Second most popular candidate on Facebook won 3
Second most popular candidate on Facebook arrived second 4
Most popular candidate on Facebook won 6

 
Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

  • l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
  • l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
  • Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
  • In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

  • Salvatore Pennica (Agrigento), scarsamente affidabile;
  • Corrado Parise (Alessandria), poco affidabile;
  • Mariangela Cotto (Asti), poco affidabile;
  • Jacopo Massaro (Belluno), scarsamente affidabile;
  • Mauro D’Attis (Brindisi), poco affidabile;
  • Salvatore Abrano (Catanzaro), poco affidabile;
  • Mario Lucini (Como), poco affidabile;
  • Gigi Garelli (Cuneo), poco affidabile;
  • Marco Doria (Genova), affidabile;
  • Giuseppe Cingolani (Gorizia), scarsamente affidabile;
  • Raffaele Mauro (Isernia), scarsamente affidabile;
  • Ettore Di Cesare (L’Aquila), scarsamente affidabile;
  • Massimiliano Mammì (La Spezia), scarsamente affidabile;
  • Paolo Perrone (Lecce), affidabile;
  • Alessandro Tambellini (Lucca), poco affidabile;
  • Roberto Scanagatti (Monza), poco affidabile;
  • Leoluca Orlando (Palermo), molto affidabile;
  • Roberto Ghiretti (Parma), poco affidabile;
  • Anna Maria Celesti (Pistoia), poco affidabile;
  • Simone Petriangeli (Rieti), scarsamente affidabile;
  • Ezio (Ippazio) Stefano (Taranto), poco affidabile;
  • Gigi Riserbato (Trani), scarsamente affidabile;
  • Sabrina Rocca (Trapani), poco affidabile;
  • Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine.  Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione.
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

Score
Most popular candidate on Facebook arrived second 3
Second most popular candidate on Facebook won 3
Second most popular candidate on Facebook arrived second 4
Most popular candidate on Facebook won 6

 
Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

  • l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
  • l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
  • Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
  • In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

  • Salvatore Pennica (Agrigento), scarsamente affidabile;
  • Corrado Parise (Alessandria), poco affidabile;
  • Mariangela Cotto (Asti), poco affidabile;
  • Jacopo Massaro (Belluno), scarsamente affidabile;
  • Mauro D’Attis (Brindisi), poco affidabile;
  • Salvatore Abrano (Catanzaro), poco affidabile;
  • Mario Lucini (Como), poco affidabile;
  • Gigi Garelli (Cuneo), poco affidabile;
  • Marco Doria (Genova), affidabile;
  • Giuseppe Cingolani (Gorizia), scarsamente affidabile;
  • Raffaele Mauro (Isernia), scarsamente affidabile;
  • Ettore Di Cesare (L’Aquila), scarsamente affidabile;
  • Massimiliano Mammì (La Spezia), scarsamente affidabile;
  • Paolo Perrone (Lecce), affidabile;
  • Alessandro Tambellini (Lucca), poco affidabile;
  • Roberto Scanagatti (Monza), poco affidabile;
  • Leoluca Orlando (Palermo), molto affidabile;
  • Roberto Ghiretti (Parma), poco affidabile;
  • Anna Maria Celesti (Pistoia), poco affidabile;
  • Simone Petriangeli (Rieti), scarsamente affidabile;
  • Ezio (Ippazio) Stefano (Taranto), poco affidabile;
  • Gigi Riserbato (Trani), scarsamente affidabile;
  • Sabrina Rocca (Trapani), poco affidabile;
  • Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine.  Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione.
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

Score
Most popular candidate on Facebook arrived second 3
Second most popular candidate on Facebook won 3
Second most popular candidate on Facebook arrived second 4
Most popular candidate on Facebook won 6

 
Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

  • l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
  • l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
  • Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
  • In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

  • Salvatore Pennica (Agrigento), scarsamente affidabile;
  • Corrado Parise (Alessandria), poco affidabile;
  • Mariangela Cotto (Asti), poco affidabile;
  • Jacopo Massaro (Belluno), scarsamente affidabile;
  • Mauro D’Attis (Brindisi), poco affidabile;
  • Salvatore Abrano (Catanzaro), poco affidabile;
  • Mario Lucini (Como), poco affidabile;
  • Gigi Garelli (Cuneo), poco affidabile;
  • Marco Doria (Genova), affidabile;
  • Giuseppe Cingolani (Gorizia), scarsamente affidabile;
  • Raffaele Mauro (Isernia), scarsamente affidabile;
  • Ettore Di Cesare (L’Aquila), scarsamente affidabile;
  • Massimiliano Mammì (La Spezia), scarsamente affidabile;
  • Paolo Perrone (Lecce), affidabile;
  • Alessandro Tambellini (Lucca), poco affidabile;
  • Roberto Scanagatti (Monza), poco affidabile;
  • Leoluca Orlando (Palermo), molto affidabile;
  • Roberto Ghiretti (Parma), poco affidabile;
  • Anna Maria Celesti (Pistoia), poco affidabile;
  • Simone Petriangeli (Rieti), scarsamente affidabile;
  • Ezio (Ippazio) Stefano (Taranto), poco affidabile;
  • Gigi Riserbato (Trani), scarsamente affidabile;
  • Sabrina Rocca (Trapani), poco affidabile;
  • Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.

Il Valore Reale del Denaro Virtuale. Dai giochi Online ai Mercati Valutari – Seconda Parte

Video: “Il valore reale del denaro virtuale. Dai giochi Online ai mercati valutari”. Seminario organizzato dal Dipartimento di Scienze di Base e Fondamenti dell’università degli Studi di di Urbino “Carlo Bo” in collaborazione con l’Associazione Culturale NeuNet. Su questo tema si sono confrontati Alessandro Bogliolo, Paolo Polidori, Fabio Giglietto e Francesca Stradini.

Ecco la seconda parte del seminario “Il valore reale del denaro virtuale. Dai giochi Online ai mercati valutari” organizzato dal Dipartimento di Scienze di Base e Fondamenti dell’università degli Studi di di Urbino “Carlo Bo” in collaborazione con  l’Associazione Culturale NeuNet.
Come avevamo fatto per la prima parte del seminario, proponiamo i diversi interventi in video separati in modo da permettere, a chi volesse, di guardarli un po’ per volta. Ogni singolo intervento, pur essendo collocato in un unico contesto, offre diverse sfaccettature del tema affrontato, per questo è importante dare il giusto rilievo ad ogni punto di vista. Le riflessioni e gli spunti emersi sono stati raccolti in un white paper (A. Bogliolo, F. Giglietto, P. Polidori, and F. Stradini, Il valore reale del denaro virtuale: dai giochi online ai mercati valutari, NeuNet white paper No. 12.001, 2012), scaricabile cliccando sul link.
Nei primi video pubblicati, dopo una breve introduzione, Alessandro Bogliolo e Paolo Polidori hanno affrontato rispettivamente da un lato le problematiche connesse al denaro virtuale dal punto di vista tecnologico,  informatico e applicativo e, dall’altro, gli aspetti della moneta virtuale vista come uno step nel processo evolutivo della moneta come sistema di scambio.
I video che pubblichiamo oggi completano il quadro delineato proponendo gli interventi di Fabio Giglietto e Francesca Stradini.
Fabio Giglietto esplora il denaro virtuale anche nel suo rapporto con i giochi online. In ambiente digitali il medium denaro viene riproposto e, per stimolarne la circolazione e il ricambio con il denaro reale viene simulata una condizione di scarsità di risorse. Le virtual currency, a seconda degli ambienti virtuali per cui sono create, presentano delle differenze e diverse implicazioni.
Se, da un lato, i giochi online generano denaro perché, ad esempio, per giocare è necessario e si è disposti a pagare; dall’altro generano un vero e proprio mercato del lavoro: c’è chi è disposto a pagare qualcun altro che giochi al suo posto pur di proseguire nel gioco. Per questo stanno nascendo dei nuovi imprenditori dall’altra parte del mondo che offrono questo servizio sfruttando operai/giocatori, i così detti gold farmers.

Il valore reale del denaro virtuale – Quarta Parte from Erica Reika on Vimeo.

L’intervento di Francesca Stradini (Diritto Tributario) si concentra sulla rilevanza fiscale delle transazioni online e problematizza le questioni fiscali che il denaro virtuale potrebbe far emergere.

Il valore reale del denaro virtuale – Quinta parte from Erica Reika on Vimeo.

Il video finale presenta il dibattito che apre a nuove prospettive da esplorare.

Il valore reale del denaro virtuale – Sesta Parte from Erica Reika on Vimeo.