serviziopubblico

Dopo aver scritto il post che presentava l’idea generale del modello predittivo dell’audience di un talk-show politico a partire dall’attività su Twitter (nel post anche il volume medio dei Tweet generati dagli hashtag ufficiali delle principali trasmissioni nella prima parte di stagione) mi è venuto in mente un modo semplice per migliorare significativamente le capacità predittive del modello.

Guardando l’audience delle 376 puntate prese in considerazione sembra piuttosto evidente che le variazioni nelle puntate di un singolo programma siano piuttosto contenute.

Questo significa che ogni talk-show ha un pubblico piuttosto affezionato ed abitudinario che produce un audience che non si differenzia molto di puntata in puntata. La trasmissione con la varianza maggiore è Omnibus (28% dell’audience media), quella con la minore varianza è ServizioPubblico (0.09%).

Questi dati ci danno un’idea di massima di quanto ogni trasmissione abbia un pubblico stabile di puntata in puntata (anche se va tenuto presente che la varianza, di solito, cresce al crescere dal numero di puntate trasmesse). Al di là del dettaglio sul singolo programma quello che conta è che l’audience non cambia molto di puntata in puntata. Questo significa che la media dell’audience delle puntate precedenti dovrebbe essere un buon predittore dell’audience della puntata futura. Infatti le performance di un modello di regressione lineare semplice basato sull’audience media come variabile indipendente vanta performance decisamente migliori di quelli testati in precedenza.

Residuals:
Min 1Q Median 3Q Max
-966867 -96515 -8538 84705 936133

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.305e-09 1.770e+04 0.00 1
showdata$avg_audience 1.000e+00 1.331e-02 75.16 —
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 221300 on 374 degrees of freedom
Multiple R-squared: 0.9379, Adjusted R-squared: 0.9377
F-statistic: 5648 on 1 and 374 DF, p-value: < 2.2e-16

A questo punto possiamo chiederci se l’aggiunta della variabile volume dei Tweet al minuto migliori le performance del modello ed infatti…

Residuals:
Min 1Q Median 3Q Max
-919587 -90990 -8523 82001 928457

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.557e+04 1.700e+04 0.916 0.36
showdata$avg_audience 9.141e-01 1.846e-02 49.512 < 2e-16 ***
showdata$tm 7.485e+03 1.172e+03 6.389 4.97e-10 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 210400 on 373 degrees of freedom
Multiple R-squared: 0.944, Adjusted R-squared: 0.9437
F-statistic: 3145 on 2 and 373 DF, p-value: < 2.2e-16

L’errore standard diminuisce da 221300 a 210400 e la percentuale di varianza spiegata dal modello sale dallo 0.93 allo 0.94%. La differenza fra i due modelli, ancorché contenuta è tuttavia significativa.

Analysis of Variance Table

Model 1: showdata$audience ~ showdata$avg_audience
Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm
Res.Df RSS Df Sum of Sq F Pr(>F)
1 374 1.8314e+13
2 373 1.6508e+13 1 1.8067e+12 40.823 4.972e-10 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

A questo punto rimane solo da fare un’ultima prova. Cosa accade inserendo nel modello anche la variabile networked_publics (ovvero il valore medio del rapporto fra volume di Tweet ed audience – cioè la percentuale di attività dell’audience) propria di ciascuna trasmissione?

Residuals:
Min 1Q Median 3Q Max
-884852 -85906 -29916 89933 893697

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.913e+04 1.938e+04 4.599 5.83e-06 ***
showdata$avg_audience 8.613e-01 1.910e-02 45.098 < 2e-16 ***
showdata$tm 1.501e+04 1.567e+03 9.579 < 2e-16 ***
showdata$networked_publics -9.494e+07 1.400e+07 -6.783 4.66e-11 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 198700 on 372 degrees of freedom
Multiple R-squared: 0.9502, Adjusted R-squared: 0.9498
F-statistic: 2365 on 3 and 372 DF, p-value: < 2.2e-16

Si ottiene un modello ancora più preciso caratterizzato da un errore standard di 198700 ed un Adjusted R-squared di 0.95. In pratica questo modello è in grado di prevedere l’audience di un talk show politico sulla base del volume dei Tweet prodotto dall’hashtag ufficiale della trasmissione con un margine di errore che inizia a diventare interessante e forse utile nella pratica.

L’analisi della varianza degli ultimi due modelli testati conferma che la differenza fra i modelli è statisticamente significativa

Analysis of Variance Table

Model 1: showdata$audience ~ showdata$avg_audience + showdata$tm
Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm + showdata$networked_publics
Res.Df RSS Df Sum of Sq F Pr(>F)
1 373 1.6508e+13
2 372 1.4691e+13 1 1.8168e+12 46.005 4.655e-11 ***
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

…o almeno come provare a farlo.

Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: ~~#agorai~~#agorarai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico.

Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter.

Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Come si può vedere ci sono tre trasmissioni che si contendono la palma della più discussa in rete: ServizioPubblico, PiazzaPulita e Ballarò. Quest’ultima è invece di gran lunga la trasmissione più seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarità della trasmissione (che a sua volta può dipendere dall’orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all’average audience engagement PiazzaPulita risulta essere la trasmissione con l’audience più attiva, mentre è nuovamente ServizioPubblico a far registrare il valore più alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed è andata in onda il 18 Dicembre (ospite Silvio Berlusconi).

A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l’audience di una puntata sulla base del volume di attività su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.

Fig. 1. Scatterplot audience e Tweet al minuto

Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l’audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.

Residuals:

     Min       1Q   Median       3Q      Max

-2249545  -343077  -178238   441166  1837812

Coefficients:

            Estimate Std. Error t value Pr(>|t|)

(Intercept)   539764      36556   14.77

showdata$tm    49737       2206   22.55

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 578100 on 374 degrees of freedom

Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575

F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Il modello non brilla particolarmente per capacità predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non è cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, università o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l’hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non può non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l’average audience engagement come indice sintetico della capacità della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello è dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet/minuto della puntata e l’ultimo valore di average audience engagement della trasmissione.

Residuals:

     Min       1Q   Median       3Q      Max

-2868842  -399567  -102448   375619  1722195

Coefficients:

                             Estimate Std. Error t value Pr(>|t|)

(Intercept)                    700355      35174   19.91

showdata$tm                     68615       2595   26.45

showdata$networked_publics -352324911   32458632  -10.86

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 504600 on 373 degrees of freedom

Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762

F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Il nuovo modello è effettivamente più efficace del precedente. Il Residual standard error è sceso a 504,600 ed il valore Adjusted R-squared è aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.

Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell’attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

…o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Residuals:

     Min       1Q   Median       3Q      Max

-2249545  -343077  -178238   441166  1837812

Coefficients:

            Estimate Std. Error t value Pr(>|t|)

(Intercept)   539764      36556   14.77

showdata$tm    49737       2206   22.55

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 578100 on 374 degrees of freedom

Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575

F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Residuals:

     Min       1Q   Median       3Q      Max

-2868842  -399567  -102448   375619  1722195

Coefficients:

                             Estimate Std. Error t value Pr(>|t|)

(Intercept)                    700355      35174   19.91

showdata$tm                     68615       2595   26.45

showdata$networked_publics -352324911   32458632  -10.86

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 504600 on 373 degrees of freedom

Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762

F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?

...o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto Donatella Selva) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballarò, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto è studiare l’emergere delle forme di social tv in Italia concentrando l’attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l’audience e lo share di ciascun episodio trasmesso.

Residuals:

     Min       1Q   Median       3Q      Max

-2249545  -343077  -178238   441166  1837812

Coefficients:

            Estimate Std. Error t value Pr(>|t|)

(Intercept)   539764      36556   14.77

showdata$tm    49737       2206   22.55

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 578100 on 374 degrees of freedom

Multiple R-squared: 0.5762,    Adjusted R-squared: 0.575

F-statistic: 508.4 on 1 and 374 DF,  p-value: < 2.2e-16

Residuals:

     Min       1Q   Median       3Q      Max

-2868842  -399567  -102448   375619  1722195

Coefficients:

                             Estimate Std. Error t value Pr(>|t|)

(Intercept)                    700355      35174   19.91

showdata$tm                     68615       2595   26.45

showdata$networked_publics -352324911   32458632  -10.86

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 504600 on 373 degrees of freedom

Multiple R-squared: 0.6779,        Adjusted R-squared: 0.6762

F-statistic: 392.5 on 2 and 373 DF,  p-value: < 2.2e-16

Questa è solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attività su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attività su Twitter e audience?