{"id":2592,"date":"2012-12-27T10:00:16","date_gmt":"2012-12-27T09:00:16","guid":{"rendered":"http:\/\/larica.uniurb.it\/nextmedia\/?p=2592"},"modified":"2012-12-27T10:00:16","modified_gmt":"2012-12-27T09:00:16","slug":"come-prevedere-laudience-di-un-talk-show-con-twitter","status":"publish","type":"post","link":"https:\/\/nextmedia.uniurb.it\/?p=2592","title":{"rendered":"Come prevedere l&#039;audience di un talk show politico con Twitter"},"content":{"rendered":"<p><!--:it--><\/p>\n<p>&#8230;o almeno come provare a farlo.<\/p>\n<p>Da fine agosto abbiamo (collabora al progetto <a href=\"https:\/\/twitter.com\/surfingdona\" target=\"_blank\">Donatella Selva<\/a>) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: <del datetime=\"2012-12-27T20:09:52+00:00\">#agorai<\/del>#agorarai, #ballar\u00f2, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico.<\/p>\n<p>Lo scopo del progetto \u00e8 studiare l\u2019emergere delle forme di social tv in Italia concentrando l\u2019attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter.<\/p>\n<p>Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l\u2019audience e lo share di ciascun episodio trasmesso.<\/p>\n<figure style=\"width: 482px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-e-a.akamaihd.net\/hphotos-ak-prn1\/15898_10151306570929264_248459756_n.png\"><img loading=\"lazy\" decoding=\"async\" alt=\"Valori medi per programma\" src=\"https:\/\/fbcdn-sphotos-e-a.akamaihd.net\/hphotos-ak-prn1\/15898_10151306570929264_248459756_n.png\" width=\"482\" height=\"283\" \/><\/a><figcaption class=\"wp-caption-text\">Tab. 1. Valori medi per programma<\/figcaption><\/figure>\n<p>Come si pu\u00f2 vedere ci sono tre trasmissioni che si contendono la palma della pi\u00f9 discussa in rete: ServizioPubblico, PiazzaPulita e Ballar\u00f2. Quest\u2019ultima \u00e8 invece di gran lunga la trasmissione pi\u00f9 seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarit\u00e0 della trasmissione (che a sua volta pu\u00f2 dipendere dall\u2019orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all\u2019<em>average audience engagement<\/em> PiazzaPulita risulta essere la trasmissione con l\u2019audience pi\u00f9 attiva, mentre \u00e8 nuovamente ServizioPubblico a far registrare il valore pi\u00f9 alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed \u00e8 andata in onda il 18 Dicembre (ospite Silvio Berlusconi).<\/p>\n<p style=\"text-align: left;\">A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l\u2019audience di una puntata sulla base del volume di attivit\u00e0 su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.<\/p>\n<figure style=\"width: 538px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-prn1\/533828_10151306479139264_495290581_n.png\"><img loading=\"lazy\" decoding=\"async\" class=\"  \" alt=\"Scatterplot audience e Tweet al minuto\" src=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-prn1\/533828_10151306479139264_495290581_n.png\" width=\"538\" height=\"309\" \/><\/a><figcaption class=\"wp-caption-text\">Fig. 1. Scatterplot audience e Tweet al minuto<\/figcaption><\/figure>\n<p style=\"text-align: left;\">Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l\u2019audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.<\/p>\n<pre>Residuals:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0 Min\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1Q\u00a0\u00a0 Median\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 3Q\u00a0\u00a0\u00a0\u00a0\u00a0 Max<\/pre>\n<pre>-2249545\u00a0 -343077\u00a0 -178238\u00a0\u00a0 441166\u00a0 1837812<\/pre>\n<pre>Coefficients:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Estimate Std. Error t value Pr(&gt;|t|)<\/pre>\n<pre>(Intercept)\u00a0\u00a0 539764\u00a0\u00a0\u00a0\u00a0\u00a0 36556\u00a0\u00a0 14.77<\/pre>\n<pre>showdata$tm\u00a0\u00a0\u00a0 49737\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 2206\u00a0\u00a0 22.55<\/pre>\n<pre>---<\/pre>\n<pre>Signif. codes:\u00a0 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/pre>\n<pre>Residual standard error: 578100 on 374 degrees of freedom<\/pre>\n<pre>Multiple R-squared: 0.5762,\u00a0\u00a0\u00a0 Adjusted R-squared: 0.575<\/pre>\n<pre>F-statistic: 508.4 on 1 and 374 DF,\u00a0 p-value: &lt; 2.2e-16<\/pre>\n<p>Il modello non brilla particolarmente per capacit\u00e0 predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non \u00e8 cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, universit\u00e0 o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l\u2019hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non pu\u00f2 non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l\u2019<em>average audience engagement<\/em> come indice sintetico della capacit\u00e0 della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello \u00e8 dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet\/minuto della puntata e l\u2019ultimo valore di <em>average audience engagement<\/em> della trasmissione.<\/p>\n<pre>Residuals:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0 Min\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a01Q\u00a0\u00a0 Median\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 3Q\u00a0\u00a0\u00a0\u00a0\u00a0 Max<\/pre>\n<pre>-2868842\u00a0 -399567\u00a0 -102448\u00a0\u00a0 375619\u00a0 1722195<\/pre>\n<pre>Coefficients:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Estimate Std. Error t value Pr(&gt;|t|)<\/pre>\n<pre>(Intercept)\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 700355\u00a0\u00a0\u00a0\u00a0\u00a0 35174\u00a0\u00a0 19.91<\/pre>\n<pre>showdata$tm\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a068615\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 2595\u00a0\u00a0 26.45<\/pre>\n<pre>showdata$networked_publics -352324911\u00a0\u00a0 32458632\u00a0 -10.86<\/pre>\n<pre>---<\/pre>\n<pre>Signif. codes:\u00a0 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/pre>\n<pre>Residual standard error: 504600 on 373 degrees of freedom<\/pre>\n<pre>Multiple R-squared: 0.6779,\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Adjusted R-squared: 0.6762<\/pre>\n<pre>F-statistic: 392.5 on 2 and 373 DF,\u00a0 p-value: &lt; 2.2e-16<\/pre>\n<p>Il nuovo modello \u00e8 effettivamente pi\u00f9 efficace del precedente. Il Residual standard error \u00e8 sceso a 504,600 ed il valore Adjusted R-squared \u00e8 aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.<\/p>\n<figure style=\"width: 490px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-ash4\/430945_10151306574279264_147067221_n.png\"><img loading=\"lazy\" decoding=\"async\" alt=\"Scarti fra valori di audience previsti ed osservati nei due modelli\" src=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-ash4\/430945_10151306574279264_147067221_n.png\" width=\"490\" height=\"280\" \/><\/a><figcaption class=\"wp-caption-text\">Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli<\/figcaption><\/figure>\n<p>Questa \u00e8 solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell&#8217;attivit\u00e0 su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attivit\u00e0 su Twitter e audience?<\/p>\n<p>&nbsp;<\/p>\n<p><!--:--><!--:en--><\/p>\n<p>&#8230;o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto <a href=\"https:\/\/twitter.com\/surfingdona\" target=\"_blank\">Donatella Selva<\/a>) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballar\u00f2, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto \u00e8 studiare l\u2019emergere delle forme di social tv in Italia concentrando l\u2019attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l\u2019audience e lo share di ciascun episodio trasmesso.<\/p>\n<figure style=\"width: 482px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-e-a.akamaihd.net\/hphotos-ak-prn1\/15898_10151306570929264_248459756_n.png\"><img loading=\"lazy\" decoding=\"async\" alt=\"Valori medi per programma\" src=\"https:\/\/fbcdn-sphotos-e-a.akamaihd.net\/hphotos-ak-prn1\/15898_10151306570929264_248459756_n.png\" width=\"482\" height=\"283\" \/><\/a><figcaption class=\"wp-caption-text\">Tab. 1. Valori medi per programma<\/figcaption><\/figure>\n<p>Come si pu\u00f2 vedere ci sono tre trasmissioni che si contendono la palma della pi\u00f9 discussa in rete: ServizioPubblico, PiazzaPulita e Ballar\u00f2. Quest\u2019ultima \u00e8 invece di gran lunga la trasmissione pi\u00f9 seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarit\u00e0 della trasmissione (che a sua volta pu\u00f2 dipendere dall\u2019orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all\u2019<em>average audience engagement<\/em> PiazzaPulita risulta essere la trasmissione con l\u2019audience pi\u00f9 attiva, mentre \u00e8 nuovamente ServizioPubblico a far registrare il valore pi\u00f9 alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed \u00e8 andata in onda il 18 Dicembre (ospite Silvio Berlusconi).<\/p>\n<p style=\"text-align: left\">A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l\u2019audience di una puntata sulla base del volume di attivit\u00e0 su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.<\/p>\n<figure style=\"width: 538px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-prn1\/533828_10151306479139264_495290581_n.png\"><img loading=\"lazy\" decoding=\"async\" class=\"  \" alt=\"Scatterplot audience e Tweet al minuto\" src=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-prn1\/533828_10151306479139264_495290581_n.png\" width=\"538\" height=\"309\" \/><\/a><figcaption class=\"wp-caption-text\">Fig. 1. Scatterplot audience e Tweet al minuto<\/figcaption><\/figure>\n<p style=\"text-align: left\">Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l\u2019audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.<\/p>\n<pre>Residuals:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0 Min\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1Q\u00a0\u00a0 Median\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 3Q\u00a0\u00a0\u00a0\u00a0\u00a0 Max<\/pre>\n<pre>-2249545\u00a0 -343077\u00a0 -178238\u00a0\u00a0 441166\u00a0 1837812<\/pre>\n<pre>Coefficients:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Estimate Std. Error t value Pr(>|t|)<\/pre>\n<pre>(Intercept)\u00a0\u00a0 539764\u00a0\u00a0\u00a0\u00a0\u00a0 36556\u00a0\u00a0 14.77<\/pre>\n<pre>showdata$tm\u00a0\u00a0\u00a0 49737\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 2206\u00a0\u00a0 22.55<\/pre>\n<pre>---<\/pre>\n<pre>Signif. codes:\u00a0 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/pre>\n<pre>Residual standard error: 578100 on 374 degrees of freedom<\/pre>\n<pre>Multiple R-squared: 0.5762,\u00a0\u00a0\u00a0 Adjusted R-squared: 0.575<\/pre>\n<pre>F-statistic: 508.4 on 1 and 374 DF,\u00a0 p-value: < 2.2e-16<\/pre>\n<p>Il modello non brilla particolarmente per capacit\u00e0 predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non \u00e8 cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, universit\u00e0 o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l\u2019hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non pu\u00f2 non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l\u2019<em>average audience engagement<\/em> come indice sintetico della capacit\u00e0 della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello \u00e8 dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet\/minuto della puntata e l\u2019ultimo valore di <em>average audience engagement<\/em> della trasmissione.<\/p>\n<pre>Residuals:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0 Min\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a01Q\u00a0\u00a0 Median\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 3Q\u00a0\u00a0\u00a0\u00a0\u00a0 Max<\/pre>\n<pre>-2868842\u00a0 -399567\u00a0 -102448\u00a0\u00a0 375619\u00a0 1722195<\/pre>\n<pre>Coefficients:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Estimate Std. Error t value Pr(>|t|)<\/pre>\n<pre>(Intercept)\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 700355\u00a0\u00a0\u00a0\u00a0\u00a0 35174\u00a0\u00a0 19.91<\/pre>\n<pre>showdata$tm\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a068615\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 2595\u00a0\u00a0 26.45<\/pre>\n<pre>showdata$networked_publics -352324911\u00a0\u00a0 32458632\u00a0 -10.86<\/pre>\n<pre>---<\/pre>\n<pre>Signif. codes:\u00a0 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/pre>\n<pre>Residual standard error: 504600 on 373 degrees of freedom<\/pre>\n<pre>Multiple R-squared: 0.6779,\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Adjusted R-squared: 0.6762<\/pre>\n<pre>F-statistic: 392.5 on 2 and 373 DF,\u00a0 p-value: < 2.2e-16<\/pre>\n<p>Il nuovo modello \u00e8 effettivamente pi\u00f9 efficace del precedente. Il Residual standard error \u00e8 sceso a 504,600 ed il valore Adjusted R-squared \u00e8 aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.<\/p>\n<figure style=\"width: 490px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-ash4\/430945_10151306574279264_147067221_n.png\"><img loading=\"lazy\" decoding=\"async\" alt=\"Scarti fra valori di audience previsti ed osservati nei due modelli\" src=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-ash4\/430945_10151306574279264_147067221_n.png\" width=\"490\" height=\"280\" \/><\/a><figcaption class=\"wp-caption-text\">Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli<\/figcaption><\/figure>\n<p>Questa \u00e8 solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attivit\u00e0 su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attivit\u00e0 su Twitter e audience?<\/p>\n<\/p>\n<p><!--:--><!--:zh--><\/p>\n<p>...o almeno come provare a farlo. Da fine agosto abbiamo (collabora al progetto <a href=\"https:\/\/twitter.com\/surfingdona\" target=\"_blank\">Donatella Selva<\/a>) raccolto tutti i Tweet contenenti almeno uno dei seguenti hashtag: #agorai, #ballar\u00f2, #piazzapulita, #ottoemezzo, #infedele (e variante #linfedele), #omnibus, #inonda, #portaaporta, #inmezzora, #ultimaparola e #serviziopubblico. Lo scopo del progetto \u00e8 studiare l\u2019emergere delle forme di social tv in Italia concentrando l\u2019attenzione su quei programmi che, trattando della cosa pubblica, dovrebbero generare un maggior volume di conversazioni su un social network con le caratteristiche di Twitter. Approfitto dunque della pausa di natale per fare il punto su quanto abbiamo fatto fino a questo momento. Fra il 30 Agosto ed il 23 Dicembre 2012 abbiamo raccolto e archiviato per programma 610,013 Tweet. Abbiamo inoltre segmentato gli archivi in corrispondenza della messa in onda delle trasmissioni ottenendo 367 sotto-archivi corrispondenti a tutte le puntate (esclusi i pochi casi in cui non erano ospiti politici) di tutte le trasmissioni prese in esame andate in onda in questa prima parte della stagione televisiva. Parallelamente abbiamo raccolto l\u2019audience e lo share di ciascun episodio trasmesso.<\/p>\n<figure style=\"width: 482px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-e-a.akamaihd.net\/hphotos-ak-prn1\/15898_10151306570929264_248459756_n.png\"><img loading=\"lazy\" decoding=\"async\" alt=\"Valori medi per programma\" src=\"https:\/\/fbcdn-sphotos-e-a.akamaihd.net\/hphotos-ak-prn1\/15898_10151306570929264_248459756_n.png\" width=\"482\" height=\"283\" \/><\/a><figcaption class=\"wp-caption-text\">Tab. 1. Valori medi per programma<\/figcaption><\/figure>\n<p>Come si pu\u00f2 vedere ci sono tre trasmissioni che si contendono la palma della pi\u00f9 discussa in rete: ServizioPubblico, PiazzaPulita e Ballar\u00f2. Quest\u2019ultima \u00e8 invece di gran lunga la trasmissione pi\u00f9 seguita con una media di quasi quattro milioni di spettatori. Ovviamente il numero di Tweet medio dipende dalla popolarit\u00e0 della trasmissione (che a sua volta pu\u00f2 dipendere dall\u2019orario di messa in onda) e dalla lunghezza della trasmissione stessa. Per ovviare a questo problema abbiamo calcolato rispettivamente 1. il rapporto fra Tweet medi per puntata e audience media e 2. la media dei Tweet per minuto. Rispetto all\u2019<em>average audience engagement<\/em> PiazzaPulita risulta essere la trasmissione con l\u2019audience pi\u00f9 attiva, mentre \u00e8 nuovamente ServizioPubblico a far registrare il valore pi\u00f9 alto in relazione alla media di Tweet per minuto di trasmissione. La puntata che ha fatto registrare il maggior volume di Tweet al minuto (67.45) appartiene invece alla trasmissione Porta a Porta ed \u00e8 andata in onda il 18 Dicembre (ospite Silvio Berlusconi).<\/p>\n<p style=\"text-align: left\">A questo punto ci siamo chiesti se fosse possibile costruire un modello in grado di prevedere l\u2019audience di una puntata sulla base del volume di attivit\u00e0 su Twitter. Il semplice volume di Tweet fa registrare una correlazione pari a 0.6957124, mentre prendendo in considerazione la media di Tweet per minuto si arriva ad una correlazione di 0.7590615.<\/p>\n<figure style=\"width: 538px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-prn1\/533828_10151306479139264_495290581_n.png\"><img loading=\"lazy\" decoding=\"async\" class=\"  \" alt=\"Scatterplot audience e Tweet al minuto\" src=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-prn1\/533828_10151306479139264_495290581_n.png\" width=\"538\" height=\"309\" \/><\/a><figcaption class=\"wp-caption-text\">Fig. 1. Scatterplot audience e Tweet al minuto<\/figcaption><\/figure>\n<p style=\"text-align: left\">Sulla base di questi risultati abbiamo costruito un modello di regressione lineare semplice mirato a stimare l\u2019audience di un episodio sulla base del numero medio di Tweet scambiati al minuto durante la messa in onda.<\/p>\n<pre>Residuals:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0 Min\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 1Q\u00a0\u00a0 Median\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 3Q\u00a0\u00a0\u00a0\u00a0\u00a0 Max<\/pre>\n<pre>-2249545\u00a0 -343077\u00a0 -178238\u00a0\u00a0 441166\u00a0 1837812<\/pre>\n<pre>Coefficients:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Estimate Std. Error t value Pr(>|t|)<\/pre>\n<pre>(Intercept)\u00a0\u00a0 539764\u00a0\u00a0\u00a0\u00a0\u00a0 36556\u00a0\u00a0 14.77<\/pre>\n<pre>showdata$tm\u00a0\u00a0\u00a0 49737\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 2206\u00a0\u00a0 22.55<\/pre>\n<pre>---<\/pre>\n<pre>Signif. codes:\u00a0 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/pre>\n<pre>Residual standard error: 578100 on 374 degrees of freedom<\/pre>\n<pre>Multiple R-squared: 0.5762,\u00a0\u00a0\u00a0 Adjusted R-squared: 0.575<\/pre>\n<pre>F-statistic: 508.4 on 1 and 374 DF,\u00a0 p-value: < 2.2e-16<\/pre>\n<p>Il modello non brilla particolarmente per capacit\u00e0 predittive con un residual standard error di 578,100 spettatori ed un mutiple R-squared di poco superiore a 0.5. A questo punto abbiamo deciso di aggiungere una nuova variabile al modello. Di fatto costruire un modello previsionale unico per tutti i talk show non \u00e8 cosa semplice. Cito solo due esempi: 1. Le trasmissioni che vanno in onda la mattina difficilmente possono beneficiare di una vasta presenza di quel pubblico connesso (prevalentemente giovane e dunque impegnato la mattina a scuola, universit\u00e0 o lavoro), 2. Ogni trasmissione fa un uso diverso dei Tweet. Talvolta sono trasmessi nel sottopancia, talvolta sono citati, talvolta si invita il pubblico ad usare l\u2019hashtag ufficiale e talvolta sono del tutto ignorati. Tutto questo non pu\u00f2 non avere un impatto sul modello. Per questo motivo abbiamo deciso di arricchirlo inserendo l\u2019<em>average audience engagement<\/em> come indice sintetico della capacit\u00e0 della trasmissione di attirare o stimolare la presenza di un pubblico attivo. Il nuovo modello \u00e8 dunque basato su una regressione lineare multipla le cui due variabili indipendenti sono il numero di Tweet\/minuto della puntata e l\u2019ultimo valore di <em>average audience engagement<\/em> della trasmissione.<\/p>\n<pre>Residuals:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0 Min\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a01Q\u00a0\u00a0 Median\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 3Q\u00a0\u00a0\u00a0\u00a0\u00a0 Max<\/pre>\n<pre>-2868842\u00a0 -399567\u00a0 -102448\u00a0\u00a0 375619\u00a0 1722195<\/pre>\n<pre>Coefficients:<\/pre>\n<pre>\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Estimate Std. Error t value Pr(>|t|)<\/pre>\n<pre>(Intercept)\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 700355\u00a0\u00a0\u00a0\u00a0\u00a0 35174\u00a0\u00a0 19.91<\/pre>\n<pre>showdata$tm\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 \u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a068615\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 2595\u00a0\u00a0 26.45<\/pre>\n<pre>showdata$networked_publics -352324911\u00a0\u00a0 32458632\u00a0 -10.86<\/pre>\n<pre>---<\/pre>\n<pre>Signif. codes:\u00a0 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/pre>\n<pre>Residual standard error: 504600 on 373 degrees of freedom<\/pre>\n<pre>Multiple R-squared: 0.6779,\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0\u00a0 Adjusted R-squared: 0.6762<\/pre>\n<pre>F-statistic: 392.5 on 2 and 373 DF,\u00a0 p-value: < 2.2e-16<\/pre>\n<p>Il nuovo modello \u00e8 effettivamente pi\u00f9 efficace del precedente. Il Residual standard error \u00e8 sceso a 504,600 ed il valore Adjusted R-squared \u00e8 aumentato allo 0.6762. Ecco infine gli scarti previsionali medi dei due modelli rispetto ai singoli programmi.<\/p>\n<figure style=\"width: 490px\" class=\"wp-caption aligncenter\"><a href=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-ash4\/430945_10151306574279264_147067221_n.png\"><img loading=\"lazy\" decoding=\"async\" alt=\"Scarti fra valori di audience previsti ed osservati nei due modelli\" src=\"https:\/\/fbcdn-sphotos-d-a.akamaihd.net\/hphotos-ak-ash4\/430945_10151306574279264_147067221_n.png\" width=\"490\" height=\"280\" \/><\/a><figcaption class=\"wp-caption-text\">Tab. 2. Scarti fra valori di audience previsti ed osservati nei due modelli<\/figcaption><\/figure>\n<p>Questa \u00e8 solo una piccola anticipazione di quello che abbiamo in mente. Nei prossimi mesi continueremo a raccogliere i dati e perfezionare il modello sperimentando altre metriche di misura dell'attivit\u00e0 su Twitter (ad esempio il numero di Tweet originali esclusi replay e RT). Quali sono, secondo voi, gli altri fattori che possono influenzare il rapporto fra attivit\u00e0 su Twitter e audience?<\/p>\n<\/p>\n<p><!--:--><\/p>\n","protected":false},"excerpt":{"rendered":"<p><!--:it-->Modello previsionale dell&#8217;audience di un talk show basato sull&#8217;analisi dell&#8217;attivit\u00e0 su Twitter<!--:--><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7,6,8],"tags":[264,265,266,267,268,269,270,212],"_links":{"self":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2592"}],"collection":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2592"}],"version-history":[{"count":0,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2592\/revisions"}],"wp:attachment":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2592"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2592"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2592"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}