{"id":2643,"date":"2013-01-02T09:48:56","date_gmt":"2013-01-02T08:48:56","guid":{"rendered":"http:\/\/larica.uniurb.it\/nextmedia\/?p=2643"},"modified":"2013-01-02T09:48:56","modified_gmt":"2013-01-02T08:48:56","slug":"audience-e-tweet-verso-un-modello-predittivo-piu-preciso","status":"publish","type":"post","link":"https:\/\/nextmedia.uniurb.it\/?p=2643","title":{"rendered":"Audience e Tweet: verso un modello predittivo pi\u00f9 preciso"},"content":{"rendered":"<p><!--:it--><\/p>\n<p>Dopo aver scritto il post che presentava<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2012\/12\/come-prevedere-laudience-di-un-talk-show-con-twitter\/\"> l&#8217;idea generale del modello predittivo dell&#8217;audience di un talk-show politico a partire dall&#8217;attivit\u00e0 su Twitter<\/a> (nel post anche il volume medio dei Tweet generati dagli hashtag ufficiali delle principali\u00a0trasmissioni\u00a0nella prima parte di stagione) mi \u00e8 venuto in mente un modo semplice per migliorare significativamente le capacit\u00e0 predittive del modello.<\/p>\n<p>Guardando l&#8217;audience delle 376 puntate prese in considerazione sembra piuttosto evidente che le variazioni nelle puntate di un singolo programma siano piuttosto contenute.<\/p>\n<p><a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2013\/01\/audience-e-tweet-verso-un-modello-predittivo-piu-preciso\/showsd\/\" rel=\"attachment wp-att-2644\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2644\" alt=\"Audience Standard Deviation per Show\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2013\/01\/showsd-300x198.png\" width=\"300\" height=\"198\" \/><\/a><\/p>\n<p>&nbsp;<\/p>\n<p>Questo significa che ogni talk-show ha un pubblico piuttosto affezionato ed abitudinario che produce un audience che non si differenzia molto di puntata in puntata. La trasmissione con la varianza maggiore \u00e8 Omnibus (28% dell&#8217;audience media), quella con la minore varianza \u00e8 ServizioPubblico (0.09%).\u00a0<\/p>\n<p><a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2013\/01\/audience-e-tweet-verso-un-modello-predittivo-piu-preciso\/show_perc_sd\/\" rel=\"attachment wp-att-2645\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2645\" alt=\"Frazione di varianza per Show\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2013\/01\/show_perc_sd-300x176.png\" width=\"300\" height=\"176\" \/><\/a>Questi dati ci danno un&#8217;idea di massima di quanto ogni trasmissione abbia un pubblico stabile di puntata in puntata (anche se va tenuto presente che la varianza, di solito, cresce al crescere dal numero di puntate trasmesse). Al di l\u00e0 del dettaglio sul singolo programma quello che conta \u00e8 che l&#8217;audience non cambia molto di puntata in puntata. Questo significa che la media dell&#8217;audience delle puntate precedenti dovrebbe essere un buon predittore dell&#8217;audience della puntata futura. Infatti le performance di un modello di regressione lineare semplice basato sull&#8217;audience media come variabile indipendente vanta performance decisamente migliori di quelli testati in precedenza.<\/p>\n<p>Residuals:<br \/> Min 1Q Median 3Q Max <br \/>-966867 -96515 -8538 84705 936133<\/p>\n<p>Coefficients:<br \/> Estimate Std. Error t value Pr(&gt;|t|) <br \/>(Intercept) 2.305e-09 1.770e+04 0.00 1 <br \/>showdata$avg_audience 1.000e+00 1.331e-02 75.16 &#8212;<br \/>Signif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/p>\n<p>Residual standard error: 221300 on 374 degrees of freedom<br \/>Multiple R-squared: 0.9379, Adjusted R-squared: 0.9377 <br \/>F-statistic: 5648 on 1 and 374 DF, p-value: &lt; 2.2e-16<\/p>\n<p>A questo punto possiamo chiederci se l&#8217;aggiunta della variabile volume dei Tweet al minuto migliori le performance del modello ed infatti&#8230;<\/p>\n<p>Residuals:<br \/> Min 1Q Median 3Q Max <br \/>-919587 -90990 -8523 82001 928457<\/p>\n<p>Coefficients:<br \/> Estimate Std. Error t value Pr(&gt;|t|) <br \/>(Intercept) 1.557e+04 1.700e+04 0.916 0.36 <br \/>showdata$avg_audience 9.141e-01 1.846e-02 49.512 &lt; 2e-16 ***<br \/>showdata$tm 7.485e+03 1.172e+03 6.389 4.97e-10 ***<br \/>&#8212;<br \/>Signif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/p>\n<p>Residual standard error: 210400 on 373 degrees of freedom<br \/>Multiple R-squared: 0.944, Adjusted R-squared: 0.9437 <br \/>F-statistic: 3145 on 2 and 373 DF, p-value: &lt; 2.2e-16<\/p>\n<p>L&#8217;errore standard diminuisce da 221300 a 210400 e la percentuale di varianza spiegata dal modello sale dallo 0.93 allo 0.94%. La differenza fra i due modelli,\u00a0ancorch\u00e9 contenuta \u00e8 tuttavia significativa.<\/p>\n<p>Analysis of Variance Table<\/p>\n<p>Model 1: showdata$audience ~ showdata$avg_audience<br \/>Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm<br \/> Res.Df RSS Df Sum of Sq F Pr(&gt;F) <br \/>1 374 1.8314e+13 <br \/>2 373 1.6508e+13 1 1.8067e+12 40.823 4.972e-10 ***<br \/>&#8212;<br \/>Signif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/p>\n<p>A questo punto rimane solo da fare un&#8217;ultima prova. Cosa accade inserendo nel modello anche la variabile networked_publics (ovvero il valore medio del rapporto fra volume di Tweet ed audience &#8211; cio\u00e8 la percentuale di attivit\u00e0 dell&#8217;audience) propria di ciascuna trasmissione?<\/p>\n<p>Residuals:<br \/> Min 1Q Median 3Q Max <br \/>-884852 -85906 -29916 89933 893697<\/p>\n<p>Coefficients:<br \/> Estimate Std. Error t value Pr(&gt;|t|) <br \/>(Intercept) 8.913e+04 1.938e+04 4.599 5.83e-06 ***<br \/>showdata$avg_audience 8.613e-01 1.910e-02 45.098 &lt; 2e-16 ***<br \/>showdata$tm 1.501e+04 1.567e+03 9.579 &lt; 2e-16 ***<br \/>showdata$networked_publics -9.494e+07 1.400e+07 -6.783 4.66e-11 ***<br \/>&#8212;<br \/>Signif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/p>\n<p>Residual standard error: 198700 on 372 degrees of freedom<br \/>Multiple R-squared: 0.9502, Adjusted R-squared: 0.9498 <br \/>F-statistic: 2365 on 3 and 372 DF, p-value: &lt; 2.2e-16<\/p>\n<p>Si ottiene un modello ancora pi\u00f9 preciso caratterizzato da un errore standard di 198700 ed un Adjusted R-squared di 0.95. In pratica questo modello \u00e8 in grado di prevedere l&#8217;audience di un talk show politico sulla base del volume dei Tweet prodotto dall&#8217;hashtag ufficiale della trasmissione con un margine di errore che inizia a diventare interessante e forse utile nella pratica.<\/p>\n<p>L&#8217;analisi della varianza degli ultimi due modelli testati conferma che la differenza fra i modelli \u00e8\u00a0statisticamente\u00a0significativa<\/p>\n<p>Analysis of Variance Table<\/p>\n<p>Model 1: showdata$audience ~ showdata$avg_audience + showdata$tm<br \/>Model 2: showdata$audience ~ showdata$avg_audience + showdata$tm + showdata$networked_publics<br \/> Res.Df RSS Df Sum of Sq F Pr(&gt;F) <br \/>1 373 1.6508e+13 <br \/>2 372 1.4691e+13 1 1.8168e+12 46.005 4.655e-11 ***<br \/>&#8212;<br \/>Signif. codes: 0 \u2018***\u2019 0.001 \u2018**\u2019 0.01 \u2018*\u2019 0.05 \u2018.\u2019 0.1 \u2018 \u2019 1<\/p>\n<p><!--:--><\/p>\n","protected":false},"excerpt":{"rendered":"<p><!--:it-->Con nuove variabili ed un modello pi\u00f9 complesso si pu\u00f2 prevedere l&#8217;audience di un talk show politico con Twitter? <!--:--><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7,15,8],"tags":[271,272,265,268,269,270,273,212,274],"_links":{"self":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2643"}],"collection":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2643"}],"version-history":[{"count":0,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2643\/revisions"}],"wp:attachment":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2643"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2643"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2643"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}