{"id":2186,"date":"2011-10-26T14:05:56","date_gmt":"2011-10-26T12:05:56","guid":{"rendered":"http:\/\/larica.uniurb.it\/nextmedia\/?p=2186"},"modified":"2011-10-26T14:05:56","modified_gmt":"2011-10-26T12:05:56","slug":"alcuni-dati-sui-twitter-trending-topic-in-italia","status":"publish","type":"post","link":"https:\/\/nextmedia.uniurb.it\/?p=2186","title":{"rendered":"Alcuni dati sui Twitter trending topic in Italia"},"content":{"rendered":"<p><!--:it-->Come accennato nel <a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2011\/10\/limiti-e-possibilita-della-ricerca-su-twitter\/\" target=\"_blank\">precedente post<\/a>, ho avuto la possibilit\u00e0 di testare per alcuni giorni una nuova funzionalit\u00e0 di <a href=\"http:\/\/www.discovertext.com\" target=\"_blank\">DiscoverText<\/a> che consente di reperire gli status di Twitter (Tweet) in tempo (quasi) reale. \u00a0Grazie all&#8217;accordo con <a href=\"http:\/\/gnip.com\/\" target=\"_blank\">Gnip<\/a>, DiscoverText consente dunque di <a href=\"http:\/\/blog.texifter.com\/index.php\/2011\/09\/29\/discovertext-gnip-klout-analytic-power\/\" target=\"_blank\">accedere alla cos\u00ec detta Firehose<\/a> (il flusso di tutti gli status di Twitter) e di raccogliere questi contenuti per una successiva analisi.<br \/>\nLa partecipazione a questo programma di beta test \u00e8 durata dal 19 al 24 Ottobre (anche se il servizio \u00e8 ancora al momento attivo).<br \/>\nDiscoverText, gi\u00e0 nella versione in produzione, consente di importare contenuti da diverse fonti:<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/importer_screenshot.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2192\" title=\"Live Feed Importers\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/importer_screenshot-278x300.png\" alt=\"\" width=\"278\" height=\"300\" \/><\/a><br \/>\nPer quanto riguarda Twitter era gi\u00e0 disponibile il Live Feed Import basato sulle REST API di Twitter che richiede l&#8217;autenticazione con il proprio nome utente e password ed ha il vantaggio di poter reperire i Tweet da un archivio degli ultimi 5\/6 giorni e lo svantaggio di non garantire la completezza dei risultati (si veda il precedente post per i dettagli su questo).<br \/>\nLa novit\u00e0 \u00e8 il GNIP PowerTrack importer.<br \/>\nQuesta modalit\u00e0 di importazione dei Tweet ha il vantaggio di restituire il flusso completo di tutti gli status pubblici e lo svantaggio di non consentire l&#8217;accesso ad alcun archivio (il flusso che si riesce a reperire parte dal momento in cui si inizia a raccogliere i dati).<br \/>\nUna combinazione delle due metodologie di importazione descritte dovrebbe consentire dunque una ragionevole fedelt\u00e0 nella raccolta dati (ovviamente bisogner\u00e0 rimuovere i duplicati, cosa che DiscoverText consente di fare in automatico).<br \/>\nLa metodologia di importazione GNIP PowerTrack si basa sulla costruzione di una regola di importazione che pu\u00f2 essere costruita da un massimo di 10 termini o operatori fino a una lunghezza complessiva di 255 caratteri per l&#8217;intera regola. In pratica si tratta di filtrare il flusso dei contenuti secondo certi criteri.<br \/>\nSi possono cercare frasi esatte, usare gli operatori &#8211; per escludere un termine, usare un hashtag &#8211; vengono identificati alla fonte da Twitter &#8211; come chiave di ricerca, una mention di un utente specifico (@nomeutente compresi i RT), status prodotti o destinati ad un utente specifico (from: e to:), contenenti smile, status prodotti da un client specifico, status che siano retweet di uno specifico utente, status contenenti luoghi, stringhe specifiche, che contengono un certo indirizzo internet, status prodotti da utenti che abbiano un <a href=\"corp.klout.com\/kscore\" target=\"_blank\">klout score<\/a> compreso fra due valori minimo e massimo, status che contengono link, che siano geo-referenziati, che contengono almeno una mentions (compresi dunque i retweet) o almeno un hashtag e infine status classificati da Gnip come appartenenti ad una certa lingua (compreso l&#8217;italiano).<br \/>\nPer testare la funzionalit\u00e0 ho raccolto i dati per molti dei trending topics (per capire meglio come vengono calcolati consiglio la lettura di <a href=\"http:\/\/blog.socialflow.com\/post\/7120244374\/data-reveals-that-occupying-twitter-trending-topics-is-harder-than-it-looks\" target=\"_blank\">questo articolo<\/a>) italiani emersi nel corso degli\u00a0ultimi\u00a0giorni da #erpelliccia a #gheddafi, da #nubifragio a #notav (+ &#8220;val di susa&#8221;) senza dimenticare #XF5 e #gf12. \u00a0Ho anche provato per breve tempo a monitorare un trending topic globale e sponsorizzato come &#8220;Paranormal Activity 3&#8221;. Per completare i test ho anche provato a raccogliere i dati dell&#8217;interno stream di contenuti in lingua italiana allo scopo di comprendere meglio la consistenza del flusso di tweet prodotti nella nostra lingua.<br \/>\nIniziamo l&#8217;analisi da questi ultimi.<br \/>\nUsando il filtro lang:it avrei dovuto reperire il flusso di Tweet in italiano. Purtroppo questo filtro si \u00e8 dimostrato del tutto inefficace. Per motivi che non mi sono chiari oltre ai Tweet in italiano sono stati anche reperiti i Tweet in altre lingue fra cui indonesiano, malese, vietnamita, turco e chiss\u00e0 quante altre (ho usato Google Translate per identificarle). Questa errata identificazione della lingua ha reso impossibile raggiungere l&#8217;obiettivo che mi ero posto ed i sotto-obiettivi che sarebbero stati identificare quanti di questi Tweet prodotti nella nostra lingua fossero geo-referenziati, contenessero link, mentions ed hashtag.<br \/>\nPassiamo dunque all&#8217;analisi del flusso di un trending topic globale e sponsorizzato come &#8220;Paranormal Activity 3&#8221;.<br \/>\nIn questo caso, usando la semplice ricerca per frase esatta, sono stati reperiti 21333 status updates in circa due ore e mezza (nello specifico fra \u00a0il 10\/21\/2011 2:36:13 AM ed il 10\/21\/2011 5:05:37 AM\u00a0EST: Eastern Standard Time). \u00a0Si tratta di 142 Tweet circa al minuto. DiscoverText supporta l&#8217;analisi di grandi quantit\u00e0 di dati attraverso uno strumento chiamato CloudExplorer. Si tratta in pratica di una semplice tagcloud che consente per\u00f2 di cliccare su ogni voce per accedere alla lista dei contenuti filtrati per quella parola chiave.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/pa3_tagcloud.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2191\" title=\"Tag CloudExplorer\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/pa3_tagcloud-300x150.png\" alt=\"\" width=\"300\" height=\"150\" \/><\/a><br \/>\n&nbsp;<br \/>\nCliccando ad esempio su See si accede ad una lista filtrata dei 7260 Tweet in archivio che contengono questo termine. \u00a0L&#8217;archivio pu\u00f2 inoltre essere ricercato liberamente per parola chiave e filtrato usando uno o pi\u00f9 criteri basati sugli stessi metadati disponibili per la costruzione di un filtro. Posso ad esempio sapere con facilit\u00e0 quanti status in archivio contengono un hashtag (in questo caso 2433) o quanti contengono menzioni di altri utenti (8004).<br \/>\nDal pannello filtri avanzati della ricerca \u00e8 inoltre possibile ottenere alcuni altri dati\u00a0sull&#8217;archivio. Si pu\u00f2 ad esempio conoscere il numero degli utenti che hanno usato l&#8217;hashtag (19360) e quale di questi lo abbia fatto pi\u00f9 volte (15).\u00a0Conoscere l&#8217;hashtag pi\u00f9 utilizzato \u00e8 Paranormal con 281 occorrenze seguito curiosamente da iDontSupport con 66 occorrenze. In totale sono stati utilizzati 1342 hastag diversi. Ci sono invece 5930 utenti diversi menzionati con in testa l&#8217;account ufficiale del film chiamato in causa da 531 status.<br \/>\nIl risultato di una ricerca pu\u00f2 essere salvato in un bucket (un contenitore di passaggio con il quale miscelare i dati unendo ad esempio pi\u00f9 di un bucket) dal quale costruire poi un dataset. Al dataset possono essere applicate le classiche tecniche di analisi del contenuto basate su griglie di analisi date o costruite a partire dai dati. Il dataset toolbox comprende strumenti piuttosto avanzati per il supporto della collaborazione fra pi\u00f9 ricercatori nella codifica dello stesso dataset.<br \/>\nVeniamo adesso ai dati che riguardano i trending topics italiani.<br \/>\nMi soffermer\u00f2 sui casi di #gheddafi lang:it, #nubifragio, #notav, #XF5 e #gf12.<br \/>\nL&#8217;importer avviato alle il 20\/10\/2011 alle 13:50 (l&#8217;ANSA con la <a href=\"http:\/\/ansa.it\/web\/notizie\/collection\/rubriche_mondo\/10\/20\/visualizza_new.html_669771564.html\" target=\"_blank\">notizia della morte di Gheddafi<\/a> \u00e8 delle 13:11) ha raccolto 6601 Tweet. Il primo contenuto reperito \u00e8 datato 20\/10\/2011 alle 13:49, l&#8217;ultimo 24\/10\/2011 alle 11:17.<br \/>\nNel GNIP Feed Management \u00e8 possibile visualizzare un grafico dell&#8217;andamento dei Tweet per ogni importer attivo.<br \/>\nQuesto \u00e8 il grafico per #gheddafi (gli orari sono in EST &#8211; Eastern Standard Time e gli slot temporali da circa 15 minuti).<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gheddafi1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2194\" title=\"#gheddafi\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gheddafi1-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIl picco \u00e8 di oltre 300 Tweet in 15 minuti circa e corrisponde con il momento di attivazione dell&#8217;importer.\u00a0Sarebbe stato bello poter raccogliere i dati di quella mezz&#8217;ora intercorsa fra l&#8217;annuncio della morte ed il momento di attivazione dell&#8217;importer. Raccogliere dataset completi relativi a breaking news \u00e8 veramente difficile con questo metodo.<br \/>\nPer questo motivo ho provato nel caso di #nubifragio ad utilizzare sia l&#8217;importer basato sulle REST API sia il GNIP Power Track.<br \/>\nCon questo metodo ho reperito 4005 (1886 con GNIP e 2119 con le REST API) Tweet. La rimozione dei duplicati esatti ha ridotto l&#8217;archivio a 1783 status. Non mi \u00e8 chiarissimo con questo elenco dei duplicati esatti venga creato e dopo averlo applicato anche ad altri archivi che non avrebbero dovuto contenere duplicati temo posso rimuovere anche i retweet identici. Purtroppo \u00e8 difficile estrarre da questo archivio elementi utili sulle date\u00a0perch\u00e9, apparentemente, i Tweet importati da GNIP e quelli importati dalle REST API sono riferiti a fusi orari diversi. \u00a0Questo <a href=\"http:\/\/twitter.com\/#!\/marcocavi\/statuses\/126954248889049088\" target=\"_blank\">status duplicato<\/a> ha come ora di pubblicazione rispettivamente le 9:33 AM EST e le 5:33 AM di un fuso orario sconosciuto.<br \/>\nPi\u00f9 semplice \u00e8 invece lavorare su eventi programmati per i quali \u00e8 possibile attivare l&#8217;importer per tempo.<br \/>\nPer la manifestazione di Val di Susa ho seguito l&#8217;hashtag #notav e la stringa di ricerca &#8220;val di susa&#8221;. Ho attivato l&#8217;importer alle 8:34 23\/10 e reperito nel complesso 5501 Tweet.<br \/>\nDi seguito il grafico per l&#8217;hashtag #notav.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/notav1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2196\" title=\"#notav\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/notav1-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIn questo caso sono riuscito a fotografare l&#8217;andamento del fenomeno prima che raggiungesse il picco (avvenuto intorno all&#8217;ora di pranzo con oltre 300 Tweet prodotti durante lo slot di 15 minuti circa).<br \/>\nGli hashtag pi\u00f9 utilizzati sono stati #diamociuntaglio (1014) e #report (117). Dei 429 utenti menzionati, notav_info \u00e8 il pi\u00f9 citato (645). In totale hanno contribuito a questo hashtag 1300 utenti diversi. Il pi\u00f9 attivo \u00e8 stato ViceVersa_1917 con 146 Tweet.<br \/>\nDurante il periodo di betatest sono inoltre andati in onda le prime puntate della quinta stagione di X Factor e della dodicesima edizione de Il Grande Fratello.<br \/>\nPer X Factor ho monitorato l&#8217;hashtag #xf5 con colpevole ritardo a partire dalla mattina successiva alla messa in onda.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/xf5.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2197\" title=\"#xf5\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/xf5-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nAnche la mattina dopo c&#8217;\u00e8 stato un discreto volume di conversazioni che ha superato il picco di 200 Tweet in 15 minuti. Se dovessi avere ancora accesso al servizio prover\u00f2 a raccogliere i dati relativi alla messa in onda della seconda puntata in onda domani.<br \/>\nInfine per quanto riguarda la prima puntata della dodicesima stagione de Il Grande Fratello ho monitorato sia l&#8217;hashtag #gf12 che la stringa &#8220;grande fratello&#8221; a partire da pochi minuti prima della messa in onda (20:56 del 24\/10).<br \/>\nEcco il volume di Tweet durante la messa in onda (il primo grafico \u00e8 riferito a &#8220;grande fratello&#8221; e il secondo a #gf12) [le 3 PM del grafico equivalgono alle nostre 21:00].<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf121.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2199\" title=\"#gf12\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf121-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf122.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2200\" title=\"#gf12\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf122-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIn entrambi i casi l&#8217;andamento \u00e8 simile con le discussioni che si protraggono fino a oltre mezza notte (le 6 PM nel grafico). Il buco delle 5 PM del grafico credo sia dovuto a qualche problema nel flusso di importazione dei dati.<br \/>\nNel secondo caso si sono toccati e superati gli 800 Tweet in 15 minuti. Inoltre questo volume \u00e8 stato mantenuto per tutta la durata del programma.<br \/>\nNel complesso ho reperito 13308 generati da 5169 utenti il pi\u00f9 attivo dei quali \u00e8 stato w4rr10r_0 con i suoi 160 status. Oltre a #gf12 sono stati utilizzati altri 883 diversi hashtag. Il pi\u00f9 utilizzato dopo #gf12 \u00e8 stato #GrandeFratello.<br \/>\nFra i xxx menzionati nei Tweet etichettati #gf12 spicca @Microsatira il cui <a href=\"http:\/\/twitter.com\/#!\/tod315\/statuses\/128752120643072000\" target=\"_blank\">tweet ironico<\/a>\u00a0\u00e8 stato retweettato oltre 100 volte (in totale ha ricevuto 189 mentions).<br \/>\nLa seguente tagcloud dovrebbe dare un&#8217;idea dei temi pi\u00f9 citati:<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf12_cloud.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2201\" title=\"#gf12_cloud\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf12_cloud-300x174.png\" alt=\"\" width=\"300\" height=\"174\" \/><\/a><br \/>\nCome spesso accade nei discorsi sui programmi televisivi di grande richiamo i commenti veri e propri al programma si sommano ai giudizi di chi non riesce a capacitarsi di come quel programma possa avere successo o si lamenta della qualit\u00e0 della televisione italiana.<br \/>\nIn conclusione credo che\u00a0DiscoverText sia uno strumento con delle caratteristiche uniche. Non si tratta di un prodotto perfetto e non sono mancate le volte nelle quali, specie su grandi quantit\u00e0 di dati, mi sono stati restituiti dei messaggi di errore. L&#8217;accordo che stanno perfezionando con Gnip potrebbe rendere questo strumento essenziale per chi voglia fare ricerca su Twitter. Le modalit\u00e0 di implementazione di questa funzionalit\u00e0 rendono bene le potenzialit\u00e0 di estensibilit\u00e0 della piattaforma. La gestione delle timezones appare migliorabile (forse renderanno in futuro possibile scegliere all&#8217;utente il fuso orario per il grafico). Nel complesso il sistema si comporta bene anche su grandi quantit\u00e0 di dati mostrando eccellenti performance nella creazione delle tagclouds (che necessiterebbero per\u00f2 della possibilit\u00e0 di escludere liste di parole comuni) e nelle ricerche che richiedono sempre\u00a0tempi ragionevolmente brevi per essere portate a termine.<br \/>\nCredo ci siano pi\u00f9 di uno spunto<br \/>\nCome ho avuto modo di scrivere <a href=\"http:\/\/books.google.com\/books?hl=it&amp;lr=&amp;id=QyzJFA3gBAgC&amp;oi=fnd&amp;pg=PA303&amp;dq=social+semantics+giglietto&amp;ots=VvxUh1H_VX&amp;sig=N_yFjNw1XbwKeIZhlLrG6Z3jQ1o#v=onepage&amp;q=social%20semantics%20giglietto&amp;f=false\" target=\"_blank\">altrove<\/a>, l&#8217;utilizzo di una piattaforma web collaborativa per l&#8217;analisi del contenuto rappresenta un percorso obbligato per chi desideri fare ricerca qualitativa su grandi quantit\u00e0 di dati (come quelli provenienti dai media sociali).<br \/>\nDiscoverText \u00e8 un prodotto della <a href=\"http:\/\/texifter.com\/\" target=\"_blank\">Texifter LLC<\/a>. Si tratta di una societ\u00e0 nata come spin-off a partire\u00a0dall&#8217;attivit\u00e0\u00a0di ricerca di\u00a0<a href=\"http:\/\/people.umass.edu\/stu\/\" target=\"_blank\">Stuart W. Shulman<\/a>\u00a0presso la\u00a0University of Massachusetts Amherst.<br \/>\nNon mi resta dunque che augurare buon lavoro a Stuart e al suo team di sviluppatori.<br \/>\nP.S.\u00a0Durante il periodo di beta-test i dati non sono esportabili quindi non chiedetemeli \ud83d\ude09<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<!--:--><!--:en-->Come accennato nel <a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2011\/10\/limiti-e-possibilita-della-ricerca-su-twitter\/\" target=\"_blank\">precedente post<\/a>, ho avuto la possibilit\u00e0 di testare per alcuni giorni una nuova funzionalit\u00e0 di <a href=\"http:\/\/www.discovertext.com\" target=\"_blank\">DiscoverText<\/a> che consente di reperire gli status di Twitter (Tweet) in tempo (quasi) reale. \u00a0Grazie all&#8217;accordo con <a href=\"http:\/\/gnip.com\/\" target=\"_blank\">Gnip<\/a>, DiscoverText consente dunque di <a href=\"http:\/\/blog.texifter.com\/index.php\/2011\/09\/29\/discovertext-gnip-klout-analytic-power\/\" target=\"_blank\">accedere alla cos\u00ec detta Firehose<\/a> (il flusso di tutti gli status di Twitter) e di raccogliere questi contenuti per una successiva analisi.<br \/>\nLa partecipazione a questo programma di beta test \u00e8 durata dal 19 al 24 Ottobre (anche se il servizio \u00e8 ancora al momento attivo).<br \/>\nDiscoverText, gi\u00e0 nella versione in produzione, consente di importare contenuti da diverse fonti:<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/importer_screenshot.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2192\" title=\"Live Feed Importers\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/importer_screenshot-278x300.png\" alt=\"\" width=\"278\" height=\"300\" \/><\/a><br \/>\nPer quanto riguarda Twitter era gi\u00e0 disponibile il Live Feed Import basato sulle REST API di Twitter che richiede l&#8217;autenticazione con il proprio nome utente e password ed ha il vantaggio di poter reperire i Tweet da un archivio degli ultimi 5\/6 giorni e lo svantaggio di non garantire la completezza dei risultati (si veda il precedente post per i dettagli su questo).<br \/>\nLa novit\u00e0 \u00e8 il GNIP PowerTrack importer.<br \/>\nQuesta modalit\u00e0 di importazione dei Tweet ha il vantaggio di restituire il flusso completo di tutti gli status pubblici e lo svantaggio di non consentire l&#8217;accesso ad alcun archivio (il flusso che si riesce a reperire parte dal momento in cui si inizia a raccogliere i dati).<br \/>\nUna combinazione delle due metodologie di importazione descritte dovrebbe consentire dunque una ragionevole fedelt\u00e0 nella raccolta dati (ovviamente bisogner\u00e0 rimuovere i duplicati, cosa che DiscoverText consente di fare in automatico).<br \/>\nLa metodologia di importazione GNIP PowerTrack si basa sulla costruzione di una regola di importazione che pu\u00f2 essere costruita da un massimo di 10 termini o operatori fino a una lunghezza complessiva di 255 caratteri per l&#8217;intera regola. In pratica si tratta di filtrare il flusso dei contenuti secondo certi criteri.<br \/>\nSi possono cercare frasi esatte, usare gli operatori &#8211; per escludere un termine, usare un hashtag &#8211; vengono identificati alla fonte da Twitter &#8211; come chiave di ricerca, una mention di un utente specifico (@nomeutente compresi i RT), status prodotti o destinati ad un utente specifico (from: e to:), contenenti smile, status prodotti da un client specifico, status che siano retweet di uno specifico utente, status contenenti luoghi, stringhe specifiche, che contengono un certo indirizzo internet, status prodotti da utenti che abbiano un <a href=\"corp.klout.com\/kscore\" target=\"_blank\">klout score<\/a> compreso fra due valori minimo e massimo, status che contengono link, che siano geo-referenziati, che contengono almeno una mentions (compresi dunque i retweet) o almeno un hashtag e infine status classificati da Gnip come appartenenti ad una certa lingua (compreso l&#8217;italiano).<br \/>\nPer testare la funzionalit\u00e0 ho raccolto i dati per molti dei trending topics (per capire meglio come vengono calcolati consiglio la lettura di <a href=\"http:\/\/blog.socialflow.com\/post\/7120244374\/data-reveals-that-occupying-twitter-trending-topics-is-harder-than-it-looks\" target=\"_blank\">questo articolo<\/a>) italiani emersi nel corso degli\u00a0ultimi\u00a0giorni da #erpelliccia a #gheddafi, da #nubifragio a #notav (+ &#8220;val di susa&#8221;) senza dimenticare #XF5 e #gf12. \u00a0Ho anche provato per breve tempo a monitorare un trending topic globale e sponsorizzato come &#8220;Paranormal Activity 3&#8221;. Per completare i test ho anche provato a raccogliere i dati dell&#8217;interno stream di contenuti in lingua italiana allo scopo di comprendere meglio la consistenza del flusso di tweet prodotti nella nostra lingua.<br \/>\nIniziamo l&#8217;analisi da questi ultimi.<br \/>\nUsando il filtro lang:it avrei dovuto reperire il flusso di Tweet in italiano. Purtroppo questo filtro si \u00e8 dimostrato del tutto inefficace. Per motivi che non mi sono chiari oltre ai Tweet in italiano sono stati anche reperiti i Tweet in altre lingue fra cui indonesiano, malese, vietnamita, turco e chiss\u00e0 quante altre (ho usato Google Translate per identificarle). Questa errata identificazione della lingua ha reso impossibile raggiungere l&#8217;obiettivo che mi ero posto ed i sotto-obiettivi che sarebbero stati identificare quanti di questi Tweet prodotti nella nostra lingua fossero geo-referenziati, contenessero link, mentions ed hashtag.<br \/>\nPassiamo dunque all&#8217;analisi del flusso di un trending topic globale e sponsorizzato come &#8220;Paranormal Activity 3&#8221;.<br \/>\nIn questo caso, usando la semplice ricerca per frase esatta, sono stati reperiti 21333 status updates in circa due ore e mezza (nello specifico fra \u00a0il 10\/21\/2011 2:36:13 AM ed il 10\/21\/2011 5:05:37 AM\u00a0EST: Eastern Standard Time). \u00a0Si tratta di 142 Tweet circa al minuto. DiscoverText supporta l&#8217;analisi di grandi quantit\u00e0 di dati attraverso uno strumento chiamato CloudExplorer. Si tratta in pratica di una semplice tagcloud che consente per\u00f2 di cliccare su ogni voce per accedere alla lista dei contenuti filtrati per quella parola chiave.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/pa3_tagcloud.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2191\" title=\"Tag CloudExplorer\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/pa3_tagcloud-300x150.png\" alt=\"\" width=\"300\" height=\"150\" \/><\/a><br \/>\n&nbsp;<br \/>\nCliccando ad esempio su See si accede ad una lista filtrata dei 7260 Tweet in archivio che contengono questo termine. \u00a0L&#8217;archivio pu\u00f2 inoltre essere ricercato liberamente per parola chiave e filtrato usando uno o pi\u00f9 criteri basati sugli stessi metadati disponibili per la costruzione di un filtro. Posso ad esempio sapere con facilit\u00e0 quanti status in archivio contengono un hashtag (in questo caso 2433) o quanti contengono menzioni di altri utenti (8004).<br \/>\nDal pannello filtri avanzati della ricerca \u00e8 inoltre possibile ottenere alcuni altri dati\u00a0sull&#8217;archivio. Si pu\u00f2 ad esempio conoscere il numero degli utenti che hanno usato l&#8217;hashtag (19360) e quale di questi lo abbia fatto pi\u00f9 volte (15).\u00a0Conoscere l&#8217;hashtag pi\u00f9 utilizzato \u00e8 Paranormal con 281 occorrenze seguito curiosamente da iDontSupport con 66 occorrenze. In totale sono stati utilizzati 1342 hastag diversi. Ci sono invece 5930 utenti diversi menzionati con in testa l&#8217;account ufficiale del film chiamato in causa da 531 status.<br \/>\nIl risultato di una ricerca pu\u00f2 essere salvato in un bucket (un contenitore di passaggio con il quale miscelare i dati unendo ad esempio pi\u00f9 di un bucket) dal quale costruire poi un dataset. Al dataset possono essere applicate le classiche tecniche di analisi del contenuto basate su griglie di analisi date o costruite a partire dai dati. Il dataset toolbox comprende strumenti piuttosto avanzati per il supporto della collaborazione fra pi\u00f9 ricercatori nella codifica dello stesso dataset.<br \/>\nVeniamo adesso ai dati che riguardano i trending topics italiani.<br \/>\nMi soffermer\u00f2 sui casi di #gheddafi lang:it, #nubifragio, #notav, #XF5 e #gf12.<br \/>\nL&#8217;importer avviato alle il 20\/10\/2011 alle 13:50 (l&#8217;ANSA con la <a href=\"http:\/\/ansa.it\/web\/notizie\/collection\/rubriche_mondo\/10\/20\/visualizza_new.html_669771564.html\" target=\"_blank\">notizia della morte di Gheddafi<\/a> \u00e8 delle 13:11) ha raccolto 6601 Tweet. Il primo contenuto reperito \u00e8 datato 20\/10\/2011 alle 13:49, l&#8217;ultimo 24\/10\/2011 alle 11:17.<br \/>\nNel GNIP Feed Management \u00e8 possibile visualizzare un grafico dell&#8217;andamento dei Tweet per ogni importer attivo.<br \/>\nQuesto \u00e8 il grafico per #gheddafi (gli orari sono in EST &#8211; Eastern Standard Time e gli slot temporali da circa 15 minuti).<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gheddafi1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2194\" title=\"#gheddafi\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gheddafi1-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIl picco \u00e8 di oltre 300 Tweet in 15 minuti circa e corrisponde con il momento di attivazione dell&#8217;importer.\u00a0Sarebbe stato bello poter raccogliere i dati di quella mezz&#8217;ora intercorsa fra l&#8217;annuncio della morte ed il momento di attivazione dell&#8217;importer. Raccogliere dataset completi relativi a breaking news \u00e8 veramente difficile con questo metodo.<br \/>\nPer questo motivo ho provato nel caso di #nubifragio ad utilizzare sia l&#8217;importer basato sulle REST API sia il GNIP Power Track.<br \/>\nCon questo metodo ho reperito 4005 (1886 con GNIP e 2119 con le REST API) Tweet. La rimozione dei duplicati esatti ha ridotto l&#8217;archivio a 1783 status. Non mi \u00e8 chiarissimo con questo elenco dei duplicati esatti venga creato e dopo averlo applicato anche ad altri archivi che non avrebbero dovuto contenere duplicati temo posso rimuovere anche i retweet identici. Purtroppo \u00e8 difficile estrarre da questo archivio elementi utili sulle date\u00a0perch\u00e9, apparentemente, i Tweet importati da GNIP e quelli importati dalle REST API sono riferiti a fusi orari diversi. \u00a0Questo <a href=\"http:\/\/twitter.com\/#!\/marcocavi\/statuses\/126954248889049088\" target=\"_blank\">status duplicato<\/a> ha come ora di pubblicazione rispettivamente le 9:33 AM EST e le 5:33 AM di un fuso orario sconosciuto.<br \/>\nPi\u00f9 semplice \u00e8 invece lavorare su eventi programmati per i quali \u00e8 possibile attivare l&#8217;importer per tempo.<br \/>\nPer la manifestazione di Val di Susa ho seguito l&#8217;hashtag #notav e la stringa di ricerca &#8220;val di susa&#8221;. Ho attivato l&#8217;importer alle 8:34 23\/10 e reperito nel complesso 5501 Tweet.<br \/>\nDi seguito il grafico per l&#8217;hashtag #notav.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/notav1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2196\" title=\"#notav\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/notav1-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIn questo caso sono riuscito a fotografare l&#8217;andamento del fenomeno prima che raggiungesse il picco (avvenuto intorno all&#8217;ora di pranzo con oltre 300 Tweet prodotti durante lo slot di 15 minuti circa).<br \/>\nGli hashtag pi\u00f9 utilizzati sono stati #diamociuntaglio (1014) e #report (117). Dei 429 utenti menzionati, notav_info \u00e8 il pi\u00f9 citato (645). In totale hanno contribuito a questo hashtag 1300 utenti diversi. Il pi\u00f9 attivo \u00e8 stato ViceVersa_1917 con 146 Tweet.<br \/>\nDurante il periodo di betatest sono inoltre andati in onda le prime puntate della quinta stagione di X Factor e della dodicesima edizione de Il Grande Fratello.<br \/>\nPer X Factor ho monitorato l&#8217;hashtag #xf5 con colpevole ritardo a partire dalla mattina successiva alla messa in onda.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/xf5.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2197\" title=\"#xf5\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/xf5-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nAnche la mattina dopo c&#8217;\u00e8 stato un discreto volume di conversazioni che ha superato il picco di 200 Tweet in 15 minuti. Se dovessi avere ancora accesso al servizio prover\u00f2 a raccogliere i dati relativi alla messa in onda della seconda puntata in onda domani.<br \/>\nInfine per quanto riguarda la prima puntata della dodicesima stagione de Il Grande Fratello ho monitorato sia l&#8217;hashtag #gf12 che la stringa &#8220;grande fratello&#8221; a partire da pochi minuti prima della messa in onda (20:56 del 24\/10).<br \/>\nEcco il volume di Tweet durante la messa in onda (il primo grafico \u00e8 riferito a &#8220;grande fratello&#8221; e il secondo a #gf12) [le 3 PM del grafico equivalgono alle nostre 21:00].<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf121.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2199\" title=\"#gf12\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf121-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf122.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2200\" title=\"#gf12\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf122-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIn entrambi i casi l&#8217;andamento \u00e8 simile con le discussioni che si protraggono fino a oltre mezza notte (le 6 PM nel grafico). Il buco delle 5 PM del grafico credo sia dovuto a qualche problema nel flusso di importazione dei dati.<br \/>\nNel secondo caso si sono toccati e superati gli 800 Tweet in 15 minuti. Inoltre questo volume \u00e8 stato mantenuto per tutta la durata del programma.<br \/>\nNel complesso ho reperito 13308 generati da 5169 utenti il pi\u00f9 attivo dei quali \u00e8 stato w4rr10r_0 con i suoi 160 status. Oltre a #gf12 sono stati utilizzati altri 883 diversi hashtag. Il pi\u00f9 utilizzato dopo #gf12 \u00e8 stato #GrandeFratello.<br \/>\nFra i xxx menzionati nei Tweet etichettati #gf12 spicca @Microsatira il cui <a href=\"http:\/\/twitter.com\/#!\/tod315\/statuses\/128752120643072000\" target=\"_blank\">tweet ironico<\/a>\u00a0\u00e8 stato retweettato oltre 100 volte (in totale ha ricevuto 189 mentions).<br \/>\nLa seguente tagcloud dovrebbe dare un&#8217;idea dei temi pi\u00f9 citati:<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf12_cloud.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2201\" title=\"#gf12_cloud\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf12_cloud-300x174.png\" alt=\"\" width=\"300\" height=\"174\" \/><\/a><br \/>\nCome spesso accade nei discorsi sui programmi televisivi di grande richiamo i commenti veri e propri al programma si sommano ai giudizi di chi non riesce a capacitarsi di come quel programma possa avere successo o si lamenta della qualit\u00e0 della televisione italiana.<br \/>\nIn conclusione credo che\u00a0DiscoverText sia uno strumento con delle caratteristiche uniche. Non si tratta di un prodotto perfetto e non sono mancate le volte nelle quali, specie su grandi quantit\u00e0 di dati, mi sono stati restituiti dei messaggi di errore. L&#8217;accordo che stanno perfezionando con Gnip potrebbe rendere questo strumento essenziale per chi voglia fare ricerca su Twitter. Le modalit\u00e0 di implementazione di questa funzionalit\u00e0 rendono bene le potenzialit\u00e0 di estensibilit\u00e0 della piattaforma. La gestione delle timezones appare migliorabile (forse renderanno in futuro possibile scegliere all&#8217;utente il fuso orario per il grafico). Nel complesso il sistema si comporta bene anche su grandi quantit\u00e0 di dati mostrando eccellenti performance nella creazione delle tagclouds (che necessiterebbero per\u00f2 della possibilit\u00e0 di escludere liste di parole comuni) e nelle ricerche che richiedono sempre\u00a0tempi ragionevolmente brevi per essere portate a termine.<br \/>\nCredo ci siano pi\u00f9 di uno spunto<br \/>\nCome ho avuto modo di scrivere <a href=\"http:\/\/books.google.com\/books?hl=it&amp;lr=&amp;id=QyzJFA3gBAgC&amp;oi=fnd&amp;pg=PA303&amp;dq=social+semantics+giglietto&amp;ots=VvxUh1H_VX&amp;sig=N_yFjNw1XbwKeIZhlLrG6Z3jQ1o#v=onepage&amp;q=social%20semantics%20giglietto&amp;f=false\" target=\"_blank\">altrove<\/a>, l&#8217;utilizzo di una piattaforma web collaborativa per l&#8217;analisi del contenuto rappresenta un percorso obbligato per chi desideri fare ricerca qualitativa su grandi quantit\u00e0 di dati (come quelli provenienti dai media sociali).<br \/>\nDiscoverText \u00e8 un prodotto della <a href=\"http:\/\/texifter.com\/\" target=\"_blank\">Texifter LLC<\/a>. Si tratta di una societ\u00e0 nata come spin-off a partire\u00a0dall&#8217;attivit\u00e0\u00a0di ricerca di\u00a0<a href=\"http:\/\/people.umass.edu\/stu\/\" target=\"_blank\">Stuart W. Shulman<\/a>\u00a0presso la\u00a0University of Massachusetts Amherst.<br \/>\nNon mi resta dunque che augurare buon lavoro a Stuart e al suo team di sviluppatori.<br \/>\nP.S.\u00a0Durante il periodo di beta-test i dati non sono esportabili quindi non chiedetemeli \ud83d\ude09<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<!--:--><!--:zh-->Come accennato nel <a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2011\/10\/limiti-e-possibilita-della-ricerca-su-twitter\/\" target=\"_blank\">precedente post<\/a>, ho avuto la possibilit\u00e0 di testare per alcuni giorni una nuova funzionalit\u00e0 di <a href=\"http:\/\/www.discovertext.com\" target=\"_blank\">DiscoverText<\/a> che consente di reperire gli status di Twitter (Tweet) in tempo (quasi) reale. \u00a0Grazie all&#8217;accordo con <a href=\"http:\/\/gnip.com\/\" target=\"_blank\">Gnip<\/a>, DiscoverText consente dunque di <a href=\"http:\/\/blog.texifter.com\/index.php\/2011\/09\/29\/discovertext-gnip-klout-analytic-power\/\" target=\"_blank\">accedere alla cos\u00ec detta Firehose<\/a> (il flusso di tutti gli status di Twitter) e di raccogliere questi contenuti per una successiva analisi.<br \/>\nLa partecipazione a questo programma di beta test \u00e8 durata dal 19 al 24 Ottobre (anche se il servizio \u00e8 ancora al momento attivo).<br \/>\nDiscoverText, gi\u00e0 nella versione in produzione, consente di importare contenuti da diverse fonti:<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/importer_screenshot.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2192\" title=\"Live Feed Importers\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/importer_screenshot-278x300.png\" alt=\"\" width=\"278\" height=\"300\" \/><\/a><br \/>\nPer quanto riguarda Twitter era gi\u00e0 disponibile il Live Feed Import basato sulle REST API di Twitter che richiede l&#8217;autenticazione con il proprio nome utente e password ed ha il vantaggio di poter reperire i Tweet da un archivio degli ultimi 5\/6 giorni e lo svantaggio di non garantire la completezza dei risultati (si veda il precedente post per i dettagli su questo).<br \/>\nLa novit\u00e0 \u00e8 il GNIP PowerTrack importer.<br \/>\nQuesta modalit\u00e0 di importazione dei Tweet ha il vantaggio di restituire il flusso completo di tutti gli status pubblici e lo svantaggio di non consentire l&#8217;accesso ad alcun archivio (il flusso che si riesce a reperire parte dal momento in cui si inizia a raccogliere i dati).<br \/>\nUna combinazione delle due metodologie di importazione descritte dovrebbe consentire dunque una ragionevole fedelt\u00e0 nella raccolta dati (ovviamente bisogner\u00e0 rimuovere i duplicati, cosa che DiscoverText consente di fare in automatico).<br \/>\nLa metodologia di importazione GNIP PowerTrack si basa sulla costruzione di una regola di importazione che pu\u00f2 essere costruita da un massimo di 10 termini o operatori fino a una lunghezza complessiva di 255 caratteri per l&#8217;intera regola. In pratica si tratta di filtrare il flusso dei contenuti secondo certi criteri.<br \/>\nSi possono cercare frasi esatte, usare gli operatori &#8211; per escludere un termine, usare un hashtag &#8211; vengono identificati alla fonte da Twitter &#8211; come chiave di ricerca, una mention di un utente specifico (@nomeutente compresi i RT), status prodotti o destinati ad un utente specifico (from: e to:), contenenti smile, status prodotti da un client specifico, status che siano retweet di uno specifico utente, status contenenti luoghi, stringhe specifiche, che contengono un certo indirizzo internet, status prodotti da utenti che abbiano un <a href=\"corp.klout.com\/kscore\" target=\"_blank\">klout score<\/a> compreso fra due valori minimo e massimo, status che contengono link, che siano geo-referenziati, che contengono almeno una mentions (compresi dunque i retweet) o almeno un hashtag e infine status classificati da Gnip come appartenenti ad una certa lingua (compreso l&#8217;italiano).<br \/>\nPer testare la funzionalit\u00e0 ho raccolto i dati per molti dei trending topics (per capire meglio come vengono calcolati consiglio la lettura di <a href=\"http:\/\/blog.socialflow.com\/post\/7120244374\/data-reveals-that-occupying-twitter-trending-topics-is-harder-than-it-looks\" target=\"_blank\">questo articolo<\/a>) italiani emersi nel corso degli\u00a0ultimi\u00a0giorni da #erpelliccia a #gheddafi, da #nubifragio a #notav (+ &#8220;val di susa&#8221;) senza dimenticare #XF5 e #gf12. \u00a0Ho anche provato per breve tempo a monitorare un trending topic globale e sponsorizzato come &#8220;Paranormal Activity 3&#8221;. Per completare i test ho anche provato a raccogliere i dati dell&#8217;interno stream di contenuti in lingua italiana allo scopo di comprendere meglio la consistenza del flusso di tweet prodotti nella nostra lingua.<br \/>\nIniziamo l&#8217;analisi da questi ultimi.<br \/>\nUsando il filtro lang:it avrei dovuto reperire il flusso di Tweet in italiano. Purtroppo questo filtro si \u00e8 dimostrato del tutto inefficace. Per motivi che non mi sono chiari oltre ai Tweet in italiano sono stati anche reperiti i Tweet in altre lingue fra cui indonesiano, malese, vietnamita, turco e chiss\u00e0 quante altre (ho usato Google Translate per identificarle). Questa errata identificazione della lingua ha reso impossibile raggiungere l&#8217;obiettivo che mi ero posto ed i sotto-obiettivi che sarebbero stati identificare quanti di questi Tweet prodotti nella nostra lingua fossero geo-referenziati, contenessero link, mentions ed hashtag.<br \/>\nPassiamo dunque all&#8217;analisi del flusso di un trending topic globale e sponsorizzato come &#8220;Paranormal Activity 3&#8221;.<br \/>\nIn questo caso, usando la semplice ricerca per frase esatta, sono stati reperiti 21333 status updates in circa due ore e mezza (nello specifico fra \u00a0il 10\/21\/2011 2:36:13 AM ed il 10\/21\/2011 5:05:37 AM\u00a0EST: Eastern Standard Time). \u00a0Si tratta di 142 Tweet circa al minuto. DiscoverText supporta l&#8217;analisi di grandi quantit\u00e0 di dati attraverso uno strumento chiamato CloudExplorer. Si tratta in pratica di una semplice tagcloud che consente per\u00f2 di cliccare su ogni voce per accedere alla lista dei contenuti filtrati per quella parola chiave.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/pa3_tagcloud.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2191\" title=\"Tag CloudExplorer\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/pa3_tagcloud-300x150.png\" alt=\"\" width=\"300\" height=\"150\" \/><\/a><br \/>\n&nbsp;<br \/>\nCliccando ad esempio su See si accede ad una lista filtrata dei 7260 Tweet in archivio che contengono questo termine. \u00a0L&#8217;archivio pu\u00f2 inoltre essere ricercato liberamente per parola chiave e filtrato usando uno o pi\u00f9 criteri basati sugli stessi metadati disponibili per la costruzione di un filtro. Posso ad esempio sapere con facilit\u00e0 quanti status in archivio contengono un hashtag (in questo caso 2433) o quanti contengono menzioni di altri utenti (8004).<br \/>\nDal pannello filtri avanzati della ricerca \u00e8 inoltre possibile ottenere alcuni altri dati\u00a0sull&#8217;archivio. Si pu\u00f2 ad esempio conoscere il numero degli utenti che hanno usato l&#8217;hashtag (19360) e quale di questi lo abbia fatto pi\u00f9 volte (15).\u00a0Conoscere l&#8217;hashtag pi\u00f9 utilizzato \u00e8 Paranormal con 281 occorrenze seguito curiosamente da iDontSupport con 66 occorrenze. In totale sono stati utilizzati 1342 hastag diversi. Ci sono invece 5930 utenti diversi menzionati con in testa l&#8217;account ufficiale del film chiamato in causa da 531 status.<br \/>\nIl risultato di una ricerca pu\u00f2 essere salvato in un bucket (un contenitore di passaggio con il quale miscelare i dati unendo ad esempio pi\u00f9 di un bucket) dal quale costruire poi un dataset. Al dataset possono essere applicate le classiche tecniche di analisi del contenuto basate su griglie di analisi date o costruite a partire dai dati. Il dataset toolbox comprende strumenti piuttosto avanzati per il supporto della collaborazione fra pi\u00f9 ricercatori nella codifica dello stesso dataset.<br \/>\nVeniamo adesso ai dati che riguardano i trending topics italiani.<br \/>\nMi soffermer\u00f2 sui casi di #gheddafi lang:it, #nubifragio, #notav, #XF5 e #gf12.<br \/>\nL&#8217;importer avviato alle il 20\/10\/2011 alle 13:50 (l&#8217;ANSA con la <a href=\"http:\/\/ansa.it\/web\/notizie\/collection\/rubriche_mondo\/10\/20\/visualizza_new.html_669771564.html\" target=\"_blank\">notizia della morte di Gheddafi<\/a> \u00e8 delle 13:11) ha raccolto 6601 Tweet. Il primo contenuto reperito \u00e8 datato 20\/10\/2011 alle 13:49, l&#8217;ultimo 24\/10\/2011 alle 11:17.<br \/>\nNel GNIP Feed Management \u00e8 possibile visualizzare un grafico dell&#8217;andamento dei Tweet per ogni importer attivo.<br \/>\nQuesto \u00e8 il grafico per #gheddafi (gli orari sono in EST &#8211; Eastern Standard Time e gli slot temporali da circa 15 minuti).<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gheddafi1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2194\" title=\"#gheddafi\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gheddafi1-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIl picco \u00e8 di oltre 300 Tweet in 15 minuti circa e corrisponde con il momento di attivazione dell&#8217;importer.\u00a0Sarebbe stato bello poter raccogliere i dati di quella mezz&#8217;ora intercorsa fra l&#8217;annuncio della morte ed il momento di attivazione dell&#8217;importer. Raccogliere dataset completi relativi a breaking news \u00e8 veramente difficile con questo metodo.<br \/>\nPer questo motivo ho provato nel caso di #nubifragio ad utilizzare sia l&#8217;importer basato sulle REST API sia il GNIP Power Track.<br \/>\nCon questo metodo ho reperito 4005 (1886 con GNIP e 2119 con le REST API) Tweet. La rimozione dei duplicati esatti ha ridotto l&#8217;archivio a 1783 status. Non mi \u00e8 chiarissimo con questo elenco dei duplicati esatti venga creato e dopo averlo applicato anche ad altri archivi che non avrebbero dovuto contenere duplicati temo posso rimuovere anche i retweet identici. Purtroppo \u00e8 difficile estrarre da questo archivio elementi utili sulle date\u00a0perch\u00e9, apparentemente, i Tweet importati da GNIP e quelli importati dalle REST API sono riferiti a fusi orari diversi. \u00a0Questo <a href=\"http:\/\/twitter.com\/#!\/marcocavi\/statuses\/126954248889049088\" target=\"_blank\">status duplicato<\/a> ha come ora di pubblicazione rispettivamente le 9:33 AM EST e le 5:33 AM di un fuso orario sconosciuto.<br \/>\nPi\u00f9 semplice \u00e8 invece lavorare su eventi programmati per i quali \u00e8 possibile attivare l&#8217;importer per tempo.<br \/>\nPer la manifestazione di Val di Susa ho seguito l&#8217;hashtag #notav e la stringa di ricerca &#8220;val di susa&#8221;. Ho attivato l&#8217;importer alle 8:34 23\/10 e reperito nel complesso 5501 Tweet.<br \/>\nDi seguito il grafico per l&#8217;hashtag #notav.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/notav1.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2196\" title=\"#notav\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/notav1-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIn questo caso sono riuscito a fotografare l&#8217;andamento del fenomeno prima che raggiungesse il picco (avvenuto intorno all&#8217;ora di pranzo con oltre 300 Tweet prodotti durante lo slot di 15 minuti circa).<br \/>\nGli hashtag pi\u00f9 utilizzati sono stati #diamociuntaglio (1014) e #report (117). Dei 429 utenti menzionati, notav_info \u00e8 il pi\u00f9 citato (645). In totale hanno contribuito a questo hashtag 1300 utenti diversi. Il pi\u00f9 attivo \u00e8 stato ViceVersa_1917 con 146 Tweet.<br \/>\nDurante il periodo di betatest sono inoltre andati in onda le prime puntate della quinta stagione di X Factor e della dodicesima edizione de Il Grande Fratello.<br \/>\nPer X Factor ho monitorato l&#8217;hashtag #xf5 con colpevole ritardo a partire dalla mattina successiva alla messa in onda.<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/xf5.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2197\" title=\"#xf5\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/xf5-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nAnche la mattina dopo c&#8217;\u00e8 stato un discreto volume di conversazioni che ha superato il picco di 200 Tweet in 15 minuti. Se dovessi avere ancora accesso al servizio prover\u00f2 a raccogliere i dati relativi alla messa in onda della seconda puntata in onda domani.<br \/>\nInfine per quanto riguarda la prima puntata della dodicesima stagione de Il Grande Fratello ho monitorato sia l&#8217;hashtag #gf12 che la stringa &#8220;grande fratello&#8221; a partire da pochi minuti prima della messa in onda (20:56 del 24\/10).<br \/>\nEcco il volume di Tweet durante la messa in onda (il primo grafico \u00e8 riferito a &#8220;grande fratello&#8221; e il secondo a #gf12) [le 3 PM del grafico equivalgono alle nostre 21:00].<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf121.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2199\" title=\"#gf12\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf121-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf122.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2200\" title=\"#gf12\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf122-300x50.png\" alt=\"\" width=\"300\" height=\"50\" \/><\/a><br \/>\n&nbsp;<br \/>\nIn entrambi i casi l&#8217;andamento \u00e8 simile con le discussioni che si protraggono fino a oltre mezza notte (le 6 PM nel grafico). Il buco delle 5 PM del grafico credo sia dovuto a qualche problema nel flusso di importazione dei dati.<br \/>\nNel secondo caso si sono toccati e superati gli 800 Tweet in 15 minuti. Inoltre questo volume \u00e8 stato mantenuto per tutta la durata del programma.<br \/>\nNel complesso ho reperito 13308 generati da 5169 utenti il pi\u00f9 attivo dei quali \u00e8 stato w4rr10r_0 con i suoi 160 status. Oltre a #gf12 sono stati utilizzati altri 883 diversi hashtag. Il pi\u00f9 utilizzato dopo #gf12 \u00e8 stato #GrandeFratello.<br \/>\nFra i xxx menzionati nei Tweet etichettati #gf12 spicca @Microsatira il cui <a href=\"http:\/\/twitter.com\/#!\/tod315\/statuses\/128752120643072000\" target=\"_blank\">tweet ironico<\/a>\u00a0\u00e8 stato retweettato oltre 100 volte (in totale ha ricevuto 189 mentions).<br \/>\nLa seguente tagcloud dovrebbe dare un&#8217;idea dei temi pi\u00f9 citati:<br \/>\n<a href=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf12_cloud.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-medium wp-image-2201\" title=\"#gf12_cloud\" src=\"http:\/\/larica.uniurb.it\/nextmedia\/files\/2011\/10\/gf12_cloud-300x174.png\" alt=\"\" width=\"300\" height=\"174\" \/><\/a><br \/>\nCome spesso accade nei discorsi sui programmi televisivi di grande richiamo i commenti veri e propri al programma si sommano ai giudizi di chi non riesce a capacitarsi di come quel programma possa avere successo o si lamenta della qualit\u00e0 della televisione italiana.<br \/>\nIn conclusione credo che\u00a0DiscoverText sia uno strumento con delle caratteristiche uniche. Non si tratta di un prodotto perfetto e non sono mancate le volte nelle quali, specie su grandi quantit\u00e0 di dati, mi sono stati restituiti dei messaggi di errore. L&#8217;accordo che stanno perfezionando con Gnip potrebbe rendere questo strumento essenziale per chi voglia fare ricerca su Twitter. Le modalit\u00e0 di implementazione di questa funzionalit\u00e0 rendono bene le potenzialit\u00e0 di estensibilit\u00e0 della piattaforma. La gestione delle timezones appare migliorabile (forse renderanno in futuro possibile scegliere all&#8217;utente il fuso orario per il grafico). Nel complesso il sistema si comporta bene anche su grandi quantit\u00e0 di dati mostrando eccellenti performance nella creazione delle tagclouds (che necessiterebbero per\u00f2 della possibilit\u00e0 di escludere liste di parole comuni) e nelle ricerche che richiedono sempre\u00a0tempi ragionevolmente brevi per essere portate a termine.<br \/>\nCredo ci siano pi\u00f9 di uno spunto<br \/>\nCome ho avuto modo di scrivere <a href=\"http:\/\/books.google.com\/books?hl=it&amp;lr=&amp;id=QyzJFA3gBAgC&amp;oi=fnd&amp;pg=PA303&amp;dq=social+semantics+giglietto&amp;ots=VvxUh1H_VX&amp;sig=N_yFjNw1XbwKeIZhlLrG6Z3jQ1o#v=onepage&amp;q=social%20semantics%20giglietto&amp;f=false\" target=\"_blank\">altrove<\/a>, l&#8217;utilizzo di una piattaforma web collaborativa per l&#8217;analisi del contenuto rappresenta un percorso obbligato per chi desideri fare ricerca qualitativa su grandi quantit\u00e0 di dati (come quelli provenienti dai media sociali).<br \/>\nDiscoverText \u00e8 un prodotto della <a href=\"http:\/\/texifter.com\/\" target=\"_blank\">Texifter LLC<\/a>. Si tratta di una societ\u00e0 nata come spin-off a partire\u00a0dall&#8217;attivit\u00e0\u00a0di ricerca di\u00a0<a href=\"http:\/\/people.umass.edu\/stu\/\" target=\"_blank\">Stuart W. Shulman<\/a>\u00a0presso la\u00a0University of Massachusetts Amherst.<br \/>\nNon mi resta dunque che augurare buon lavoro a Stuart e al suo team di sviluppatori.<br \/>\nP.S.\u00a0Durante il periodo di beta-test i dati non sono esportabili quindi non chiedetemeli \ud83d\ude09<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<br \/>\n&nbsp;<!--:--><\/p>\n","protected":false},"excerpt":{"rendered":"<p><!--:it-->Gli argomenti della settimana su Twitter in Italia analizzati con il GnipPowerTrack importer di DiscoverText<!--:--><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12,15],"tags":[225,226,227,228,211,224,114,229,212],"_links":{"self":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2186"}],"collection":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2186"}],"version-history":[{"count":0,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2186\/revisions"}],"wp:attachment":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2186"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2186"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2186"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}