{"id":2171,"date":"2011-10-20T17:37:56","date_gmt":"2011-10-20T15:37:56","guid":{"rendered":"http:\/\/larica.uniurb.it\/nextmedia\/?p=2171"},"modified":"2011-10-20T17:37:56","modified_gmt":"2011-10-20T15:37:56","slug":"limiti-e-possibilita-della-ricerca-su-twitter","status":"publish","type":"post","link":"https:\/\/nextmedia.uniurb.it\/?p=2171","title":{"rendered":"Limiti e possibilit\u00e0 della ricerca su Twitter"},"content":{"rendered":"<p><!--:it-->Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche nella comunit\u00e0 accademica italiana, l&#8217;idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.<br \/>\nCome all&#8217;estero anche in Italia, i ricercatori, al pari dei media, dedicano a Twitter un&#8217;attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.<br \/>\nSul blog ufficiale di Twitter si legge che <a href=\"http:\/\/blog.twitter.com\/2011\/09\/one-hundred-million-voices.html\">la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi<\/a> nel mondo, che la met\u00e0 di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza <a href=\"http:\/\/www.vincos.it\/2011\/09\/09\/facebook-e-twitter-statistiche-a-confronto\/\">ha messo a confronto<\/a> questi dati con quelli rilasciati da Facebook.<br \/>\nTwitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma <a href=\"http:\/\/www.vincos.it\/2010\/10\/10\/quanti-italiani-usano-twitter\/\" target=\"_blank\">fonti attendibili<\/a> stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cio\u00e8 fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.<br \/>\nCapire la situazione a oggi non \u00e8 affatto semplice.<br \/>\nStimare il traffico verso il sito non \u00e8 infatti, in questo caso, un buon indicatore\u00a0perch\u00e9\u00a0una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un <a href=\"http:\/\/www.google.com\/insights\/search\/#q=twitter&amp;geo=IT&amp;date=1%2F2006%2070m&amp;cmpt=q\" target=\"_blank\">interesse\u00a0crescente<\/a>,\u00a0in Italia, per questa piattaforma con un volume che, tuttavia, <a href=\"http:\/\/www.google.com\/insights\/search\/#q=twitter%2Cnetlog%2Cbadoo%2Cflickr&amp;geo=IT&amp;date=1%2F2010%2022m&amp;cmpt=q\" target=\"_blank\">non si discosta molto da quello di siti come Badoo, Netlog o Flickr<\/a>. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un&#8217;idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell&#8217;interesse degli utenti verso una certa piattaforma).<br \/>\nChiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell&#8217;interesse dei ricercatori italiani.<br \/>\nDi fatto cos\u00ec non \u00e8. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull&#8217;analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest&#8217;ultima piattaforma. Basta scorrere il <a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2011\/10\/storifying-ir12\/\" target=\"_blank\">resoconto del recente convegno dell&#8217;associazione internazionale dei ricercatori che studiano internet<\/a>, per capire che non si tratta di un fenomeno italiano e che l&#8217;interesse della comunit\u00e0 accademica \u00e8 centrato, a dispetto dei dati sull&#8217;utilizzo, pi\u00f9 su Twitter che su Facebook. Questa tendenza \u00e8 particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.<br \/>\nCredo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:<br \/>\n1. Il sistema di privacy e le pratiche d&#8217;uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;<br \/>\n2. L&#8217;interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;<br \/>\n3. La natura orientata all&#8217;informazione (la domanda di Twitter \u00e8 &#8220;Cosa sta succedendo&#8221; e non &#8220;A cosa stai pensando&#8221;) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;<br \/>\n4. L&#8217;emergere di pratiche come l&#8217;uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalit\u00e0 interne della piattaforma) rendono pi\u00f9 semplice comprendere la struttura delle conversazioni.<br \/>\nDunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.<br \/>\nL&#8217;apparente semplicit\u00e0 di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.<br \/>\nIntanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.<br \/>\nMa c&#8217;\u00e8 dell&#8217;altro. Come forse saprete Twitter impone dei limiti di accesso per l&#8217;utilizzo delle sue API pubbliche.<br \/>\nPurtroppo questi limiti non sono affatto chiari.<br \/>\nSi sa che le Twitter REST API sono soggette ai seguenti limiti:<br \/>\n&#8211; 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);<br \/>\n&#8211; 350 richieste autenticate all&#8217;ora (basate sull&#8217;identificativo dell&#8217;utente che fa la richiesta).<br \/>\nSi sa inoltre che ogni richiesta pu\u00f2 restituire un massimo di 1500 tweet.<br \/>\nLa documentazione che riguarda le <a href=\"https:\/\/dev.twitter.com\/docs\/using-search\" target=\"_blank\">Twitter Search API<\/a> specifica che la ricerca non d\u00e0 accesso all&#8217;indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet pi\u00f9 vecchi di una settimana.<br \/>\nInoltre aggiunge:<\/p>\n<blockquote><p>The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.<br \/>\nAs requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.<br \/>\nTo prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error.\u00a0<code>{\"error\":\"You have been rate limited. Enhance your calm.\"}<\/code>.<\/p><\/blockquote>\n<p>Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all&#8217;appello\u00a0per raggiunti limiti di richieste,\u00a0perch\u00e9 l&#8217;utente che ha generato il tweet ha un basso ranking o, infine, semplicemente\u00a0perch\u00e9, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda <a href=\"https:\/\/support.twitter.com\/groups\/32-something-s-not-working\/topics\/118-search-problems\/articles\/66018-i-m-missing-from-search\" target=\"_blank\">qui<\/a>).<br \/>\nSe si desidera la completezza (un requisito di solito\u00a0indispensabile\u00a0per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.<br \/>\nLe Straming API restituiscono i Tweet in tempo reale. Questo significa che non \u00e8 possibile tornare indietro nel tempo.<br \/>\nMa anche le Streaming API hanno <a href=\"https:\/\/dev.twitter.com\/docs\/streaming-api\/concepts\" target=\"_blank\">dei limiti<\/a>.<\/p>\n<blockquote><p>Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.<\/p><\/blockquote>\n<p>In compenso<\/p>\n<blockquote><p>\u00a0The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.<\/p><\/blockquote>\n<p>L&#8217;uso delle Streaming API richiede l&#8217;autenticazione.<br \/>\nDi seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses\/sample e statuses\/filter e che per tutti gli altri metodi bisogna contattare Twitter.<br \/>\nOra cosa sono questi statuses\/sample e statuses\/filter?<br \/>\nIl primo restituisce un campione di Tweet basato sull&#8217;universo costituito dal flusso di tutti gli status pubblici (il cui flusso \u00e8 chiamato da Twitter Firehose).<br \/>\nLe proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:<br \/>\n&#8211; Circa l&#8217;1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);<br \/>\n&#8211; Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).<br \/>\nIl metodo statuses\/filter \u00e8 quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.<br \/>\nIl livello di accesso di default consente l&#8217;accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non \u00e8 chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).<br \/>\nIn aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge&#8230;<\/p>\n<blockquote><p>Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.<\/p><\/blockquote>\n<p>Non \u00e8 dato sapere cosa costituisca una ricerca ragionevolmente focalizzata.\u00a0Rimane dunque la sensazione di una certa confusione. \u00a0Nell&#8217;articolo <a href=\"http:\/\/ssrn.com\/abstract=1926431\" target=\"_blank\">Six Provocations for Big Data<\/a> le autrici affermano che<\/p>\n<blockquote><p>Twitter Inc. makes a fraction of its material available to the public through its APIs. The \u2018firehose\u2019 theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or \u2018protected.\u2019 Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a \u2018gardenhose\u2019 (roughly 10% of public tweets), a \u2018spritzer\u2019 (roughly 1% of public tweets), or have used \u2018white-listed\u2019 accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.<\/p><\/blockquote>\n<p>Di recente <a href=\"http:\/\/www.discovertext.com\" target=\"_blank\">DiscoverText<\/a> ha <a href=\"http:\/\/blog.texifter.com\/index.php\/2011\/09\/29\/discovertext-gnip-klout-analytic-power\/\" target=\"_blank\">siglato un accordo con Gnip<\/a> per\u00a0offrire\u00a0ai\u00a0ricercatori\u00a0che usano questa piattaforma l&#8217;accesso alla Firehose di Twitter. Al momento il servizio \u00e8 in beta limitata ad un ristretto numero di utenti.<br \/>\nDa ieri ho accesso a questo servizio e lo avr\u00f2 per i prossimi 4 giorni. Ho gi\u00e0 iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercher\u00f2 di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parler\u00f2 in un prossimo post.<!--:--><!--:en-->Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche presso la comunit\u00e0 accademica italiana, l&#8217;idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.<br \/>\nCome all&#8217;estero anche in Italia, i ricercatori, come i media, dedicano a Twitter un&#8217;attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.<br \/>\nSul blog ufficiale di Twitter si legge che <a href=\"http:\/\/blog.twitter.com\/2011\/09\/one-hundred-million-voices.html\">la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi<\/a> nel mondo, che la met\u00e0 di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza <a href=\"http:\/\/www.vincos.it\/2011\/09\/09\/facebook-e-twitter-statistiche-a-confronto\/\">ha messo a confronto<\/a> questi dati con quelli rilasciati da Facebook.<br \/>\nTwitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma <a href=\"http:\/\/www.vincos.it\/2010\/10\/10\/quanti-italiani-usano-twitter\/\" target=\"_blank\">fonti attendibili<\/a> stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cio\u00e8 fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.<br \/>\nCapire la situazione a oggi non \u00e8 affatto semplice.<br \/>\nStimare il traffico verso il sito non \u00e8 infatti, in questo caso, un buon indicatore\u00a0perch\u00e9\u00a0una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un <a href=\"http:\/\/www.google.com\/insights\/search\/#q=twitter&amp;geo=IT&amp;date=1%2F2006%2070m&amp;cmpt=q\" target=\"_blank\">interesse\u00a0crescente<\/a>,\u00a0in Italia, per questa piattaforma con un volume che, tuttavia, <a href=\"http:\/\/www.google.com\/insights\/search\/#q=twitter%2Cnetlog%2Cbadoo%2Cflickr&amp;geo=IT&amp;date=1%2F2010%2022m&amp;cmpt=q\" target=\"_blank\">non si discosta molto da quello di siti come Badoo, Netlog o Flickr<\/a>. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un&#8217;idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell&#8217;interesse degli utenti verso una certa piattaforma).<br \/>\nChiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell&#8217;interesse dei ricercatori italiani.<br \/>\nDi fatto cos\u00ec non \u00e8. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull&#8217;analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest&#8217;ultima piattaforma. Basta scorrere il <a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2011\/10\/storifying-ir12\/\" target=\"_blank\">resoconto del recente convegno dell&#8217;associazione internazionale dei ricercatori che studiano internet<\/a>, per capire che non si tratta di un fenomeno italiano e che l&#8217;interesse della comunit\u00e0 accademica \u00e8 centrato, a dispetto dei dati sull&#8217;utilizzo, pi\u00f9 su Twitter che su Facebook. Questa tendenza \u00e8 particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.<br \/>\nCredo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:<br \/>\n1. Il sistema di privacy e le pratiche d&#8217;uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;<br \/>\n2. L&#8217;interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;<br \/>\n3. La natura orientata all&#8217;informazione (la domanda di Twitter \u00e8 &#8220;Cosa sta succedendo&#8221; e non &#8220;A cosa stai pensando&#8221;) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;<br \/>\n4. L&#8217;emergere di pratiche come l&#8217;uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalit\u00e0 interne della piattaforma) rendono pi\u00f9 semplice comprendere la struttura delle conversazioni.<br \/>\nDunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.<br \/>\nL&#8217;apparente semplicit\u00e0 di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.<br \/>\nIntanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.<br \/>\nMa c&#8217;\u00e8 dell&#8217;altro. Come forse saprete Twitter impone dei limiti di accesso per l&#8217;utilizzo delle sue API pubbliche.<br \/>\nPurtroppo questi limiti non sono affatto chiari.<br \/>\nSi sa che le Twitter REST API sono soggette ai seguenti limiti:<br \/>\n&#8211; 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);<br \/>\n&#8211; 350 richieste autenticate all&#8217;ora (basate sull&#8217;identificativo dell&#8217;utente che fa la richiesta).<br \/>\nSi sa inoltre che ogni richiesta pu\u00f2 restituire un massimo di 1500 tweet.<br \/>\nLa documentazione che riguarda le <a href=\"https:\/\/dev.twitter.com\/docs\/using-search\" target=\"_blank\">Twitter Search API<\/a> specifica che la ricerca non d\u00e0 accesso all&#8217;indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet pi\u00f9 vecchi di una settimana.<br \/>\nInoltre aggiunge:<\/p>\n<blockquote><p>The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.<br \/>\nAs requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.<br \/>\nTo prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error.\u00a0<code>{\"error\":\"You have been rate limited. Enhance your calm.\"}<\/code>.<\/p><\/blockquote>\n<p>Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all&#8217;appello\u00a0per raggiunti limiti di richieste,\u00a0perch\u00e9 l&#8217;utente che ha generato il tweet ha un basso ranking o, infine, semplicemente\u00a0perch\u00e9, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda <a href=\"https:\/\/support.twitter.com\/groups\/32-something-s-not-working\/topics\/118-search-problems\/articles\/66018-i-m-missing-from-search\" target=\"_blank\">qui<\/a>).<br \/>\nSe si desidera la completezza (un requisito di solito\u00a0indispensabile\u00a0per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.<br \/>\nLe Straming API restituiscono i Tweet in tempo reale. Questo significa che non \u00e8 possibile tornare indietro nel tempo.<br \/>\nMa anche le Streaming API hanno <a href=\"https:\/\/dev.twitter.com\/docs\/streaming-api\/concepts\" target=\"_blank\">dei limiti<\/a>.<\/p>\n<blockquote><p>Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.<\/p><\/blockquote>\n<p>In compenso<\/p>\n<blockquote><p>\u00a0The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.<\/p><\/blockquote>\n<p>L&#8217;uso delle Streaming API richiede l&#8217;autenticazione.<br \/>\nDi seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses\/sample e statuses\/filter e che per tutti gli altri metodi bisogna contattare Twitter.<br \/>\nOra cosa sono questi statuses\/sample e statuses\/filter?<br \/>\nIl primo restituisce un campione di Tweet basato sull&#8217;universo costituito dal flusso di tutti gli status pubblici (il cui flusso \u00e8 chiamato da Twitter Firehose).<br \/>\nLe proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:<br \/>\n&#8211; Circa l&#8217;1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);<br \/>\n&#8211; Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).<br \/>\nIl metodo statuses\/filter \u00e8 quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.<br \/>\nIl livello di accesso di default consente l&#8217;accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non \u00e8 chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).<br \/>\nIn aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge&#8230;<\/p>\n<blockquote><p>Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.<\/p><\/blockquote>\n<p>Non \u00e8 dato sapere cosa costituisca una ricerca ragionevolmente focalizzata.\u00a0Rimane dunque la sensazione di una certa confusione. \u00a0Nell&#8217;articolo <a href=\"http:\/\/ssrn.com\/abstract=1926431\" target=\"_blank\">Six Provocations for Big Data<\/a> le autrici affermano che<\/p>\n<blockquote><p>Twitter Inc. makes a fraction of its material available to the public through its APIs. The \u2018firehose\u2019 theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or \u2018protected.\u2019 Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a \u2018gardenhose\u2019 (roughly 10% of public tweets), a \u2018spritzer\u2019 (roughly 1% of public tweets), or have used \u2018white-listed\u2019 accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.<\/p><\/blockquote>\n<p>Di recente DiscoverText ha siglato un accordo con Gnip per\u00a0offrire\u00a0ai\u00a0ricercatori\u00a0che usano questa piattaforma l&#8217;accesso alla Firehose di Twitter. Al momento il servizio \u00e8 in beta limitata ad un ristretto numero di utenti.<br \/>\nDa ieri ho accesso a questo servizio e lo avr\u00f2 per i prossimi 4 giorni. Ho gi\u00e0 iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercher\u00f2 di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parler\u00f2 in un prossimo post.<!--:--><!--:zh-->Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche presso la comunit\u00e0 accademica italiana, l&#8217;idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.<br \/>\nCome all&#8217;estero anche in Italia, i ricercatori, come i media, dedicano a Twitter un&#8217;attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.<br \/>\nSul blog ufficiale di Twitter si legge che <a href=\"http:\/\/blog.twitter.com\/2011\/09\/one-hundred-million-voices.html\">la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi<\/a> nel mondo, che la met\u00e0 di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza <a href=\"http:\/\/www.vincos.it\/2011\/09\/09\/facebook-e-twitter-statistiche-a-confronto\/\">ha messo a confronto<\/a> questi dati con quelli rilasciati da Facebook.<br \/>\nTwitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma <a href=\"http:\/\/www.vincos.it\/2010\/10\/10\/quanti-italiani-usano-twitter\/\" target=\"_blank\">fonti attendibili<\/a> stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cio\u00e8 fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.<br \/>\nCapire la situazione a oggi non \u00e8 affatto semplice.<br \/>\nStimare il traffico verso il sito non \u00e8 infatti, in questo caso, un buon indicatore\u00a0perch\u00e9\u00a0una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un <a href=\"http:\/\/www.google.com\/insights\/search\/#q=twitter&amp;geo=IT&amp;date=1%2F2006%2070m&amp;cmpt=q\" target=\"_blank\">interesse\u00a0crescente<\/a>,\u00a0in Italia, per questa piattaforma con un volume che, tuttavia, <a href=\"http:\/\/www.google.com\/insights\/search\/#q=twitter%2Cnetlog%2Cbadoo%2Cflickr&amp;geo=IT&amp;date=1%2F2010%2022m&amp;cmpt=q\" target=\"_blank\">non si discosta molto da quello di siti come Badoo, Netlog o Flickr<\/a>. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un&#8217;idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell&#8217;interesse degli utenti verso una certa piattaforma).<br \/>\nChiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell&#8217;interesse dei ricercatori italiani.<br \/>\nDi fatto cos\u00ec non \u00e8. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull&#8217;analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest&#8217;ultima piattaforma. Basta scorrere il <a href=\"http:\/\/larica.uniurb.it\/nextmedia\/2011\/10\/storifying-ir12\/\" target=\"_blank\">resoconto del recente convegno dell&#8217;associazione internazionale dei ricercatori che studiano internet<\/a>, per capire che non si tratta di un fenomeno italiano e che l&#8217;interesse della comunit\u00e0 accademica \u00e8 centrato, a dispetto dei dati sull&#8217;utilizzo, pi\u00f9 su Twitter che su Facebook. Questa tendenza \u00e8 particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.<br \/>\nCredo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:<br \/>\n1. Il sistema di privacy e le pratiche d&#8217;uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;<br \/>\n2. L&#8217;interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;<br \/>\n3. La natura orientata all&#8217;informazione (la domanda di Twitter \u00e8 &#8220;Cosa sta succedendo&#8221; e non &#8220;A cosa stai pensando&#8221;) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;<br \/>\n4. L&#8217;emergere di pratiche come l&#8217;uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalit\u00e0 interne della piattaforma) rendono pi\u00f9 semplice comprendere la struttura delle conversazioni.<br \/>\nDunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.<br \/>\nL&#8217;apparente semplicit\u00e0 di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.<br \/>\nIntanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.<br \/>\nMa c&#8217;\u00e8 dell&#8217;altro. Come forse saprete Twitter impone dei limiti di accesso per l&#8217;utilizzo delle sue API pubbliche.<br \/>\nPurtroppo questi limiti non sono affatto chiari.<br \/>\nSi sa che le Twitter REST API sono soggette ai seguenti limiti:<br \/>\n&#8211; 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);<br \/>\n&#8211; 350 richieste autenticate all&#8217;ora (basate sull&#8217;identificativo dell&#8217;utente che fa la richiesta).<br \/>\nSi sa inoltre che ogni richiesta pu\u00f2 restituire un massimo di 1500 tweet.<br \/>\nLa documentazione che riguarda le <a href=\"https:\/\/dev.twitter.com\/docs\/using-search\" target=\"_blank\">Twitter Search API<\/a> specifica che la ricerca non d\u00e0 accesso all&#8217;indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet pi\u00f9 vecchi di una settimana.<br \/>\nInoltre aggiunge:<\/p>\n<blockquote><p>The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.<br \/>\nAs requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.<br \/>\nTo prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error.\u00a0<code>{\"error\":\"You have been rate limited. Enhance your calm.\"}<\/code>.<\/p><\/blockquote>\n<p>Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all&#8217;appello\u00a0per raggiunti limiti di richieste,\u00a0perch\u00e9 l&#8217;utente che ha generato il tweet ha un basso ranking o, infine, semplicemente\u00a0perch\u00e9, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda <a href=\"https:\/\/support.twitter.com\/groups\/32-something-s-not-working\/topics\/118-search-problems\/articles\/66018-i-m-missing-from-search\" target=\"_blank\">qui<\/a>).<br \/>\nSe si desidera la completezza (un requisito di solito\u00a0indispensabile\u00a0per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.<br \/>\nLe Straming API restituiscono i Tweet in tempo reale. Questo significa che non \u00e8 possibile tornare indietro nel tempo.<br \/>\nMa anche le Streaming API hanno <a href=\"https:\/\/dev.twitter.com\/docs\/streaming-api\/concepts\" target=\"_blank\">dei limiti<\/a>.<\/p>\n<blockquote><p>Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.<\/p><\/blockquote>\n<p>In compenso<\/p>\n<blockquote><p>\u00a0The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.<\/p><\/blockquote>\n<p>L&#8217;uso delle Streaming API richiede l&#8217;autenticazione.<br \/>\nDi seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses\/sample e statuses\/filter e che per tutti gli altri metodi bisogna contattare Twitter.<br \/>\nOra cosa sono questi statuses\/sample e statuses\/filter?<br \/>\nIl primo restituisce un campione di Tweet basato sull&#8217;universo costituito dal flusso di tutti gli status pubblici (il cui flusso \u00e8 chiamato da Twitter Firehose).<br \/>\nLe proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:<br \/>\n&#8211; Circa l&#8217;1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);<br \/>\n&#8211; Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).<br \/>\nIl metodo statuses\/filter \u00e8 quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.<br \/>\nIl livello di accesso di default consente l&#8217;accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non \u00e8 chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).<br \/>\nIn aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge&#8230;<\/p>\n<blockquote><p>Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.<\/p><\/blockquote>\n<p>Non \u00e8 dato sapere cosa costituisca una ricerca ragionevolmente focalizzata.\u00a0Rimane dunque la sensazione di una certa confusione. \u00a0Nell&#8217;articolo <a href=\"http:\/\/ssrn.com\/abstract=1926431\" target=\"_blank\">Six Provocations for Big Data<\/a> le autrici affermano che<\/p>\n<blockquote><p>Twitter Inc. makes a fraction of its material available to the public through its APIs. The \u2018firehose\u2019 theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or \u2018protected.\u2019 Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a \u2018gardenhose\u2019 (roughly 10% of public tweets), a \u2018spritzer\u2019 (roughly 1% of public tweets), or have used \u2018white-listed\u2019 accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.<\/p><\/blockquote>\n<p>Di recente DiscoverText ha siglato un accordo con Gnip per\u00a0offrire\u00a0ai\u00a0ricercatori\u00a0che usano questa piattaforma l&#8217;accesso alla Firehose di Twitter. Al momento il servizio \u00e8 in beta limitata ad un ristretto numero di utenti.<br \/>\nDa ieri ho accesso a questo servizio e lo avr\u00f2 per i prossimi 4 giorni. Ho gi\u00e0 iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercher\u00f2 di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parler\u00f2 in un prossimo post.<!--:--><\/p>\n","protected":false},"excerpt":{"rendered":"<p><!--:it-->Il crescere del numero di ricercatori che scelgono i social media come luogo di osservazione per studiare le dinamiche sociali rende indispensabile fare il punto su limiti e possibilit\u00e0 offerti da queste piattaforme<!--:--><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[12,15],"tags":[223,211,224,114,212],"_links":{"self":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2171"}],"collection":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=2171"}],"version-history":[{"count":0,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=\/wp\/v2\/posts\/2171\/revisions"}],"wp:attachment":[{"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=2171"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=2171"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/nextmedia.uniurb.it\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=2171"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}