Limiti e possibilità della ricerca su Twitter

Il crescere del numero di ricercatori che scelgono i social media come luogo di osservazione per studiare le dinamiche sociali rende indispensabile fare il punto su limiti e possibilità offerti da queste piattaforme

Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche nella comunità accademica italiana, l’idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.
Come all’estero anche in Italia, i ricercatori, al pari dei media, dedicano a Twitter un’attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.
Sul blog ufficiale di Twitter si legge che la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi nel mondo, che la metà di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza ha messo a confronto questi dati con quelli rilasciati da Facebook.
Twitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma fonti attendibili stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cioè fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.
Capire la situazione a oggi non è affatto semplice.
Stimare il traffico verso il sito non è infatti, in questo caso, un buon indicatore perché una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un interesse crescente, in Italia, per questa piattaforma con un volume che, tuttavia, non si discosta molto da quello di siti come Badoo, Netlog o Flickr. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un’idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell’interesse degli utenti verso una certa piattaforma).
Chiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell’interesse dei ricercatori italiani.
Di fatto così non è. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull’analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest’ultima piattaforma. Basta scorrere il resoconto del recente convegno dell’associazione internazionale dei ricercatori che studiano internet, per capire che non si tratta di un fenomeno italiano e che l’interesse della comunità accademica è centrato, a dispetto dei dati sull’utilizzo, più su Twitter che su Facebook. Questa tendenza è particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.
Credo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:
1. Il sistema di privacy e le pratiche d’uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;
2. L’interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;
3. La natura orientata all’informazione (la domanda di Twitter è “Cosa sta succedendo” e non “A cosa stai pensando”) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;
4. L’emergere di pratiche come l’uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalità interne della piattaforma) rendono più semplice comprendere la struttura delle conversazioni.
Dunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.
L’apparente semplicità di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.
Intanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.
Ma c’è dell’altro. Come forse saprete Twitter impone dei limiti di accesso per l’utilizzo delle sue API pubbliche.
Purtroppo questi limiti non sono affatto chiari.
Si sa che le Twitter REST API sono soggette ai seguenti limiti:
– 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);
– 350 richieste autenticate all’ora (basate sull’identificativo dell’utente che fa la richiesta).
Si sa inoltre che ogni richiesta può restituire un massimo di 1500 tweet.
La documentazione che riguarda le Twitter Search API specifica che la ricerca non dà accesso all’indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet più vecchi di una settimana.
Inoltre aggiunge:

The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.
As requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.
To prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error. {"error":"You have been rate limited. Enhance your calm."}.

Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all’appello per raggiunti limiti di richieste, perché l’utente che ha generato il tweet ha un basso ranking o, infine, semplicemente perché, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda qui).
Se si desidera la completezza (un requisito di solito indispensabile per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.
Le Straming API restituiscono i Tweet in tempo reale. Questo significa che non è possibile tornare indietro nel tempo.
Ma anche le Streaming API hanno dei limiti.

Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.

In compenso

 The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.

L’uso delle Streaming API richiede l’autenticazione.
Di seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses/sample e statuses/filter e che per tutti gli altri metodi bisogna contattare Twitter.
Ora cosa sono questi statuses/sample e statuses/filter?
Il primo restituisce un campione di Tweet basato sull’universo costituito dal flusso di tutti gli status pubblici (il cui flusso è chiamato da Twitter Firehose).
Le proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:
– Circa l’1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);
– Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).
Il metodo statuses/filter è quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.
Il livello di accesso di default consente l’accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non è chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).
In aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge…

Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.

Non è dato sapere cosa costituisca una ricerca ragionevolmente focalizzata. Rimane dunque la sensazione di una certa confusione.  Nell’articolo Six Provocations for Big Data le autrici affermano che

Twitter Inc. makes a fraction of its material available to the public through its APIs. The ‘firehose’ theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or ‘protected.’ Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a ‘gardenhose’ (roughly 10% of public tweets), a ‘spritzer’ (roughly 1% of public tweets), or have used ‘white-listed’ accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.

Di recente DiscoverText ha siglato un accordo con Gnip per offrire ai ricercatori che usano questa piattaforma l’accesso alla Firehose di Twitter. Al momento il servizio è in beta limitata ad un ristretto numero di utenti.
Da ieri ho accesso a questo servizio e lo avrò per i prossimi 4 giorni. Ho già iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercherò di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parlerò in un prossimo post.Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche presso la comunità accademica italiana, l’idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.
Come all’estero anche in Italia, i ricercatori, come i media, dedicano a Twitter un’attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.
Sul blog ufficiale di Twitter si legge che la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi nel mondo, che la metà di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza ha messo a confronto questi dati con quelli rilasciati da Facebook.
Twitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma fonti attendibili stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cioè fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.
Capire la situazione a oggi non è affatto semplice.
Stimare il traffico verso il sito non è infatti, in questo caso, un buon indicatore perché una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un interesse crescente, in Italia, per questa piattaforma con un volume che, tuttavia, non si discosta molto da quello di siti come Badoo, Netlog o Flickr. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un’idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell’interesse degli utenti verso una certa piattaforma).
Chiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell’interesse dei ricercatori italiani.
Di fatto così non è. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull’analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest’ultima piattaforma. Basta scorrere il resoconto del recente convegno dell’associazione internazionale dei ricercatori che studiano internet, per capire che non si tratta di un fenomeno italiano e che l’interesse della comunità accademica è centrato, a dispetto dei dati sull’utilizzo, più su Twitter che su Facebook. Questa tendenza è particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.
Credo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:
1. Il sistema di privacy e le pratiche d’uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;
2. L’interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;
3. La natura orientata all’informazione (la domanda di Twitter è “Cosa sta succedendo” e non “A cosa stai pensando”) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;
4. L’emergere di pratiche come l’uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalità interne della piattaforma) rendono più semplice comprendere la struttura delle conversazioni.
Dunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.
L’apparente semplicità di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.
Intanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.
Ma c’è dell’altro. Come forse saprete Twitter impone dei limiti di accesso per l’utilizzo delle sue API pubbliche.
Purtroppo questi limiti non sono affatto chiari.
Si sa che le Twitter REST API sono soggette ai seguenti limiti:
– 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);
– 350 richieste autenticate all’ora (basate sull’identificativo dell’utente che fa la richiesta).
Si sa inoltre che ogni richiesta può restituire un massimo di 1500 tweet.
La documentazione che riguarda le Twitter Search API specifica che la ricerca non dà accesso all’indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet più vecchi di una settimana.
Inoltre aggiunge:

The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.
As requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.
To prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error. {"error":"You have been rate limited. Enhance your calm."}.

Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all’appello per raggiunti limiti di richieste, perché l’utente che ha generato il tweet ha un basso ranking o, infine, semplicemente perché, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda qui).
Se si desidera la completezza (un requisito di solito indispensabile per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.
Le Straming API restituiscono i Tweet in tempo reale. Questo significa che non è possibile tornare indietro nel tempo.
Ma anche le Streaming API hanno dei limiti.

Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.

In compenso

 The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.

L’uso delle Streaming API richiede l’autenticazione.
Di seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses/sample e statuses/filter e che per tutti gli altri metodi bisogna contattare Twitter.
Ora cosa sono questi statuses/sample e statuses/filter?
Il primo restituisce un campione di Tweet basato sull’universo costituito dal flusso di tutti gli status pubblici (il cui flusso è chiamato da Twitter Firehose).
Le proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:
– Circa l’1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);
– Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).
Il metodo statuses/filter è quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.
Il livello di accesso di default consente l’accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non è chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).
In aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge…

Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.

Non è dato sapere cosa costituisca una ricerca ragionevolmente focalizzata. Rimane dunque la sensazione di una certa confusione.  Nell’articolo Six Provocations for Big Data le autrici affermano che

Twitter Inc. makes a fraction of its material available to the public through its APIs. The ‘firehose’ theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or ‘protected.’ Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a ‘gardenhose’ (roughly 10% of public tweets), a ‘spritzer’ (roughly 1% of public tweets), or have used ‘white-listed’ accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.

Di recente DiscoverText ha siglato un accordo con Gnip per offrire ai ricercatori che usano questa piattaforma l’accesso alla Firehose di Twitter. Al momento il servizio è in beta limitata ad un ristretto numero di utenti.
Da ieri ho accesso a questo servizio e lo avrò per i prossimi 4 giorni. Ho già iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercherò di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parlerò in un prossimo post.Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche presso la comunità accademica italiana, l’idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.
Come all’estero anche in Italia, i ricercatori, come i media, dedicano a Twitter un’attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.
Sul blog ufficiale di Twitter si legge che la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi nel mondo, che la metà di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza ha messo a confronto questi dati con quelli rilasciati da Facebook.
Twitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma fonti attendibili stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cioè fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.
Capire la situazione a oggi non è affatto semplice.
Stimare il traffico verso il sito non è infatti, in questo caso, un buon indicatore perché una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un interesse crescente, in Italia, per questa piattaforma con un volume che, tuttavia, non si discosta molto da quello di siti come Badoo, Netlog o Flickr. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un’idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell’interesse degli utenti verso una certa piattaforma).
Chiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell’interesse dei ricercatori italiani.
Di fatto così non è. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull’analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest’ultima piattaforma. Basta scorrere il resoconto del recente convegno dell’associazione internazionale dei ricercatori che studiano internet, per capire che non si tratta di un fenomeno italiano e che l’interesse della comunità accademica è centrato, a dispetto dei dati sull’utilizzo, più su Twitter che su Facebook. Questa tendenza è particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.
Credo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:
1. Il sistema di privacy e le pratiche d’uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;
2. L’interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;
3. La natura orientata all’informazione (la domanda di Twitter è “Cosa sta succedendo” e non “A cosa stai pensando”) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;
4. L’emergere di pratiche come l’uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalità interne della piattaforma) rendono più semplice comprendere la struttura delle conversazioni.
Dunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.
L’apparente semplicità di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.
Intanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.
Ma c’è dell’altro. Come forse saprete Twitter impone dei limiti di accesso per l’utilizzo delle sue API pubbliche.
Purtroppo questi limiti non sono affatto chiari.
Si sa che le Twitter REST API sono soggette ai seguenti limiti:
– 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);
– 350 richieste autenticate all’ora (basate sull’identificativo dell’utente che fa la richiesta).
Si sa inoltre che ogni richiesta può restituire un massimo di 1500 tweet.
La documentazione che riguarda le Twitter Search API specifica che la ricerca non dà accesso all’indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet più vecchi di una settimana.
Inoltre aggiunge:

The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.
As requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.
To prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error. {"error":"You have been rate limited. Enhance your calm."}.

Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all’appello per raggiunti limiti di richieste, perché l’utente che ha generato il tweet ha un basso ranking o, infine, semplicemente perché, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda qui).
Se si desidera la completezza (un requisito di solito indispensabile per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.
Le Straming API restituiscono i Tweet in tempo reale. Questo significa che non è possibile tornare indietro nel tempo.
Ma anche le Streaming API hanno dei limiti.

Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.

In compenso

 The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.

L’uso delle Streaming API richiede l’autenticazione.
Di seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses/sample e statuses/filter e che per tutti gli altri metodi bisogna contattare Twitter.
Ora cosa sono questi statuses/sample e statuses/filter?
Il primo restituisce un campione di Tweet basato sull’universo costituito dal flusso di tutti gli status pubblici (il cui flusso è chiamato da Twitter Firehose).
Le proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:
– Circa l’1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);
– Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).
Il metodo statuses/filter è quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.
Il livello di accesso di default consente l’accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non è chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).
In aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge…

Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.

Non è dato sapere cosa costituisca una ricerca ragionevolmente focalizzata. Rimane dunque la sensazione di una certa confusione.  Nell’articolo Six Provocations for Big Data le autrici affermano che

Twitter Inc. makes a fraction of its material available to the public through its APIs. The ‘firehose’ theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or ‘protected.’ Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a ‘gardenhose’ (roughly 10% of public tweets), a ‘spritzer’ (roughly 1% of public tweets), or have used ‘white-listed’ accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.

Di recente DiscoverText ha siglato un accordo con Gnip per offrire ai ricercatori che usano questa piattaforma l’accesso alla Firehose di Twitter. Al momento il servizio è in beta limitata ad un ristretto numero di utenti.
Da ieri ho accesso a questo servizio e lo avrò per i prossimi 4 giorni. Ho già iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercherò di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parlerò in un prossimo post.

Storifying IR12

Visto che non sono a Seattle per partecipare all’annuale conferenza dell’Associazione dei Ricercatori che Studiano Internet ho deciso di sperimentare storify per provare a raccontare, a partire da contenuti trovati in rete, la conferenza.
Since this year I’ll not be able to attend the annual conference of the Association of Internet Researchers I’ll try to collect and curate interesting contents with storify.

Esiste una correlazione fra immatricolati e volume di ricerche su Google?

Uno studio empirico sui dati degli Atenei italiani

Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 Proseguendo nella serie di articoli sull’utilizzo dei social media per predire il presente ho deciso questa volta di mettere a confronto il volume di ricerca su Google ed il numero di immatricolati negli atenei italiani.
L’andamento delle ricerche su Google mostra infatti una periodicità piuttosto marcata che vede nel mese di settembre il picco più alto di interesse. Questo vale sia per la generica chiave “università” che per chiavi specifiche ai diversi atenei.
Di qui la domanda: esiste una correlazione fra volume di ricerche su Google e numero degli immatricolati in un certo anno accademico?
Ho provato a verificare questa ipotesi a partire dai dati sugli immatricolati disponibili sull’anagrafe nazionale degli studenti del sito del MIUR e al servizio Google Insight for Search.
Per quanto riguarda gli immatricolati mi sono limitato a scaricare i dati disponibili (partono dall’anno accademico 2003/2004) e accorpare i fogli excel divisi per anno accademico in un’unica tabella. Al momento risultano attivi 88 atenei e l’andamento complessivo degli immatricolati è il seguente

Per misurare il volume di ricerca su Google ho effettuato delle query su Google Insight for Search. Questo servizio restitutrice “il numero di ricerche web eseguite con un termine specifico rispetto al numero totale di ricerche effettuate su Google in un arco di tempo. Non rappresentano i valori del volume di ricerca assoluto, in quanto i dati vengono normalizzati e presentati in scala da 0 a 100; ciascun punto sul grafico viene diviso per il punto massimo o per 100” (si veda Che cosa indicano i numeri nel grafico? dalla guida del prodotto). I valori restituiti sono dunque compresi fra 0 e 100.
Nel nostro caso si tratta di ricerche effettuate su un singolo termine di ricerca con i seguenti parametri: Google Ricerca Web, Italia, Gennaio 2004-Settembre 2011, Tutte le categorie.
Ho deciso di raccogliere per ciascuno degli 88 atenei e per la chiave generica “università” i valori restituiti per il mese di agosto e quello di settembre (mesi durante i quali sono aperte le iscrizioni)*. Per quanto riguarda i singoli atenei ho dovuto concatenare termini di ricerca costruiti ad hoc per ciascun ateneo**.
Al termine della fase di data entry avevo dunque a disposizione le seguenti serie aggregate di dati per il complesso degli 88 atenei: ricerche per la chiave università (media agosto/settembre e settembre), media dei volumi di ricerca per ogni singolo ateneo (media agosto/settembre e settembre), media delle ricerche per ogni singolo ateneo escludendo i casi in cui il volume di ricerca era 0 (media agosto/settembre e settembre).
A questo punto, allo scopo di rendere confrontabili i dati, ho normalizzato il numero di immatricolati per anno accademico e per ateneo seguendo la stessa strategia utilizzata da Google Insight for Search. Ho dunque individuato il valore massimo attribuendo ad esso il punteggio 100 e normalizzato di conseguenza gli altri valori. In questo modo avevo disponibili serie di valori confrontabili su una scala compresa fra 0 e 100.
Avendo deciso di prendere come riferimento i mesi di agosto e settembre avevo tuttavia due valori per anno per quanto riguarda il volume di ricerca ed uno solo per gli immatricolati. Ho dunque deciso fare la media fra il valore di agosto e quello di settembre ottenendo un indice sintetico del volume per un singolo anno (in un secondo momento ho anche utilizzato il solo dato di settembre come confronto).
Poiché i dati degli immatricolati partono dal 2003/2004 e quelli di Google Insight for Search dal 2004 ho deciso di prendere in considerazione i dati degli immatricolati a partire dall’anno accademico 2004/2005. A partire da quell’anno, se ci fosse correlazione, ad un certo andamento del volume di ricerche su Google, dovrebbe corrispondere un analogo pattern nelle immatricolazioni. Inoltre i dati già disponibili di Google Insight per il 2011 dovrebbero prevedere l’andamento degli immatricolati per l’anno accademico 2011/2012.
Vediamo dunque i risultati:

Confortato da questi risultati ho proceduto a calcolare l’indice di correlazione per ciascun ateneo confrontando le serie di immatricolati normalizzati per ateneo 2004/2005, 2005/2006, 2006/2007, 2007/2008, 2008/2009, 2009/2010, 2010/2011 con il volume di ricerca media agosto/settembre per le stringhe di ricerca specifiche di ciascun ateneo.
Ecco il risultato:

In questo caso i risultati sono contrastanti. Nella maggior parte dei casi (47) non si riscontrano correlazioni significative ed in 3 addirittura la correlazione è negativa. Nei restanti 38 casi  la correlazione è positiva e significativa (ovvero maggiore o uguale a 0,7).
Provando a calcolare lo stesso indice di correlazione con i soli dati di settembre la situazione non cambia di molto con 50 casi di non correlazione, uno solo di correlazione negativa e 37 di correlazione positiva.
Come al solito tutti i dati che ho raccolto sono disponibili pubblicamente in un foglio di calcolo di Google Documenti.
Dunque come spesso accade quando si lavoro con le correlazioni non emerge un risultato chiaro e incontrovertibile.
Le correlazioni totali appaiono significative, ma quelle per singolo ateneo lo sono solo per un ristretto gruppo di atenei.
Lascio al lettore il piacere di scoprire l’andamento del volume di ricerca dell’agosto e settembre appena conclusi e che cosa questo potrebbe pre-configurare rispetto al numero degli immatricolati 2011/2012.
E voi cosa ne pensate? La correlazione c’è o no?
*Si tratta di un indicatore piuttosto rozzo considerando che, anche nei mesi di agosto e settembre, utenti con intenti molto diversi potrebbero usare i termini di ricerca presi in esame. Esiste tuttavia la possibilità che l’effetto di questi utenti venga essere assorbito dal trend di chi invece cerca su Google il nome dell’università alla quale pensa di iscriversi.
** I termini di ricerca considerati sono disponibili nel foglio di calcolo insieme a tutti gli altri dati nella colonna “termini di ricerca” del foglio sui volumi di ricerca. Nel corso dei vari tentativi mi sono accorto che i termini di ricerca contenenti il solo nome di dominio dell’ateneo (uniurb, unibo, unicatt, etc) sono in ascesa e vengono spesso usati al posto del nome per esteso dell’Università. Mi sono dunque chiesto se inserire anche il nome di dominio come parte della stringa di ricerca. Alla fine ho deciso di non inserire questo termine di ricerca (tranne in specifici casi come “Luiss”) perchè credo che uno studente che usa Internet per cercare l’ateneo a cui iscriversi difficilmente utilizzi queste chiavi di ricerca (ma posso anche sbagliarmi).
 

Come gestire citazioni e bibliografie con Mendeley

Guida introduttiva alla gestione della bibliografia con Mendeley

Parlando con studenti, dottorandi e colleghi mi pare di capire che ci sia ancora qualcuno – per non dire la maggioranza – che crea a mano citazioni e bibliografie per le sue pubblicazioni. A loro è dedicato questo post 🙂
Una volta costruire la bibliografia per un articolo era un lavoro che richiedeva tempo e dedizione. Oggi ci sono software che rendono questo lavoro estremamente semplice producendo al tempo stesso citazioni e bibliografie più corrette.
Questi software fanno sotto il nome di Reference Manager. I più popolari sono EndNote, Zotero e l’ultimo arrivato, Mendeley.
Mendeley ha un approccio leggermente diverso rispetto ai predecessori. Oltre ad essere un Reference Manager è infatti anche un social network per ricercatori. Per il momento vorrei tuttavia soffermarmi sulle caratteristiche di Mendeley come Reference Manager.
Tutte queste applicazioni si basano su una semplice idea. Ogni volta che leggiamo una pubblicazione che ci interessa ne facciamo una sorta di scheda bibliografica da archiviare in un database. Questo database in Mendeley è costituito dall’applicazione Mendeley Desktop (disponibile per Windows, Mac OS X e Linux).
Ma come popolare questo database? Inserire a mano centinaia di schede non è certo un’attività semplice o divertente. Per questo motivo è possibile lasciar fare a Mendeley il lavoro sporco. Ci sono due modi per farlo. Il primo consiste nel trascinare l’articolo pdf direttamente dalla cartella del proprio computer a Mendeley Desktop e lui farà il possibile per reperire le informazioni essenziali per costruire la scheda (autore, titolo, anno di pubblicazione, editore, rivista, etc). Per esperienza vi posso dire che non sempre funziona come dovrebbe, ma che per gli articoli in digitale scaricati dai siti delle riviste fa adeguatamente il suo dovere. Alternativamente c’è un altro metodo che è forse anche più semplice ed efficace. Si può installare sul proprio browser, non importa quale, un bottone chiamato Import to Mendeley. Una volta trovato l’articolo o il libro che ci interessa (per i libri io utilizzo WorldCat ma va bene anche Amazon) basta premere quel bottone per ottenere, a patto di essere su uno dei moltissimi siti supportati, un’analisi della pagina e la creazione automatica di una scheda con tutti i dati nel nostro database.
Una volta creato il vostro database, potete farlo anche poco per volta a partire dai riferimenti che vi servono per le cose che state scrivendo ora, si tratta di capire come creare citazioni e bibliografie.
Dipende dal programma che usate per scrivere i vostri articoli/saggi/tesi. La maggior parte di voi userà una qualche versione di Microsoft Word e altri Open Office e qualcuno BibText. Il plug-in di Mendeley supporta Windows Word 2003, 2007, 2010, Mac Word 2008, 2011, OpenOffice 3.2, BibTeX. Il plug-in giusto viene installato automaticamente con Mendeley Desktop.

In tutti i casi si tratta di poter scegliere dal database dei vostri riferimenti bibliografici quello che volete inserire (c’è una mascherina di ricerca dove si può cercare per autore o titolo), selezionarlo ed inserirlo dove preferite nel testo che state scrivendo. A seconda dello stile di citazione, Mendeley ne supporta – come tutti i Reference Manager – centinaia ed alcune riviste consentono all’autore di scaricare il proprio stile specifico da installare, apparirà la citazione richiesta nel testo.
E la bibliografia? Anche questa è un gioco da ragazzi. Basta cliccare su inserisci bibliografia, vi conviene posizionarla alla fine di ciò che state scrivendo e dopo aver inserito almeno una citazione, e magicamente apparirà la bibliografia completa, formattata secondo lo stile di citazione scelto dei riferimenti citati fino a quel momento. Aggiungete un riferimento e la bibliografia si aggiornerà di conseguenza. Semplice no?
Ma cosa fare se si usano diversi computer? Come faccio ad avere il database della mia biblioteca personale sempre a disposizione? Anche questo è semplice. Mendeley si occupa di sincronizzare il vostro database creandone una copia sul vostro profilo sul sito (qui entra in gioco l’aspetto di social network) e replicando le modifiche su tutti i vostri computer.
Queste sono solo una minima parte delle funzioni messe a disposizione da Mendeley. Vi invito a scoprire le altre da soli.

Fra tutte le soluzioni che ho provato Mendeley è quella che io ed alcuni miei colleghi del LaRiCA abbiamo scelto di usare (ebbene si… anche fra di noi c’è chi scrive le bibliografie a mano 🙂 ).
Una cosa è certa, almeno che non sia costretto con la forza, non perderò più ore ad inserire a mano citazioni e costruire bibliografie. Non posso che consigliarvi di fare, appena possibile, altrettanto 😉

Disclosure: Da alcuni mesi sono advisor di Mendeley. In pratica significa che ho accettato di diffondere gratuitamente informazioni su questo prodotto come forma riconoscimento al lavoro svolto dagli sviluppatori, per mantenere il prodotto gratuito e per contribuire per le mia capacità ad un progetto che ammiro.Parlando con studenti, dottorandi e colleghi mi pare di capire che ci sia ancora qualcuno – per non dire la maggioranza – che crea a mano citazioni e bibliografie per le sue pubblicazioni. A loro è dedicato questo post 🙂
Una volta costruire la bibliografia per un articolo era un lavoro che richiedeva tempo e dedizione. Oggi ci sono software che rendono questo lavoro estremamente semplice producendo al tempo stesso citazioni e bibliografie più corrette.
Questi software fanno sotto il nome di Reference Manager. I più popolari sono EndNote, Zotero e l’ultimo arrivato, Mendeley.
Mendeley ha un approccio leggermente diverso rispetto ai predecessori. Oltre ad essere un Reference Manager è infatti anche un social network per ricercatori. Per il momento vorrei tuttavia soffermarmi sulle caratteristiche di Mendeley come Reference Manager.
Tutte queste applicazioni si basano su una semplice idea. Ogni volta che leggiamo una pubblicazione che ci interessa ne facciamo una sorta di scheda bibliografica da archiviare in un database. Questo database in Mendeley è costituito dall’applicazione Mendeley Desktop (disponibile per Windows, Mac OS X e Linux).
Ma come popolare questo database? Inserire a mano centinaia di schede non è certo un’attività semplice o divertente. Per questo motivo è possibile lasciar fare a Mendeley il lavoro sporco. Ci sono due modi per farlo. Il primo consiste nel trascinare l’articolo pdf direttamente dalla cartella del proprio computer a Mendeley Desktop e lui farà il possibile per reperire le informazioni essenziali per costruire la scheda (autore, titolo, anno di pubblicazione, editore, rivista, etc). Per esperienza vi posso dire che non sempre funziona come dovrebbe, ma che per gli articoli in digitale scaricati dai siti delle riviste fa adeguatamente il suo dovere. Alternativamente c’è un altro metodo che è forse anche più semplice ed efficace. Si può installare sul proprio browser, non importa quale, un bottone chiamato Import to Mendeley. Una volta trovato l’articolo o il libro che ci interessa (per i libri io utilizzo WorldCat ma va bene anche Amazon) basta premere quel bottone per ottenere, a patto di essere su uno dei moltissimi siti supportati, un’analisi della pagina e la creazione automatica di una scheda con tutti i dati nel nostro database.
Una volta creato il vostro database, potete farlo anche poco per volta a partire dai riferimenti che vi servono per le cose che state scrivendo ora, si tratta di capire come creare citazioni e bibliografie.
Dipende dal programma che usate per scrivere i vostri articoli/saggi/tesi. La maggior parte di voi userà una qualche versione di Microsoft Word e altri Open Office e qualcuno BibText. Il plug-in di Mendeley supporta Windows Word 2003, 2007, 2010, Mac Word 2008, 2011, OpenOffice 3.2, BibTeX. Il plug-in giusto viene installato automaticamente con Mendeley Desktop.

In tutti i casi si tratta di poter scegliere dal database dei vostri riferimenti bibliografici quello che volete inserire (c’è una mascherina di ricerca dove si può cercare per autore o titolo), selezionarlo ed inserirlo dove preferite nel testo che state scrivendo. A seconda dello stile di citazione, Mendeley ne supporta – come tutti i Reference Manager – centinaia ed alcune riviste consentono all’autore di scaricare il proprio stile specifico da installare, apparirà la citazione richiesta nel testo.
E la bibliografia? Anche questa è un gioco da ragazzi. Basta cliccare su inserisci bibliografia, vi conviene posizionarla alla fine di ciò che state scrivendo e dopo aver inserito almeno una citazione, e magicamente apparirà la bibliografia completa, formattata secondo lo stile di citazione scelto dei riferimenti citati fino a quel momento. Aggiungete un riferimento e la bibliografia si aggiornerà di conseguenza. Semplice no?
Ma cosa fare se si usano diversi computer? Come faccio ad avere il database della mia biblioteca personale sempre a disposizione? Anche questo è semplice. Mendeley si occupa di sincronizzare il vostro database creandone una copia sul vostro profilo sul sito (qui entra in gioco l’aspetto di social network) e replicando le modifiche su tutti i vostri computer.
Queste sono solo una minima parte delle funzioni messe a disposizione da Mendeley. Vi invito a scoprire le altre da soli.

Fra tutte le soluzioni che ho provato Mendeley è quella che io ed alcuni miei colleghi del LaRiCA abbiamo scelto di usare (ebbene si… anche fra di noi c’è chi scrive le bibliografie a mano 🙂 ).
Una cosa è certa, almeno che non sia costretto con la forza, non perderò più ore ad inserire a mano citazioni e costruire bibliografie. Non posso che consigliarvi di fare, appena possibile, altrettanto 😉

Disclosure: Da alcuni mesi sono advisor di Mendeley. In pratica significa che ho accettato di diffondere gratuitamente informazioni su questo prodotto come forma riconoscimento al lavoro svolto dagli sviluppatori, per mantenere il prodotto gratuito e per contribuire per le mia capacità ad un progetto che ammiro.Parlando con studenti, dottorandi e colleghi mi pare di capire che ci sia ancora qualcuno – per non dire la maggioranza – che crea a mano citazioni e bibliografie per le sue pubblicazioni. A loro è dedicato questo post 🙂
Una volta costruire la bibliografia per un articolo era un lavoro che richiedeva tempo e dedizione. Oggi ci sono software che rendono questo lavoro estremamente semplice producendo al tempo stesso citazioni e bibliografie più corrette.
Questi software fanno sotto il nome di Reference Manager. I più popolari sono EndNote, Zotero e l’ultimo arrivato, Mendeley.
Mendeley ha un approccio leggermente diverso rispetto ai predecessori. Oltre ad essere un Reference Manager è infatti anche un social network per ricercatori. Per il momento vorrei tuttavia soffermarmi sulle caratteristiche di Mendeley come Reference Manager.
Tutte queste applicazioni si basano su una semplice idea. Ogni volta che leggiamo una pubblicazione che ci interessa ne facciamo una sorta di scheda bibliografica da archiviare in un database. Questo database in Mendeley è costituito dall’applicazione Mendeley Desktop (disponibile per Windows, Mac OS X e Linux).
Ma come popolare questo database? Inserire a mano centinaia di schede non è certo un’attività semplice o divertente. Per questo motivo è possibile lasciar fare a Mendeley il lavoro sporco. Ci sono due modi per farlo. Il primo consiste nel trascinare l’articolo pdf direttamente dalla cartella del proprio computer a Mendeley Desktop e lui farà il possibile per reperire le informazioni essenziali per costruire la scheda (autore, titolo, anno di pubblicazione, editore, rivista, etc). Per esperienza vi posso dire che non sempre funziona come dovrebbe, ma che per gli articoli in digitale scaricati dai siti delle riviste fa adeguatamente il suo dovere. Alternativamente c’è un altro metodo che è forse anche più semplice ed efficace. Si può installare sul proprio browser, non importa quale, un bottone chiamato Import to Mendeley. Una volta trovato l’articolo o il libro che ci interessa (per i libri io utilizzo WorldCat ma va bene anche Amazon) basta premere quel bottone per ottenere, a patto di essere su uno dei moltissimi siti supportati, un’analisi della pagina e la creazione automatica di una scheda con tutti i dati nel nostro database.
Una volta creato il vostro database, potete farlo anche poco per volta a partire dai riferimenti che vi servono per le cose che state scrivendo ora, si tratta di capire come creare citazioni e bibliografie.
Dipende dal programma che usate per scrivere i vostri articoli/saggi/tesi. La maggior parte di voi userà una qualche versione di Microsoft Word e altri Open Office e qualcuno BibText. Il plug-in di Mendeley supporta Windows Word 2003, 2007, 2010, Mac Word 2008, 2011, OpenOffice 3.2, BibTeX. Il plug-in giusto viene installato automaticamente con Mendeley Desktop.

In tutti i casi si tratta di poter scegliere dal database dei vostri riferimenti bibliografici quello che volete inserire (c’è una mascherina di ricerca dove si può cercare per autore o titolo), selezionarlo ed inserirlo dove preferite nel testo che state scrivendo. A seconda dello stile di citazione, Mendeley ne supporta – come tutti i Reference Manager – centinaia ed alcune riviste consentono all’autore di scaricare il proprio stile specifico da installare, apparirà la citazione richiesta nel testo.
E la bibliografia? Anche questa è un gioco da ragazzi. Basta cliccare su inserisci bibliografia, vi conviene posizionarla alla fine di ciò che state scrivendo e dopo aver inserito almeno una citazione, e magicamente apparirà la bibliografia completa, formattata secondo lo stile di citazione scelto dei riferimenti citati fino a quel momento. Aggiungete un riferimento e la bibliografia si aggiornerà di conseguenza. Semplice no?
Ma cosa fare se si usano diversi computer? Come faccio ad avere il database della mia biblioteca personale sempre a disposizione? Anche questo è semplice. Mendeley si occupa di sincronizzare il vostro database creandone una copia sul vostro profilo sul sito (qui entra in gioco l’aspetto di social network) e replicando le modifiche su tutti i vostri computer.
Queste sono solo una minima parte delle funzioni messe a disposizione da Mendeley. Vi invito a scoprire le altre da soli.

Fra tutte le soluzioni che ho provato Mendeley è quella che io ed alcuni miei colleghi del LaRiCA abbiamo scelto di usare (ebbene si… anche fra di noi c’è chi scrive le bibliografie a mano 🙂 ).
Una cosa è certa, almeno che non sia costretto con la forza, non perderò più ore ad inserire a mano citazioni e costruire bibliografie. Non posso che consigliarvi di fare, appena possibile, altrettanto 😉

Disclosure: Da alcuni mesi sono advisor di Mendeley. In pratica significa che ho accettato di diffondere gratuitamente informazioni su questo prodotto come forma riconoscimento al lavoro svolto dagli sviluppatori, per mantenere il prodotto gratuito e per contribuire per le mia capacità ad un progetto che ammiro.

Note sulla raccolta tweet in realtime con DiscoverText

Ho provato a fare un piccolo esperimento per capire meglio i limiti del reperimento tweet su temi d’attualità.
Nel corso delle ultime 24 ore ho raccolto 9429 tweet contenenti l’hashtag #tunnelgelmini.
Per la raccolta ho usato DiscoverText che, come quasi tutti i tool attualmente disponibili (vedi la terza delle sei provocazione sui Big Data di danah boyd a Kate Crawford), non garantisce comunque che tutti i tweet della timeline pubblica siano stati effettivamente reperiti. Il limite imposto dalle API di Twitter è di 1500 tweet restituiti e DiscoverText consente di reperire i dati ogni 15 minuti. Quindi tutte le volte che sono generati più di 1500 tweet in un quarto d’ora si perdono quelli eccedenti questa soglia.
Ho iniziato a raccogliere i dati alle 17:52 di ieri 24/09 ed il primo tweet reperito è delle 16:36 del 24/09 (http://twitter.com/#!/paoloduina/status/117608339399127040).
Bisogna dunque essere molto rapidi se si desidera ottenere una collezione completa di tweet su fenomeni come questo. Annoto incidentalmente che tutte le date in DiscoverText sono relative al fuso GMT-7 e non ho trovato il modo di settare il fuso orario dell’utente.
Della collezione di tweet reperiti 4734 (50,2%) sono retweet (RT @) e 365 (3,87) sono risposte ad un utente (@ replay). I 9429 tweet sono stati generati da 4377 account diversi. Sarebbero poco più di due ad account se non fosse che la distribuzione è, come sempre avviene in questi casi, non normale. L’utente più prolifico ha pubblicato 50 tweet. I 10 utenti più prolifici hanno generato 358 tweet pari al 3,79% del totale.

Cercasi collaboratore

Borsa di studio progetto ULOOP

Nel post Open Projects di inizio anno avevo accennato al progetto europeo ULOOP (User-centric Wireless Local Loop).
Nell’ambito di quel progetto mi sto occupando della sostenibilità sociale della tecnologia che il progetto si propone di sviluppare e di studiarne i possibili impatti sociali.
Per aiutarmi in questa attività ho chiesto e ottenuto (grazie ad Alessandro Bogliolo e al Diparimento di Scienze della Comunicazione) la possibilità di avvalermi di un collaboratore.
A questo scopo è stata bandita una borsa di studio della durata di 12 mesi per un importo di € 10.000,00 lordi.
La borsa è riservata ad un giovane (che non abbia cioè superato i 40 anni) laureato in possesso della Laurea triennale in Sociologia o Scienze della Comunicazione, con voto compreso tra 108 e 110/110, conseguito presso una Università italiana.
La domanda di ammissione al concorso, redatta su carta libera e indirizzata al Rettore della Università di Urbino “Carlo Bo”, dovrà pervenire all’Ufficio Erasmus e Relazioni Internazionali della Università di Urbino – Via Saffi, 1 – entro il 3 Agosto 2011.
Di seguito il bando di concorso
Borsa di studio Progetto ULOOP
Sentitevi liberi di inviare il bando a chi ritenete possa interessare o di chiedere maggiori informazioni commentando questo post.
Nel post Open Projects di inizio anno avevo accennato al progetto europeo ULOOP (User-centric Wireless Local Loop).
Nell’ambito di quel progetto mi sto occupando della sostenibilità sociale della tecnologia che il progetto si propone di sviluppare e di studiarne i possibili impatti sociali.
Per aiutarmi in questa attività ho chiesto e ottenuto (grazie ad Alessandro Bogliolo e al Diparimento di Scienze della Comunicazione) la possibilità di avvalermi di un collaboratore.
A questo scopo è stata bandita una borsa di studio della durata di 12 mesi per un importo di € 10.000,00 lordi.
La borsa è riservata ad un giovane (che non abbia cioè superato i 40 anni) laureato in possesso della Laurea triennale in Sociologia o Scienze della Comunicazione, con voto compreso tra 108 e 110/110, conseguito presso una Università italiana.
La domanda di ammissione al concorso, redatta su carta libera e indirizzata al Rettore della Università di Urbino “Carlo Bo”, dovrà pervenire all’Ufficio Erasmus e Relazioni Internazionali della Università di Urbino – Via Saffi, 1 – entro il 3 Agosto 2011.
Di seguito il bando di concorso
Borsa di studio Progetto ULOOP
Sentitevi liberi di inviare il bando a chi ritenete possa interessare o di chiedere maggiori informazioni commentando questo post.
Nel post Open Projects di inizio anno avevo accennato al progetto europeo ULOOP (User-centric Wireless Local Loop).
Nell’ambito di quel progetto mi sto occupando della sostenibilità sociale della tecnologia che il progetto si propone di sviluppare e di studiarne i possibili impatti sociali.
Per aiutarmi in questa attività ho chiesto e ottenuto (grazie ad Alessandro Bogliolo e al Diparimento di Scienze della Comunicazione) la possibilità di avvalermi di un collaboratore.
A questo scopo è stata bandita una borsa di studio della durata di 12 mesi per un importo di € 10.000,00 lordi.
La borsa è riservata ad un giovane (che non abbia cioè superato i 40 anni) laureato in possesso della Laurea triennale in Sociologia o Scienze della Comunicazione, con voto compreso tra 108 e 110/110, conseguito presso una Università italiana.
La domanda di ammissione al concorso, redatta su carta libera e indirizzata al Rettore della Università di Urbino “Carlo Bo”, dovrà pervenire all’Ufficio Erasmus e Relazioni Internazionali della Università di Urbino – Via Saffi, 1 – entro il 3 Agosto 2011.
Di seguito il bando di concorso
Borsa di studio Progetto ULOOP
Sentitevi liberi di inviare il bando a chi ritenete possa interessare o di chiedere maggiori informazioni commentando questo post.

Internet in Italia secondo il 9° Rapporto Censis/Ucsi sulla comunicazione

Internet in Italia secondo il 9° Rapporto Censis/Ucsi sulla comunicazione

Dal rapporto di sintesi disponibile sul sito Internet del Censis e presentato oggi emerge che:
– crescita dell’utenza di Internet, che nel 2011 supera la soglia del 50% della popolazione italiana, attestandosi per l’esattezza al 53,1% (+6,1% rispetto al 2009). Il dato complessivo si spacca tra l’87,4% dei giovani (14-29 anni) e il 15,1% degli anziani (65-80 anni), tra il 72,2% dei soggetti più istruiti e il 37,7% di quelli meno scolarizzati;
– I siti web di informazione sono usati dal 36,6% degli italiani;
– Il 17,6% degli italiani ha usato uno smartphone almeno una volta a settimana;
– Alla metà del decennio si era verificato un primo importante fenomeno di svuotamento dell’area di quanti si servono di soli strumenti audiovisivi, cioè tv e radio (il 46,6% nel 2002, il 28,2% nel 2006), che aveva portato a uno spostamento sia verso l’area dei fruitori dei mezzi a stampa (che salivano al 42,8%), sia verso quella degli utenti di Internet (al 29%). Da allora si è verificata la crescita dei “digitali” (fino al 48% del 2011), ma solo a discapito dei “lettori” (scesi nel 2011 al 23,3%), non degli “audiovisivi”, che sono rimasti praticamente stabili (il 28,7% nel 2011);
– Una metà del Paese ha dunque compiuto stabilmente il salto oltre la soglia del digital divide. Non si tratta però di una metà omogenea. Si può osservare che il 48% del totale è costituito molto più da uomini (52,5%) che da donne (43,7%), con una netta preponderanza di persone istruite (66,7%) rispetto a quelle con bassi livelli di istruzione (32,8%), per non parlare dei giovani (84,6%) in confronto agli adulti (46,5%) e agli anziani (11,4%);
– I giovani (14-29 anni) vivono abitualmente in rete (l’84,6%), ma sono proprio loro, con una quota del 53,3%, ad abbandonare maggiormente la lettura di testi a stampa. Nel 2009 quest’ultima quota si fermava al 35,8% della popolazione giovanile;
– Persone con diete aperte a Internet, ma prive dei mezzi a stampa 5,7 (2006) | 12,9 (2009) | 17,0 (2011);
– Indipendentemente dall’uso del televisore, il 12,3% della popolazione (24,7 dei giovani 14-29) attinge ai siti Internet delle emittenti tv per seguire i programmi prescelti, il 22,7% (47,6 14-29) utilizza YouTube, il 17,5% (36,2% 14-29) segue programmi scaricati tramite il web da altre persone;
– Preferenze del pubblico che scarica programmi televisivi da Internet. Musica (18,3%), sport (11,7%) e film (9,9%) sono ai vertici dell’interesse complessivo. Scorrendo invece la colonna relativa alle preferenze dei giovani, si può osservare che viene scaricato di tutto e anche con una notevole continuità. La musica rimane sempre al vertice, con il 46,2% di preferenze, seguita dai film (27,1%), dallo sport (25,6%), dalle fiction (21,2%) e poi i cartoni animati (14,3%), la cronaca (13,4%), i reality (11,6%), ma anche gli approfondimenti giornalistici (10%) e i telegiornali (8,7%);
–  Nel mondo dell’informazione, la centralità dei telegiornali è ancora fuori discussione, visto che l’80,9% degli italiani vi fa ricorso come fonte. Tra i giovani, però, il dato scende al 69,2%, avvicinandosi molto al 65,7% raggiunto dai motori di ricerca su Internet e al 61,5% di Facebook;
– Fra le fonti indicate dal pubblico emergono anche i motori di ricerca come Google (41,4%), i siti web di informazione (29,5%), Facebook (26,8%), i quotidiani on line (21,8%). Le “app” per gli smartphone sono al 7,3% di utenza e Twitter al 2,5%;
– Internet è il mezzo di comunicazione considerato più credibile;
– Il 67,8% degli italiani (91,8% 14-29) conosce almeno un social network tra quelli più noti (Facebook, Twitter, Messenger, YouTube, fino a Skype). Si tratta di 33,5 milioni di persone, in crescita rispetto ai 32,9 milioni del 2009. Facebook (65,3%) risulta essere il più conosciuto insieme a YouTube (53%); seguono Messenger (41%), Skype (37,4%) e Twitter (21,3%);
– Facebook è, oltre che il social network più conosciuto, anche tra quelli più utilizzati (dal 49% degli italiani che accedono a Internet, l’88,1% tra i giovani), insieme a YouTube (54,5%, l’86,5% tra i giovani);
– Funzione di Internet maggiormente utilizzata nella vita quotidiana direttamente o per interposta persona: [1] Mappe: 37,9% lo ha fatto almeno una volta nell’ultimo mese (60,5% nei centri con più di 500mila abitanti). [2] Ascoltare musica (26,5%). [3] Home banking (22,5%);
– Effettua telefonate attraverso Internet (tramite Skype o altri servizi voip) il 10,1% degli italiani che si connettono, soprattutto i giovani (14,8%) e le persone più istruite (14,5%);
– L’83,8% del campione (94,1% dei giovani e 87,1% dei soggetti più istruiti) riconosce a Internet il merito di permettere a chiunque di esprimersi liberamente. Al tempo stesso, l’83,3% lamenta il fatto che nel web circola troppa “spazzatura”;
– Per il 76,9% degli italiani (82,9% dei giovani e 81,2% dei soggetti più istruiti) la rete è un potente mezzo al servizio della democrazia.
In estrema sintesi emerge, rispetto a Internet, un paese spaccato in due. Il divario si ritrova costantemente sia a livello generazionale che a livello di titoli di studio. Uno scenario non dissimile da quello che avevamo descritto qualche mese fa con la ricerca LaRiCA sulle news e gli italiani.
Il report di sintesi che contiene dati più completi e riguardanti tutti i mezzi di comunicazione è disponibile gratuitamente sul sito del Censis (previa registrazione).
UPDATE: Sullo stesso tema consiglio la lettura del post con infografica di Vincenzo Cosenza e del commento di Juan Carlos De Martin su La Stampa.

Popolarità delle pagine Facebook delle Università italiane

Breve studio che analizza la popolarità delle pagine Facebook degli Atenei in Italia

In poco più di un anno la pagina Facebook dell’Università di Urbino Carlo Bo ha quasi raggiunto 6000 “Mi Piace”.
Per festeggiare questo evento ho deciso di raccogliere i dati di popolarità su Facebook di tutti gli atenei italiani. Sono dunque partito dall’elenco completo degli atenei fornito dal Ministero dell’Istruzione, dell’Università e della Ricerca e sono andato a cercare su Facebook le pagine corrispondenti. Non tutte gli atenei italiani (68%) hanno stabilito una presenza su Facebook (non ho tenuto conto delle community page create automaticamente da Facebook stessa perchè prive di una bacheca e dunque di ogni forma di interattività).
Gli atenei più popolari sono l’Università degli Studi di Torino e l’Università degli Studi di Padova con, rispettivamente, 15305 e 14786 “Mi Piace”.
Di seguito il grafico con i quindici atenei più popolari.

Non occorre sottolineare che la competizione di popolarità fra atenei su Facebook è in qualche modo una battaglia che non si combatte ad armi pari poiché il numero di studenti iscritti varia sensibilmente.  Ho dunque provato ad utilizzare i dati degli iscritti disponibili sul sito dell’anagrafe studenti MIUR per rendere la competizione meno squilibrata.
Ponderando il numero di “Mi Piace” sul numero degli iscritti emergono i casi dell’Università per Stranieri di Perugia (167% di “Mi Piace” in rapporto ai 1404 iscritti) e dell’Università Telematica “Universitas MERCATORUM” (77% ma su soli 196 iscritti). Limitando l’analisi agli atenei con almeno 5000 iscritti spicca l’Università IUAV di Venezia (68% e 5636 iscritti), l’Università di Foggia (60% e 10047 iscritti) e l’Università di Urbino Carlo Bo (48% e 12494 iscritti). Fra gli atenei con oltre 15.000 iscritti spicca il caso dell’Università “Ca’ Foscari” di Venezia (43% su 17389 iscritti).
Andando a guardare i trend di crescita a partire dalla prima rilevazione effettuata il 20 settembre 2010 e limitando l’analisi agli atenei che avevano almeno 1000 “Mi Piace” alla prima rilevazione spicca la crescita a tre cifre (+151%) della pagina dell’Università degli Studi di Udine. In forte crescita anche le pagine dell’Università Kore di Enna (+75%), dell’Università Bicocca di Milano (+75%) e dell’Università per Stranieri di Perugia (+70%). Abbastanza inspiegabile, infine, il crollo della pagina della Seconda Università di Napoli (-71%).
In generale solo una piccola parte di atenei ha registrato il suo indirizzo breve su Facebook e, da quanto ho potuto vedere, non ci sono landing page o strategie di marketing particolari. Credo sia un errore del quale si avvantaggeranno i primi atenei che investiranno con serietà su questa forma di promozione e di creazione/gestione della community.
Per farsi un’idea di come le università americane si stanno muovendo nel settore dei social media consiglio la lettura di questo articolo.
Come al solito il foglio di calcolo di Google Spreadsheet usato per le analisi è disponibile per la libera consultazione di chi volesse fare le sue analisi. Se conoscete una pagina Facebook di una Università o comunità di studenti che mi è sfuggita non esitate a segnarmela qui nei commenti.

Chi usa Facebook ha più fiducia negli altri

Le conclusioni di un recente studio smentiscono molti luoghi comuni

Questa è una delle conclusioni a cui sono giunti i ricercatori del Pew Internet nel loro ultimo studio intitolato Social networking sites and our lives.
Il report è particolarmente interessante perché affronta temi che spesso affiorano quando si parla di Internet e Siti di Social Network: Saremo tutti più isolati e individualisti? Ci rinchiuderemo nella cerchia delle persone che condividono le nostre stesse opinioni ed interessi?
Queste ipotesi appaiono largamente smentite dai dati e dall’analisi che ne fanno i ricercatori americani.

  • Alla domanda che chiedeva di indicare il grado di accordo sull’affermazione “sento che la maggior parte delle persone sono degne di fiducia” gli utenti di Internet hanno risposto affermativamente nel doppio dei casi rispetto ai non utenti di Internet. Inoltre un utente di Facebook che usa la piattaforma diverse volte al giorno ha il 43% di possibilità in più rispetto agli utenti di Internet di esprimere accordo con questa affermazione. I dati sono stati depurati dal fattore demografico (ovvero i ricercatori hanno tenuto conto del fatto che il grado di accordo ad una domanda simile può essere correlato con l’età della persona ed essendo gli utenti di siti di social network più giovani del resto della popolazione…);
  • Gli utenti di Facebook hanno un numero maggiore di legami sociali forti. La media US è di 2.16 amici con cui ci si confida (in crescita rispetto al 1.93 della rilevazione 2008). Gli utenti Facebook che usano la piattaforma più volte al giorno hanno in media il 9% in più di legami forti rispetto agli altri utenti Internet;
  • Calcolando il supporto sociale (emotivo, compagnia e strumentale) che si riceve dai propri legami sociali su una scala dove il massimo è 100, gli americani in media fanno registrare i seguenti dati: 75/100 supporto, 75/100 supporto emotivo, 76/100 compagnia, 75/100 strumentale. Gli utenti internet superano di 3 punti la media sul supporto totale e di 6 punti la media sulla compagnia. Gli utenti Facebook che usano la piattaforma più volte al giorno ottengono altri 5 punti (rispetto agli Internet users) sul supporto totale, 5 punti sul supporto emotivo e 5 punti sulla compagnia. Per dare un’idea di cosa significhi la differenza in questa scala i ricercatori fanno notare che l’incremento di punteggio fatto registrare dagli utenti Facebook è paragonabile per entità a sposarsi o andare a vivere con un partner;
  • Dati relativi alle elezioni di MidTerm 2010. Su una media di 10 Americani su 100 che dichiarano di aver partecipato ad una dimostrazione politica, 23% che ha provato a convincere altri a supportare uno specifico candidato e 66% che hanno dichiarato di essere intenzionati a votare, l’utente Internet ha il doppio di possibilità di aver partecipato ad un evento politico, il 78% di possibilità in più di aver cercato di convincere altri a supportare un certo candidato ed il 53% in più di dichiarare di aver intenzione di votare. Rispetto agli utenti Internet, gli utenti Facebook che usano la piattaforma più volte al giorno hanno due volte e mezzo la possibilità che ha un utente Internet di aver partecipato ad una manifestazione politica, il 57% in più di aver cercato di persuadere qualcuno a votare in un certo modo e un 43% di possibilità in più di aver dichiarato l’intenzione di partecipare al voto.

Altri dati interessanti:

  • il 79& degli Americani adulti ha usato Internet ed il 47% (59% degli Internet Users) almeno un sito di social network. In Italia secondo una ricerca svolta con metodologia analoga a Dicembre 2010 dal laboratorio di ricerca LaRiCA erano 58% di Italiani adulti ad aver usato Internet e 32% (55% degli Internet Users) ad aver usato un sito di social network;
  • Solo il 3% dei contatti su Facebook degli utenti Americani è costituito da persone che l’utente non ha mai conosciuto ed il 7% da persone incontrate una sola volta.

Come al solito vorrei sottolineare quanto sarebbe importante, utile e relativamente semplice riproporre uno studio identico in Italia. Se qualcuno vuole finanziare l’operazione io mi metto a disposizione per lavorarci gratuitamente anche da domani 😉

Internet Researchers Italia Weekly

Un magazine che aggrega i contributi più popolari condivisi su Twitter dai ricercatori italiani che studiano Internet.

Solo per segnalare che, qualche tempo fa, ho deciso di provare a utilizzare il servizio Paper.li per creare un magazine settimanale che aggrega i contributi segnalati dai miei colleghi che hanno svolto studi o stanno svolgendo studi su Internet. Paper.li aggrega i link più popolari segnalati dagli utenti su Twitter e costruisce quotidianamente o settimanalmente una pubblicazione periodica impaginata e personalizzata.
Il magazine è basato sulla lista dei ricercatori che studiano Internet presenti su Twitter e già da tempo raggruppati nella lista Internet Researchers Italia.
Se sei un ricercatore italiano che studia Internet con un account su Twitter, ma non fai ancora parte della lista segnalamelo nei commenti di questo post e provvederò ad aggiungerti.
Di seguito il sommario dell’ultimo numero. Cliccando sui titoli che scorrono o sulle sezioni è possibile accedere alla pagina del magazine, abbonarsi o includere il codice del magazine nel proprio sito/blog.