data – LaRiCA

Popolarità su Facebook e successo elettorale nelle amministrative 2012

Risultati e modelli di previsione elettorale con Facebook

Nel post precedente ho messo alla prova il modello sviluppato per le amministrative 2011 sui dati rilevati in questa tornata elettorale.
Vediamo come è andata.
Il modello ha funzionato nel 66,6% dei casi. Nello specifico il candidato con più Facebook Likes è risultato il più votato nel 41,6% dei casi (Catanzaro, Como, Genova, Lecce, Lucca, Monza, Palermo, Rieti, Taranto e Trani) ed è arrivato invece secondo nel 25% dei casi (Agrigento, Belluno, Brindisi, Cuneo, Gorizia e Pistoia).
Nel 2011 il modello aveva funzionato nell’82,1% dei casi (39,2% primo e 42,86% secondo).
Nel 20,8% dei casi il modello ha previsto correttamente sia il candidato più votato che quello secondo classificato, ma in altrettanti casi il modello ha fallito completamente (in alcuni di questi casi non aveva alcuna chance visto che i candidati che hanno vinto non avevano una pagina Facebook).
L’indice di accuratezza della previsione è stato di 4,875 su 10. Nel 2011 questo indice ha fatto registrare performance simili (4,71).
Vediamo invece come è andata per quanto invece riguarda il secondo modello, il cui scopo è prevedere la percentuale di voti riportati da ciascun candidato.
Il margine di errore rilevato (candidate prediction gap) varia da un minimo di 0,07% ad un massimo di 70,54% (2011 CPG MIN: 0, MAX: 84,18).
Lo scarto medio fra le percentuali di voto e quelle di Likes è stato del -7,04% ovvero del 12,76% facendo la media dei valori assoluti degli scarti. Il primo valore è un indicatore di quanto la previsione sia sbilanciata in un senso o nell’altro (+ voti che like o + likes che voti), il secondo valore indica il margine di errore effettivo. Nel 2011 il CPG medio dei valori assoluti era 15,77% e l’ABS[CPG] -6,21%. Si tratta di margini di errori molto alti che rendono il modello così com’è poco utile dal punto di vista previsionale.
I 24 comuni capoluoghi con almeno due candidati con pagina Facebook avevano 5 e 16 candidati. Il 55,87% di questi candidati aveva una pagina Facebook che è stata monitorata nell’ambito di questo studio. Il margine medio di errore rilevato per comune ovvero ABS[Municipality Prediction Gap] è 15,24% con un massimo di scarto del 35,88% (Agrigento) ed un minimo del 4,70% (Genova). Nel 2011 l’ABS[MPG] rilevato fu 18,99% con un MIN di 5,09% ed un MAX di 51,99%.
Si conferma il rapporto fra ABS[MPG] e percentuale di candidati presenti con una pagina su Facebook rispetto al totale dei candidati. L’ABS[MPG] passa dal 24,78% dei comuni con meno del 33% di candidati su Facebook all’11,89% di quello dei comuni con oltre il 66% di candidati con pagina (nella categoria 34-66% l’ABS[MPG] è di 15,11%).
Confermato anche il rapporto fra dimensione della città (in termini di numero di elettori) e margine di errore. Nelle grandi città si ottengono previsioni più accurate che in quelle più piccole. Si passa infatti da un ABS[MPG] di 17,39% delle città con meno di 80000 elettori ad un ABS[MPG] intorno al 9% tanto per le città con un numero di elettori compreso fra 80000 e 200000 sia per quelle oltre i 200000.
Per quanto riguarda gli schieramenti si è proceduto a calcolare un Party Prediction Gap (PPG). Nel 2011 tutti gli schieramenti avevano ricevuto un maggiore consenso su Facebook, rispetto alle percentuali reali di voto, ma questa tendenza si faceva più evidente in rapporto ai partiti più estremi (sinistra PPG=-11,27% e destra PPG =-8,66%). Il partito invece meno sopravvalutato dal modello risultò il Centro Destra (PPG=-1,30%). Rispetto all’edizione 2011, sono stati aggiunti due nuovi schieramenti: Terzo Polo e Lega Nord. Il primo non esisteva nel 2011 ed il secondo era accorpato al risultato del Centro Destra. Proprio questi due nuovi schieramenti sono stati quelli più sottostimati dal modello Terzo Polo (PPG=4,58%) e Lega Nord (PPG=5,56%). La Destra è invece risultato lo schieramento più sopravvalutato nelle previsioni di Facebook (PPG=-18,71%).
Se dunque si conferma un maggiore attivismo online da parte dei supporter dei partiti più estremi, si evidenzia anche l’anomalia della Lega Nord. Accorpando infatti i dati della Lega Nord con quelli del Centro Destra, quest’ultimo torna ad essere fra gli schieramenti più sopravvalutati dal modello. Questi dati potrebbero far pensare ad un incidenza dei candidati (o meglio delle strategie e supporter) Lega Nord anche sul risultato del 2011. Quello che appare evidente è che le strategie di costruzione del consenso della Lega Nord (e forse la tipologia di elettori di questo partito) non sono passate, almeno in questa occasione, per Facebook.
Per il futuro intendo provare a perfezionare il modello basato sugli scarti prendendo in considerazione solo i voti ottenuti dai candidati effettivamente presenti con una pagina su Facebook e applicando dei correttivi basati sui risultati dei PPG dei diversi schieramenti. Inoltre vorrei capire quali variabili possono influenzare il margine di errore e l’indice di accuratezza in modo da costruire un indice di affidabilità delle previsione.
I dati sono disponibili in questo Google Spreadsheet.
Da oggi ho inoltre reso pubblicamente disponibile il working paper relativo allo studio del 2011: Giglietto, Fabio, If Likes Were Votes: An Empirical Study on the 2011 Italian Administrative Elections (January 16, 2012). Available at SSRN: http://ssrn.com/abstract=1982736. Una versione ridotta di questo articolo sarà pubblicata negli atti dell’ICWSM-12.

Previsioni Facebook sulle elezioni amministrative 2012

Secondo tentativo di previsione dei risultati elettorali con Facebook

Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine. Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione. Gli elettori chiamati al voto 2012 nei 26 comuni capoluoghi sono in totale 2846168. Il rapporto con i like è dunque sceso dal 3,78% al 2,81% (un calo del 25,6% rispetto all’anno precedente).
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

	Score
Most popular candidate on Facebook arrived second	3
Second most popular candidate on Facebook won	3
Second most popular candidate on Facebook arrived second	4
Most popular candidate on Facebook won	6

Lo studio sui dati del 2011 ha fatto registrare un CPG che variava fra 0 e 84,18% per una media degli scarti in valore assoluto di 15,77% e non in valore assoluto di -6,21% (il valore negativo indica che la percentuale di popolarità su Facebook era tendenzialmente superiore a quella effettivamente ottenuta dai candidati alle elezioni – anche per via del minore numero di candidati per città). Nel 2011, dopo aver escluso i tre comuni che presentavano meno di due candidati con pagina Facebook, il campione era rappresentato da 26 competizioni elettorali corrispondenti ad altrettanti comuni. Fra i candidati di questi comuni poco più della metà avevano una pagina Facebook (51,1%). Nel 2012 questa percentuale, relativa ai 24 comuni con più di un candidato presente con una sua pagina Facebook, è del 54,8%.
Fra le conclusioni dello scorso anno si notava che:

l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Sulla base di queste conclusioni vorrei provare a fare delle vere previsioni sui dati di quest’anno (con la premessa che si tratta di un gioco e che il minore interesse degli elettori rispetto al 2011 porterà con tutta probabilità a previsioni meno attendibili):
Hanno l’80% di vincere o arrivare secondi nelle rispettive competizioni elettorali:

Salvatore Pennica (Agrigento), scarsamente affidabile;
Corrado Parise (Alessandria), poco affidabile;
Mariangela Cotto (Asti), poco affidabile;
Jacopo Massaro (Belluno), scarsamente affidabile;
Mauro D’Attis (Brindisi), poco affidabile;
Salvatore Abrano (Catanzaro), poco affidabile;
Mario Lucini (Como), poco affidabile;
Gigi Garelli (Cuneo), poco affidabile;
Marco Doria (Genova), affidabile;
Giuseppe Cingolani (Gorizia), scarsamente affidabile;
Raffaele Mauro (Isernia), scarsamente affidabile;
Ettore Di Cesare (L’Aquila), scarsamente affidabile;
Massimiliano Mammì (La Spezia), scarsamente affidabile;
Paolo Perrone (Lecce), affidabile;
Alessandro Tambellini (Lucca), poco affidabile;
Roberto Scanagatti (Monza), poco affidabile;
Leoluca Orlando (Palermo), molto affidabile;
Roberto Ghiretti (Parma), poco affidabile;
Anna Maria Celesti (Pistoia), poco affidabile;
Simone Petriangeli (Rieti), scarsamente affidabile;
Ezio (Ippazio) Stefano (Taranto), poco affidabile;
Gigi Riserbato (Trani), scarsamente affidabile;
Sabrina Rocca (Trapani), poco affidabile;
Gianni Benciolini (Verona), molto affidabile.

Il calcolo dell’affidabilità tiene conto della dimensione del comune e della percentuale di candidati presenti con una loro pagina su Facebook.
Nei prossimi giorni tornerò sull’argomento per vedere come è andata e quali indicazioni si possono trarre in vista della costruzione di un modello più efficace (magari tenendo anche conto della metrica talking_about_this_count).
I dati che ho raccolto sono disponibili a https://docs.google.com/spreadsheet/pub?key=0AlvOxUU1s8RVdGlFUlYwUy1nWW5QYV9mNFFobng4eUE&output=html.
L’articolo relativo allo studio sui dati del 2011 è stato accettato per la pubblicazione negli atti e la presentazione nella sezione poster di ICWSM-12.Dopo la prima esperienza fatta con le elezioni amministrative 2011, ho deciso di raccogliere i dati delle amministrative 2012. Grazie alla indispensabile collaborazione di Agnese Vardanega e del suo team, sono riuscito a identificare e monitorare 116 pagine Facebook relative ai 229 candidati sindaco dei 26 comuni capoluogo che andranno al voto il 6 e 7 Maggio. Si tratta del 51,6% contro il 44,5% dell’edizione 2011 dell’indagine. Come lo scorso hanno ho deciso di concentrarmi solo sull’utilizzo delle pagine e non su quello dei profili personali (per una panoramica complessiva sull’utilizzo del web da parte dei candidati 2012 si veda questo report). La raccolta dati è iniziata il 17 Aprile e si è conclusa con la rilevazioni di oggi 5 Maggio. Per ogni pagina individuata ho raccolta sia il numero di Likes che quello dei talking_about_count (una metrica di engagement della pagina che non esisteva nel 2011).
Nel complesso ho rilevato un totale di 80147 Likes (contro i 179003 del 2011). Nel 2011 i rinnovi delle amministrazioni dei 29 capoluoghi coinvolgevano un totale di 4724554 elettori. Il rapporto con i Likes era dunque del 3,78%. Al momento non ho il dato degli elettori totali per i capoluoghi 2012, ma una prima stima basata sul numero di abitanti dei comuni chiamati al voto farebbe pensare ad una flessione della partecipazione.
Seguendo quanto fatto lo scorso anno, per ogni candidato calcolerò un Candidate Prediction Gap (CPG) inteso come la differenza fra la percentuale di voti validi e la percentuale di Likes ricevuti sul totale di quelli ricevuti da tutti i candidati del comune presenti con una pagina su Facebook.
Lo scopo è quello di creare un semplicissimo modello previsionale che possa essere studiato e testato nel tempo con l’obiettivo di creare, eventualmente, un modello previsionale più articolato, basato su un numero maggiore di variabili ed auspicabilmente più preciso.
Per ogni comune provvederò poi a calcolare un Municipality Prediction Gap (ABS[MPG]) e per comprendere meglio gli effetti di alcune variabili saranno messi a confronto categorie di comuni omogenee per numero di abitanti e percentuale di candidati presenti con pagina su Facebook. Infine provvederò a classificare i candidati per area politica di appartenenza e calcolerò un Party Prediction Gap (PPG) e un ABS[PPG] . Lo scarto fra la previsione ed il risultato può essere negativo o positivo. Per questo motivo in alcuni casi ho calcolato la media dei valori assoluti degli scarti [ABS] per dare conto dell’effettiva distanza fra i valori e in altri casi, laddove era importante mettere in evidenza la direzionalità dello scarto la semplice media degli scarti.
Infine calcolerò un indice di accuratezza della previsione attribuendo ad ogni comune un punteggio in base alla seguente tabella:

	Score
Most popular candidate on Facebook arrived second	3
Second most popular candidate on Facebook won	3
Second most popular candidate on Facebook arrived second	4
Most popular candidate on Facebook won	6

l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Salvatore Pennica (Agrigento), scarsamente affidabile;
Corrado Parise (Alessandria), poco affidabile;
Mariangela Cotto (Asti), poco affidabile;
Jacopo Massaro (Belluno), scarsamente affidabile;
Mauro D’Attis (Brindisi), poco affidabile;
Salvatore Abrano (Catanzaro), poco affidabile;
Mario Lucini (Como), poco affidabile;
Gigi Garelli (Cuneo), poco affidabile;
Marco Doria (Genova), affidabile;
Giuseppe Cingolani (Gorizia), scarsamente affidabile;
Raffaele Mauro (Isernia), scarsamente affidabile;
Ettore Di Cesare (L’Aquila), scarsamente affidabile;
Massimiliano Mammì (La Spezia), scarsamente affidabile;
Paolo Perrone (Lecce), affidabile;
Alessandro Tambellini (Lucca), poco affidabile;
Roberto Scanagatti (Monza), poco affidabile;
Leoluca Orlando (Palermo), molto affidabile;
Roberto Ghiretti (Parma), poco affidabile;
Anna Maria Celesti (Pistoia), poco affidabile;
Simone Petriangeli (Rieti), scarsamente affidabile;
Ezio (Ippazio) Stefano (Taranto), poco affidabile;
Gigi Riserbato (Trani), scarsamente affidabile;
Sabrina Rocca (Trapani), poco affidabile;
Gianni Benciolini (Verona), molto affidabile.

	Score
Most popular candidate on Facebook arrived second	3
Second most popular candidate on Facebook won	3
Second most popular candidate on Facebook arrived second	4
Most popular candidate on Facebook won	6

l’ABS[MPG] diminuiva al crescere della percentuale di candidati del comune presenti con una pagina su Facebook;
l’ABS[MPG] nelle grandi città era inferiore rispetto a quello delle città medie e piccole;
Lo schieramento di centro-destra era quello più sottostimato rispetto agli altri dalla previsione basata sull’analisi del consenso su Facebook. Quello meno sottostimato era invece lo schieramento di sinistra;
In base all’indice di accuratezza della previsione ho potuto osservare come il candidato che risultava primo nella competizione su Facebook, in oltre l’80% dei casi risultava vincitore o piazzato al secondo posto della competizione elettorale.

Salvatore Pennica (Agrigento), scarsamente affidabile;
Corrado Parise (Alessandria), poco affidabile;
Mariangela Cotto (Asti), poco affidabile;
Jacopo Massaro (Belluno), scarsamente affidabile;
Mauro D’Attis (Brindisi), poco affidabile;
Salvatore Abrano (Catanzaro), poco affidabile;
Mario Lucini (Como), poco affidabile;
Gigi Garelli (Cuneo), poco affidabile;
Marco Doria (Genova), affidabile;
Giuseppe Cingolani (Gorizia), scarsamente affidabile;
Raffaele Mauro (Isernia), scarsamente affidabile;
Ettore Di Cesare (L’Aquila), scarsamente affidabile;
Massimiliano Mammì (La Spezia), scarsamente affidabile;
Paolo Perrone (Lecce), affidabile;
Alessandro Tambellini (Lucca), poco affidabile;
Roberto Scanagatti (Monza), poco affidabile;
Leoluca Orlando (Palermo), molto affidabile;
Roberto Ghiretti (Parma), poco affidabile;
Anna Maria Celesti (Pistoia), poco affidabile;
Simone Petriangeli (Rieti), scarsamente affidabile;
Ezio (Ippazio) Stefano (Taranto), poco affidabile;
Gigi Riserbato (Trani), scarsamente affidabile;
Sabrina Rocca (Trapani), poco affidabile;
Gianni Benciolini (Verona), molto affidabile.

Osservatorio Università Italiane su Facebook

Dati in tempo reale per valutare la social media strategy degli atenei italiani

Oltre il 40% degli atenei italiani ha una presenza ufficiale su Facebook (fonte: http://ssrn.com/abstract=1978393). I dati cambiano tuttavia con frequenza quotidiana ed eventi specifici (come ad esempio le recenti nevicate) possono modificare significativamente l’intensità di utilizzo di questi strumenti da parte della comunità di riferimento di un ateneo. Per questo motivo ho deciso di dedicare un po’ di tempo a realizzare uno strumento in grado di tenere traccia di questi cambiamenti nel tempo. A questo scopo ho raffinato alcuni strumenti che avevo già utilizzato in passato per creare un vero e proprio osservatorio che racconti gli atenei italiani su Facebook calcolando quotidianamente indici sintetici di popolarità, popolarità ponderata sul numero degli iscritti e trend dell’attività sulla pagina ponderato in base alla popolarità della pagina stessa.
Alla pagina dell’osservatorio troverete i dati aggiornati quotidianamente. Il reperimento dei dati è affidato ad un script che aggiorna automaticamente il foglio di calcolo prelevandoli da Facebook Graph, archivia i dati del giorno precedente e crea le tabelle riassuntive ed i grafici.
Il servizio è in fase sperimentale. C’è un problema noto che riguarda la pagina dell’Università di Foggia i cui dati sono disponibili solo ad utenti di Facebook autenticati (probabilmente è attivo qualche limitazione geografica o di età sul target di utenti che può visualizzare la pagina). Questo fa si che lo script non sia in grado di reperire i dati di quella pagina.
Potrebbero inoltre mancare delle pagine. Nella pagina dell’osservatorio è descritta la metodologia che ci ha consentito di individuare le pagine ufficiali. Potrebbero tuttavia essere intercorsi dei cambiamenti dalla data di rilevazione e nuovi atenei potrebbero aver aperto pagine ufficiali. Provvederò ad aggiungere queste pagine dietro segnalazione.
Vai alla pagina dell’osservatorio.

Alcuni dati sui Twitter trending topic in Italia

Gli argomenti della settimana su Twitter in Italia analizzati con il GnipPowerTrack importer di DiscoverText

Come accennato nel precedente post, ho avuto la possibilità di testare per alcuni giorni una nuova funzionalità di DiscoverText che consente di reperire gli status di Twitter (Tweet) in tempo (quasi) reale. Grazie all’accordo con Gnip, DiscoverText consente dunque di accedere alla così detta Firehose (il flusso di tutti gli status di Twitter) e di raccogliere questi contenuti per una successiva analisi.
La partecipazione a questo programma di beta test è durata dal 19 al 24 Ottobre (anche se il servizio è ancora al momento attivo).
DiscoverText, già nella versione in produzione, consente di importare contenuti da diverse fonti:

Per quanto riguarda Twitter era già disponibile il Live Feed Import basato sulle REST API di Twitter che richiede l’autenticazione con il proprio nome utente e password ed ha il vantaggio di poter reperire i Tweet da un archivio degli ultimi 5/6 giorni e lo svantaggio di non garantire la completezza dei risultati (si veda il precedente post per i dettagli su questo).
La novità è il GNIP PowerTrack importer.
Questa modalità di importazione dei Tweet ha il vantaggio di restituire il flusso completo di tutti gli status pubblici e lo svantaggio di non consentire l’accesso ad alcun archivio (il flusso che si riesce a reperire parte dal momento in cui si inizia a raccogliere i dati).
Una combinazione delle due metodologie di importazione descritte dovrebbe consentire dunque una ragionevole fedeltà nella raccolta dati (ovviamente bisognerà rimuovere i duplicati, cosa che DiscoverText consente di fare in automatico).
La metodologia di importazione GNIP PowerTrack si basa sulla costruzione di una regola di importazione che può essere costruita da un massimo di 10 termini o operatori fino a una lunghezza complessiva di 255 caratteri per l’intera regola. In pratica si tratta di filtrare il flusso dei contenuti secondo certi criteri.
Si possono cercare frasi esatte, usare gli operatori – per escludere un termine, usare un hashtag – vengono identificati alla fonte da Twitter – come chiave di ricerca, una mention di un utente specifico (@nomeutente compresi i RT), status prodotti o destinati ad un utente specifico (from: e to:), contenenti smile, status prodotti da un client specifico, status che siano retweet di uno specifico utente, status contenenti luoghi, stringhe specifiche, che contengono un certo indirizzo internet, status prodotti da utenti che abbiano un klout score compreso fra due valori minimo e massimo, status che contengono link, che siano geo-referenziati, che contengono almeno una mentions (compresi dunque i retweet) o almeno un hashtag e infine status classificati da Gnip come appartenenti ad una certa lingua (compreso l’italiano).
Per testare la funzionalità ho raccolto i dati per molti dei trending topics (per capire meglio come vengono calcolati consiglio la lettura di questo articolo) italiani emersi nel corso degli ultimi giorni da #erpelliccia a #gheddafi, da #nubifragio a #notav (+ “val di susa”) senza dimenticare #XF5 e #gf12. Ho anche provato per breve tempo a monitorare un trending topic globale e sponsorizzato come “Paranormal Activity 3”. Per completare i test ho anche provato a raccogliere i dati dell’interno stream di contenuti in lingua italiana allo scopo di comprendere meglio la consistenza del flusso di tweet prodotti nella nostra lingua.
Iniziamo l’analisi da questi ultimi.
Usando il filtro lang:it avrei dovuto reperire il flusso di Tweet in italiano. Purtroppo questo filtro si è dimostrato del tutto inefficace. Per motivi che non mi sono chiari oltre ai Tweet in italiano sono stati anche reperiti i Tweet in altre lingue fra cui indonesiano, malese, vietnamita, turco e chissà quante altre (ho usato Google Translate per identificarle). Questa errata identificazione della lingua ha reso impossibile raggiungere l’obiettivo che mi ero posto ed i sotto-obiettivi che sarebbero stati identificare quanti di questi Tweet prodotti nella nostra lingua fossero geo-referenziati, contenessero link, mentions ed hashtag.
Passiamo dunque all’analisi del flusso di un trending topic globale e sponsorizzato come “Paranormal Activity 3”.
In questo caso, usando la semplice ricerca per frase esatta, sono stati reperiti 21333 status updates in circa due ore e mezza (nello specifico fra il 10/21/2011 2:36:13 AM ed il 10/21/2011 5:05:37 AM EST: Eastern Standard Time). Si tratta di 142 Tweet circa al minuto. DiscoverText supporta l’analisi di grandi quantità di dati attraverso uno strumento chiamato CloudExplorer. Si tratta in pratica di una semplice tagcloud che consente però di cliccare su ogni voce per accedere alla lista dei contenuti filtrati per quella parola chiave.

Cliccando ad esempio su See si accede ad una lista filtrata dei 7260 Tweet in archivio che contengono questo termine. L’archivio può inoltre essere ricercato liberamente per parola chiave e filtrato usando uno o più criteri basati sugli stessi metadati disponibili per la costruzione di un filtro. Posso ad esempio sapere con facilità quanti status in archivio contengono un hashtag (in questo caso 2433) o quanti contengono menzioni di altri utenti (8004).
Dal pannello filtri avanzati della ricerca è inoltre possibile ottenere alcuni altri dati sull’archivio. Si può ad esempio conoscere il numero degli utenti che hanno usato l’hashtag (19360) e quale di questi lo abbia fatto più volte (15). Conoscere l’hashtag più utilizzato è Paranormal con 281 occorrenze seguito curiosamente da iDontSupport con 66 occorrenze. In totale sono stati utilizzati 1342 hastag diversi. Ci sono invece 5930 utenti diversi menzionati con in testa l’account ufficiale del film chiamato in causa da 531 status.
Il risultato di una ricerca può essere salvato in un bucket (un contenitore di passaggio con il quale miscelare i dati unendo ad esempio più di un bucket) dal quale costruire poi un dataset. Al dataset possono essere applicate le classiche tecniche di analisi del contenuto basate su griglie di analisi date o costruite a partire dai dati. Il dataset toolbox comprende strumenti piuttosto avanzati per il supporto della collaborazione fra più ricercatori nella codifica dello stesso dataset.
Veniamo adesso ai dati che riguardano i trending topics italiani.
Mi soffermerò sui casi di #gheddafi lang:it, #nubifragio, #notav, #XF5 e #gf12.
L’importer avviato alle il 20/10/2011 alle 13:50 (l’ANSA con la notizia della morte di Gheddafi è delle 13:11) ha raccolto 6601 Tweet. Il primo contenuto reperito è datato 20/10/2011 alle 13:49, l’ultimo 24/10/2011 alle 11:17.
Nel GNIP Feed Management è possibile visualizzare un grafico dell’andamento dei Tweet per ogni importer attivo.
Questo è il grafico per #gheddafi (gli orari sono in EST – Eastern Standard Time e gli slot temporali da circa 15 minuti).

Il picco è di oltre 300 Tweet in 15 minuti circa e corrisponde con il momento di attivazione dell’importer. Sarebbe stato bello poter raccogliere i dati di quella mezz’ora intercorsa fra l’annuncio della morte ed il momento di attivazione dell’importer. Raccogliere dataset completi relativi a breaking news è veramente difficile con questo metodo.
Per questo motivo ho provato nel caso di #nubifragio ad utilizzare sia l’importer basato sulle REST API sia il GNIP Power Track.
Con questo metodo ho reperito 4005 (1886 con GNIP e 2119 con le REST API) Tweet. La rimozione dei duplicati esatti ha ridotto l’archivio a 1783 status. Non mi è chiarissimo con questo elenco dei duplicati esatti venga creato e dopo averlo applicato anche ad altri archivi che non avrebbero dovuto contenere duplicati temo posso rimuovere anche i retweet identici. Purtroppo è difficile estrarre da questo archivio elementi utili sulle date perché, apparentemente, i Tweet importati da GNIP e quelli importati dalle REST API sono riferiti a fusi orari diversi. Questo status duplicato ha come ora di pubblicazione rispettivamente le 9:33 AM EST e le 5:33 AM di un fuso orario sconosciuto.
Più semplice è invece lavorare su eventi programmati per i quali è possibile attivare l’importer per tempo.
Per la manifestazione di Val di Susa ho seguito l’hashtag #notav e la stringa di ricerca “val di susa”. Ho attivato l’importer alle 8:34 23/10 e reperito nel complesso 5501 Tweet.
Di seguito il grafico per l’hashtag #notav.

In questo caso sono riuscito a fotografare l’andamento del fenomeno prima che raggiungesse il picco (avvenuto intorno all’ora di pranzo con oltre 300 Tweet prodotti durante lo slot di 15 minuti circa).
Gli hashtag più utilizzati sono stati #diamociuntaglio (1014) e #report (117). Dei 429 utenti menzionati, notav_info è il più citato (645). In totale hanno contribuito a questo hashtag 1300 utenti diversi. Il più attivo è stato ViceVersa_1917 con 146 Tweet.
Durante il periodo di betatest sono inoltre andati in onda le prime puntate della quinta stagione di X Factor e della dodicesima edizione de Il Grande Fratello.
Per X Factor ho monitorato l’hashtag #xf5 con colpevole ritardo a partire dalla mattina successiva alla messa in onda.

Anche la mattina dopo c’è stato un discreto volume di conversazioni che ha superato il picco di 200 Tweet in 15 minuti. Se dovessi avere ancora accesso al servizio proverò a raccogliere i dati relativi alla messa in onda della seconda puntata in onda domani.
Infine per quanto riguarda la prima puntata della dodicesima stagione de Il Grande Fratello ho monitorato sia l’hashtag #gf12 che la stringa “grande fratello” a partire da pochi minuti prima della messa in onda (20:56 del 24/10).
Ecco il volume di Tweet durante la messa in onda (il primo grafico è riferito a “grande fratello” e il secondo a #gf12) [le 3 PM del grafico equivalgono alle nostre 21:00].

In entrambi i casi l’andamento è simile con le discussioni che si protraggono fino a oltre mezza notte (le 6 PM nel grafico). Il buco delle 5 PM del grafico credo sia dovuto a qualche problema nel flusso di importazione dei dati.
Nel secondo caso si sono toccati e superati gli 800 Tweet in 15 minuti. Inoltre questo volume è stato mantenuto per tutta la durata del programma.
Nel complesso ho reperito 13308 generati da 5169 utenti il più attivo dei quali è stato w4rr10r_0 con i suoi 160 status. Oltre a #gf12 sono stati utilizzati altri 883 diversi hashtag. Il più utilizzato dopo #gf12 è stato #GrandeFratello.
Fra i xxx menzionati nei Tweet etichettati #gf12 spicca @Microsatira il cui tweet ironico è stato retweettato oltre 100 volte (in totale ha ricevuto 189 mentions).
La seguente tagcloud dovrebbe dare un’idea dei temi più citati:

Come spesso accade nei discorsi sui programmi televisivi di grande richiamo i commenti veri e propri al programma si sommano ai giudizi di chi non riesce a capacitarsi di come quel programma possa avere successo o si lamenta della qualità della televisione italiana.
In conclusione credo che DiscoverText sia uno strumento con delle caratteristiche uniche. Non si tratta di un prodotto perfetto e non sono mancate le volte nelle quali, specie su grandi quantità di dati, mi sono stati restituiti dei messaggi di errore. L’accordo che stanno perfezionando con Gnip potrebbe rendere questo strumento essenziale per chi voglia fare ricerca su Twitter. Le modalità di implementazione di questa funzionalità rendono bene le potenzialità di estensibilità della piattaforma. La gestione delle timezones appare migliorabile (forse renderanno in futuro possibile scegliere all’utente il fuso orario per il grafico). Nel complesso il sistema si comporta bene anche su grandi quantità di dati mostrando eccellenti performance nella creazione delle tagclouds (che necessiterebbero però della possibilità di escludere liste di parole comuni) e nelle ricerche che richiedono sempre tempi ragionevolmente brevi per essere portate a termine.
Credo ci siano più di uno spunto
Come ho avuto modo di scrivere altrove, l’utilizzo di una piattaforma web collaborativa per l’analisi del contenuto rappresenta un percorso obbligato per chi desideri fare ricerca qualitativa su grandi quantità di dati (come quelli provenienti dai media sociali).
DiscoverText è un prodotto della Texifter LLC. Si tratta di una società nata come spin-off a partire dall’attività di ricerca di Stuart W. Shulman presso la University of Massachusetts Amherst.
Non mi resta dunque che augurare buon lavoro a Stuart e al suo team di sviluppatori.
P.S. Durante il periodo di beta-test i dati non sono esportabili quindi non chiedetemeli 😉

Come accennato nel precedente post, ho avuto la possibilità di testare per alcuni giorni una nuova funzionalità di DiscoverText che consente di reperire gli status di Twitter (Tweet) in tempo (quasi) reale. Grazie all’accordo con Gnip, DiscoverText consente dunque di accedere alla così detta Firehose (il flusso di tutti gli status di Twitter) e di raccogliere questi contenuti per una successiva analisi.
La partecipazione a questo programma di beta test è durata dal 19 al 24 Ottobre (anche se il servizio è ancora al momento attivo).
DiscoverText, già nella versione in produzione, consente di importare contenuti da diverse fonti:

Per quanto riguarda Twitter era già disponibile il Live Feed Import basato sulle REST API di Twitter che richiede l’autenticazione con il proprio nome utente e password ed ha il vantaggio di poter reperire i Tweet da un archivio degli ultimi 5/6 giorni e lo svantaggio di non garantire la completezza dei risultati (si veda il precedente post per i dettagli su questo).
La novità è il GNIP PowerTrack importer.
Questa modalità di importazione dei Tweet ha il vantaggio di restituire il flusso completo di tutti gli status pubblici e lo svantaggio di non consentire l’accesso ad alcun archivio (il flusso che si riesce a reperire parte dal momento in cui si inizia a raccogliere i dati).
Una combinazione delle due metodologie di importazione descritte dovrebbe consentire dunque una ragionevole fedeltà nella raccolta dati (ovviamente bisognerà rimuovere i duplicati, cosa che DiscoverText consente di fare in automatico).
La metodologia di importazione GNIP PowerTrack si basa sulla costruzione di una regola di importazione che può essere costruita da un massimo di 10 termini o operatori fino a una lunghezza complessiva di 255 caratteri per l’intera regola. In pratica si tratta di filtrare il flusso dei contenuti secondo certi criteri.
Si possono cercare frasi esatte, usare gli operatori – per escludere un termine, usare un hashtag – vengono identificati alla fonte da Twitter – come chiave di ricerca, una mention di un utente specifico (@nomeutente compresi i RT), status prodotti o destinati ad un utente specifico (from: e to:), contenenti smile, status prodotti da un client specifico, status che siano retweet di uno specifico utente, status contenenti luoghi, stringhe specifiche, che contengono un certo indirizzo internet, status prodotti da utenti che abbiano un klout score compreso fra due valori minimo e massimo, status che contengono link, che siano geo-referenziati, che contengono almeno una mentions (compresi dunque i retweet) o almeno un hashtag e infine status classificati da Gnip come appartenenti ad una certa lingua (compreso l’italiano).
Per testare la funzionalità ho raccolto i dati per molti dei trending topics (per capire meglio come vengono calcolati consiglio la lettura di questo articolo) italiani emersi nel corso degli ultimi giorni da #erpelliccia a #gheddafi, da #nubifragio a #notav (+ “val di susa”) senza dimenticare #XF5 e #gf12. Ho anche provato per breve tempo a monitorare un trending topic globale e sponsorizzato come “Paranormal Activity 3”. Per completare i test ho anche provato a raccogliere i dati dell’interno stream di contenuti in lingua italiana allo scopo di comprendere meglio la consistenza del flusso di tweet prodotti nella nostra lingua.
Iniziamo l’analisi da questi ultimi.
Usando il filtro lang:it avrei dovuto reperire il flusso di Tweet in italiano. Purtroppo questo filtro si è dimostrato del tutto inefficace. Per motivi che non mi sono chiari oltre ai Tweet in italiano sono stati anche reperiti i Tweet in altre lingue fra cui indonesiano, malese, vietnamita, turco e chissà quante altre (ho usato Google Translate per identificarle). Questa errata identificazione della lingua ha reso impossibile raggiungere l’obiettivo che mi ero posto ed i sotto-obiettivi che sarebbero stati identificare quanti di questi Tweet prodotti nella nostra lingua fossero geo-referenziati, contenessero link, mentions ed hashtag.
Passiamo dunque all’analisi del flusso di un trending topic globale e sponsorizzato come “Paranormal Activity 3”.
In questo caso, usando la semplice ricerca per frase esatta, sono stati reperiti 21333 status updates in circa due ore e mezza (nello specifico fra il 10/21/2011 2:36:13 AM ed il 10/21/2011 5:05:37 AM EST: Eastern Standard Time). Si tratta di 142 Tweet circa al minuto. DiscoverText supporta l’analisi di grandi quantità di dati attraverso uno strumento chiamato CloudExplorer. Si tratta in pratica di una semplice tagcloud che consente però di cliccare su ogni voce per accedere alla lista dei contenuti filtrati per quella parola chiave.

Cliccando ad esempio su See si accede ad una lista filtrata dei 7260 Tweet in archivio che contengono questo termine. L’archivio può inoltre essere ricercato liberamente per parola chiave e filtrato usando uno o più criteri basati sugli stessi metadati disponibili per la costruzione di un filtro. Posso ad esempio sapere con facilità quanti status in archivio contengono un hashtag (in questo caso 2433) o quanti contengono menzioni di altri utenti (8004).
Dal pannello filtri avanzati della ricerca è inoltre possibile ottenere alcuni altri dati sull’archivio. Si può ad esempio conoscere il numero degli utenti che hanno usato l’hashtag (19360) e quale di questi lo abbia fatto più volte (15). Conoscere l’hashtag più utilizzato è Paranormal con 281 occorrenze seguito curiosamente da iDontSupport con 66 occorrenze. In totale sono stati utilizzati 1342 hastag diversi. Ci sono invece 5930 utenti diversi menzionati con in testa l’account ufficiale del film chiamato in causa da 531 status.
Il risultato di una ricerca può essere salvato in un bucket (un contenitore di passaggio con il quale miscelare i dati unendo ad esempio più di un bucket) dal quale costruire poi un dataset. Al dataset possono essere applicate le classiche tecniche di analisi del contenuto basate su griglie di analisi date o costruite a partire dai dati. Il dataset toolbox comprende strumenti piuttosto avanzati per il supporto della collaborazione fra più ricercatori nella codifica dello stesso dataset.
Veniamo adesso ai dati che riguardano i trending topics italiani.
Mi soffermerò sui casi di #gheddafi lang:it, #nubifragio, #notav, #XF5 e #gf12.
L’importer avviato alle il 20/10/2011 alle 13:50 (l’ANSA con la notizia della morte di Gheddafi è delle 13:11) ha raccolto 6601 Tweet. Il primo contenuto reperito è datato 20/10/2011 alle 13:49, l’ultimo 24/10/2011 alle 11:17.
Nel GNIP Feed Management è possibile visualizzare un grafico dell’andamento dei Tweet per ogni importer attivo.
Questo è il grafico per #gheddafi (gli orari sono in EST – Eastern Standard Time e gli slot temporali da circa 15 minuti).

Il picco è di oltre 300 Tweet in 15 minuti circa e corrisponde con il momento di attivazione dell’importer. Sarebbe stato bello poter raccogliere i dati di quella mezz’ora intercorsa fra l’annuncio della morte ed il momento di attivazione dell’importer. Raccogliere dataset completi relativi a breaking news è veramente difficile con questo metodo.
Per questo motivo ho provato nel caso di #nubifragio ad utilizzare sia l’importer basato sulle REST API sia il GNIP Power Track.
Con questo metodo ho reperito 4005 (1886 con GNIP e 2119 con le REST API) Tweet. La rimozione dei duplicati esatti ha ridotto l’archivio a 1783 status. Non mi è chiarissimo con questo elenco dei duplicati esatti venga creato e dopo averlo applicato anche ad altri archivi che non avrebbero dovuto contenere duplicati temo posso rimuovere anche i retweet identici. Purtroppo è difficile estrarre da questo archivio elementi utili sulle date perché, apparentemente, i Tweet importati da GNIP e quelli importati dalle REST API sono riferiti a fusi orari diversi. Questo status duplicato ha come ora di pubblicazione rispettivamente le 9:33 AM EST e le 5:33 AM di un fuso orario sconosciuto.
Più semplice è invece lavorare su eventi programmati per i quali è possibile attivare l’importer per tempo.
Per la manifestazione di Val di Susa ho seguito l’hashtag #notav e la stringa di ricerca “val di susa”. Ho attivato l’importer alle 8:34 23/10 e reperito nel complesso 5501 Tweet.
Di seguito il grafico per l’hashtag #notav.

In questo caso sono riuscito a fotografare l’andamento del fenomeno prima che raggiungesse il picco (avvenuto intorno all’ora di pranzo con oltre 300 Tweet prodotti durante lo slot di 15 minuti circa).
Gli hashtag più utilizzati sono stati #diamociuntaglio (1014) e #report (117). Dei 429 utenti menzionati, notav_info è il più citato (645). In totale hanno contribuito a questo hashtag 1300 utenti diversi. Il più attivo è stato ViceVersa_1917 con 146 Tweet.
Durante il periodo di betatest sono inoltre andati in onda le prime puntate della quinta stagione di X Factor e della dodicesima edizione de Il Grande Fratello.
Per X Factor ho monitorato l’hashtag #xf5 con colpevole ritardo a partire dalla mattina successiva alla messa in onda.

Anche la mattina dopo c’è stato un discreto volume di conversazioni che ha superato il picco di 200 Tweet in 15 minuti. Se dovessi avere ancora accesso al servizio proverò a raccogliere i dati relativi alla messa in onda della seconda puntata in onda domani.
Infine per quanto riguarda la prima puntata della dodicesima stagione de Il Grande Fratello ho monitorato sia l’hashtag #gf12 che la stringa “grande fratello” a partire da pochi minuti prima della messa in onda (20:56 del 24/10).
Ecco il volume di Tweet durante la messa in onda (il primo grafico è riferito a “grande fratello” e il secondo a #gf12) [le 3 PM del grafico equivalgono alle nostre 21:00].

In entrambi i casi l’andamento è simile con le discussioni che si protraggono fino a oltre mezza notte (le 6 PM nel grafico). Il buco delle 5 PM del grafico credo sia dovuto a qualche problema nel flusso di importazione dei dati.
Nel secondo caso si sono toccati e superati gli 800 Tweet in 15 minuti. Inoltre questo volume è stato mantenuto per tutta la durata del programma.
Nel complesso ho reperito 13308 generati da 5169 utenti il più attivo dei quali è stato w4rr10r_0 con i suoi 160 status. Oltre a #gf12 sono stati utilizzati altri 883 diversi hashtag. Il più utilizzato dopo #gf12 è stato #GrandeFratello.
Fra i xxx menzionati nei Tweet etichettati #gf12 spicca @Microsatira il cui tweet ironico è stato retweettato oltre 100 volte (in totale ha ricevuto 189 mentions).
La seguente tagcloud dovrebbe dare un’idea dei temi più citati:

Come spesso accade nei discorsi sui programmi televisivi di grande richiamo i commenti veri e propri al programma si sommano ai giudizi di chi non riesce a capacitarsi di come quel programma possa avere successo o si lamenta della qualità della televisione italiana.
In conclusione credo che DiscoverText sia uno strumento con delle caratteristiche uniche. Non si tratta di un prodotto perfetto e non sono mancate le volte nelle quali, specie su grandi quantità di dati, mi sono stati restituiti dei messaggi di errore. L’accordo che stanno perfezionando con Gnip potrebbe rendere questo strumento essenziale per chi voglia fare ricerca su Twitter. Le modalità di implementazione di questa funzionalità rendono bene le potenzialità di estensibilità della piattaforma. La gestione delle timezones appare migliorabile (forse renderanno in futuro possibile scegliere all’utente il fuso orario per il grafico). Nel complesso il sistema si comporta bene anche su grandi quantità di dati mostrando eccellenti performance nella creazione delle tagclouds (che necessiterebbero però della possibilità di escludere liste di parole comuni) e nelle ricerche che richiedono sempre tempi ragionevolmente brevi per essere portate a termine.
Credo ci siano più di uno spunto
Come ho avuto modo di scrivere altrove, l’utilizzo di una piattaforma web collaborativa per l’analisi del contenuto rappresenta un percorso obbligato per chi desideri fare ricerca qualitativa su grandi quantità di dati (come quelli provenienti dai media sociali).
DiscoverText è un prodotto della Texifter LLC. Si tratta di una società nata come spin-off a partire dall’attività di ricerca di Stuart W. Shulman presso la University of Massachusetts Amherst.
Non mi resta dunque che augurare buon lavoro a Stuart e al suo team di sviluppatori.
P.S. Durante il periodo di beta-test i dati non sono esportabili quindi non chiedetemeli 😉

Come accennato nel precedente post, ho avuto la possibilità di testare per alcuni giorni una nuova funzionalità di DiscoverText che consente di reperire gli status di Twitter (Tweet) in tempo (quasi) reale. Grazie all’accordo con Gnip, DiscoverText consente dunque di accedere alla così detta Firehose (il flusso di tutti gli status di Twitter) e di raccogliere questi contenuti per una successiva analisi.
La partecipazione a questo programma di beta test è durata dal 19 al 24 Ottobre (anche se il servizio è ancora al momento attivo).
DiscoverText, già nella versione in produzione, consente di importare contenuti da diverse fonti:

Per quanto riguarda Twitter era già disponibile il Live Feed Import basato sulle REST API di Twitter che richiede l’autenticazione con il proprio nome utente e password ed ha il vantaggio di poter reperire i Tweet da un archivio degli ultimi 5/6 giorni e lo svantaggio di non garantire la completezza dei risultati (si veda il precedente post per i dettagli su questo).
La novità è il GNIP PowerTrack importer.
Questa modalità di importazione dei Tweet ha il vantaggio di restituire il flusso completo di tutti gli status pubblici e lo svantaggio di non consentire l’accesso ad alcun archivio (il flusso che si riesce a reperire parte dal momento in cui si inizia a raccogliere i dati).
Una combinazione delle due metodologie di importazione descritte dovrebbe consentire dunque una ragionevole fedeltà nella raccolta dati (ovviamente bisognerà rimuovere i duplicati, cosa che DiscoverText consente di fare in automatico).
La metodologia di importazione GNIP PowerTrack si basa sulla costruzione di una regola di importazione che può essere costruita da un massimo di 10 termini o operatori fino a una lunghezza complessiva di 255 caratteri per l’intera regola. In pratica si tratta di filtrare il flusso dei contenuti secondo certi criteri.
Si possono cercare frasi esatte, usare gli operatori – per escludere un termine, usare un hashtag – vengono identificati alla fonte da Twitter – come chiave di ricerca, una mention di un utente specifico (@nomeutente compresi i RT), status prodotti o destinati ad un utente specifico (from: e to:), contenenti smile, status prodotti da un client specifico, status che siano retweet di uno specifico utente, status contenenti luoghi, stringhe specifiche, che contengono un certo indirizzo internet, status prodotti da utenti che abbiano un klout score compreso fra due valori minimo e massimo, status che contengono link, che siano geo-referenziati, che contengono almeno una mentions (compresi dunque i retweet) o almeno un hashtag e infine status classificati da Gnip come appartenenti ad una certa lingua (compreso l’italiano).
Per testare la funzionalità ho raccolto i dati per molti dei trending topics (per capire meglio come vengono calcolati consiglio la lettura di questo articolo) italiani emersi nel corso degli ultimi giorni da #erpelliccia a #gheddafi, da #nubifragio a #notav (+ “val di susa”) senza dimenticare #XF5 e #gf12. Ho anche provato per breve tempo a monitorare un trending topic globale e sponsorizzato come “Paranormal Activity 3”. Per completare i test ho anche provato a raccogliere i dati dell’interno stream di contenuti in lingua italiana allo scopo di comprendere meglio la consistenza del flusso di tweet prodotti nella nostra lingua.
Iniziamo l’analisi da questi ultimi.
Usando il filtro lang:it avrei dovuto reperire il flusso di Tweet in italiano. Purtroppo questo filtro si è dimostrato del tutto inefficace. Per motivi che non mi sono chiari oltre ai Tweet in italiano sono stati anche reperiti i Tweet in altre lingue fra cui indonesiano, malese, vietnamita, turco e chissà quante altre (ho usato Google Translate per identificarle). Questa errata identificazione della lingua ha reso impossibile raggiungere l’obiettivo che mi ero posto ed i sotto-obiettivi che sarebbero stati identificare quanti di questi Tweet prodotti nella nostra lingua fossero geo-referenziati, contenessero link, mentions ed hashtag.
Passiamo dunque all’analisi del flusso di un trending topic globale e sponsorizzato come “Paranormal Activity 3”.
In questo caso, usando la semplice ricerca per frase esatta, sono stati reperiti 21333 status updates in circa due ore e mezza (nello specifico fra il 10/21/2011 2:36:13 AM ed il 10/21/2011 5:05:37 AM EST: Eastern Standard Time). Si tratta di 142 Tweet circa al minuto. DiscoverText supporta l’analisi di grandi quantità di dati attraverso uno strumento chiamato CloudExplorer. Si tratta in pratica di una semplice tagcloud che consente però di cliccare su ogni voce per accedere alla lista dei contenuti filtrati per quella parola chiave.

Cliccando ad esempio su See si accede ad una lista filtrata dei 7260 Tweet in archivio che contengono questo termine. L’archivio può inoltre essere ricercato liberamente per parola chiave e filtrato usando uno o più criteri basati sugli stessi metadati disponibili per la costruzione di un filtro. Posso ad esempio sapere con facilità quanti status in archivio contengono un hashtag (in questo caso 2433) o quanti contengono menzioni di altri utenti (8004).
Dal pannello filtri avanzati della ricerca è inoltre possibile ottenere alcuni altri dati sull’archivio. Si può ad esempio conoscere il numero degli utenti che hanno usato l’hashtag (19360) e quale di questi lo abbia fatto più volte (15). Conoscere l’hashtag più utilizzato è Paranormal con 281 occorrenze seguito curiosamente da iDontSupport con 66 occorrenze. In totale sono stati utilizzati 1342 hastag diversi. Ci sono invece 5930 utenti diversi menzionati con in testa l’account ufficiale del film chiamato in causa da 531 status.
Il risultato di una ricerca può essere salvato in un bucket (un contenitore di passaggio con il quale miscelare i dati unendo ad esempio più di un bucket) dal quale costruire poi un dataset. Al dataset possono essere applicate le classiche tecniche di analisi del contenuto basate su griglie di analisi date o costruite a partire dai dati. Il dataset toolbox comprende strumenti piuttosto avanzati per il supporto della collaborazione fra più ricercatori nella codifica dello stesso dataset.
Veniamo adesso ai dati che riguardano i trending topics italiani.
Mi soffermerò sui casi di #gheddafi lang:it, #nubifragio, #notav, #XF5 e #gf12.
L’importer avviato alle il 20/10/2011 alle 13:50 (l’ANSA con la notizia della morte di Gheddafi è delle 13:11) ha raccolto 6601 Tweet. Il primo contenuto reperito è datato 20/10/2011 alle 13:49, l’ultimo 24/10/2011 alle 11:17.
Nel GNIP Feed Management è possibile visualizzare un grafico dell’andamento dei Tweet per ogni importer attivo.
Questo è il grafico per #gheddafi (gli orari sono in EST – Eastern Standard Time e gli slot temporali da circa 15 minuti).

Il picco è di oltre 300 Tweet in 15 minuti circa e corrisponde con il momento di attivazione dell’importer. Sarebbe stato bello poter raccogliere i dati di quella mezz’ora intercorsa fra l’annuncio della morte ed il momento di attivazione dell’importer. Raccogliere dataset completi relativi a breaking news è veramente difficile con questo metodo.
Per questo motivo ho provato nel caso di #nubifragio ad utilizzare sia l’importer basato sulle REST API sia il GNIP Power Track.
Con questo metodo ho reperito 4005 (1886 con GNIP e 2119 con le REST API) Tweet. La rimozione dei duplicati esatti ha ridotto l’archivio a 1783 status. Non mi è chiarissimo con questo elenco dei duplicati esatti venga creato e dopo averlo applicato anche ad altri archivi che non avrebbero dovuto contenere duplicati temo posso rimuovere anche i retweet identici. Purtroppo è difficile estrarre da questo archivio elementi utili sulle date perché, apparentemente, i Tweet importati da GNIP e quelli importati dalle REST API sono riferiti a fusi orari diversi. Questo status duplicato ha come ora di pubblicazione rispettivamente le 9:33 AM EST e le 5:33 AM di un fuso orario sconosciuto.
Più semplice è invece lavorare su eventi programmati per i quali è possibile attivare l’importer per tempo.
Per la manifestazione di Val di Susa ho seguito l’hashtag #notav e la stringa di ricerca “val di susa”. Ho attivato l’importer alle 8:34 23/10 e reperito nel complesso 5501 Tweet.
Di seguito il grafico per l’hashtag #notav.

In questo caso sono riuscito a fotografare l’andamento del fenomeno prima che raggiungesse il picco (avvenuto intorno all’ora di pranzo con oltre 300 Tweet prodotti durante lo slot di 15 minuti circa).
Gli hashtag più utilizzati sono stati #diamociuntaglio (1014) e #report (117). Dei 429 utenti menzionati, notav_info è il più citato (645). In totale hanno contribuito a questo hashtag 1300 utenti diversi. Il più attivo è stato ViceVersa_1917 con 146 Tweet.
Durante il periodo di betatest sono inoltre andati in onda le prime puntate della quinta stagione di X Factor e della dodicesima edizione de Il Grande Fratello.
Per X Factor ho monitorato l’hashtag #xf5 con colpevole ritardo a partire dalla mattina successiva alla messa in onda.

Anche la mattina dopo c’è stato un discreto volume di conversazioni che ha superato il picco di 200 Tweet in 15 minuti. Se dovessi avere ancora accesso al servizio proverò a raccogliere i dati relativi alla messa in onda della seconda puntata in onda domani.
Infine per quanto riguarda la prima puntata della dodicesima stagione de Il Grande Fratello ho monitorato sia l’hashtag #gf12 che la stringa “grande fratello” a partire da pochi minuti prima della messa in onda (20:56 del 24/10).
Ecco il volume di Tweet durante la messa in onda (il primo grafico è riferito a “grande fratello” e il secondo a #gf12) [le 3 PM del grafico equivalgono alle nostre 21:00].

In entrambi i casi l’andamento è simile con le discussioni che si protraggono fino a oltre mezza notte (le 6 PM nel grafico). Il buco delle 5 PM del grafico credo sia dovuto a qualche problema nel flusso di importazione dei dati.
Nel secondo caso si sono toccati e superati gli 800 Tweet in 15 minuti. Inoltre questo volume è stato mantenuto per tutta la durata del programma.
Nel complesso ho reperito 13308 generati da 5169 utenti il più attivo dei quali è stato w4rr10r_0 con i suoi 160 status. Oltre a #gf12 sono stati utilizzati altri 883 diversi hashtag. Il più utilizzato dopo #gf12 è stato #GrandeFratello.
Fra i xxx menzionati nei Tweet etichettati #gf12 spicca @Microsatira il cui tweet ironico è stato retweettato oltre 100 volte (in totale ha ricevuto 189 mentions).
La seguente tagcloud dovrebbe dare un’idea dei temi più citati:

Come spesso accade nei discorsi sui programmi televisivi di grande richiamo i commenti veri e propri al programma si sommano ai giudizi di chi non riesce a capacitarsi di come quel programma possa avere successo o si lamenta della qualità della televisione italiana.
In conclusione credo che DiscoverText sia uno strumento con delle caratteristiche uniche. Non si tratta di un prodotto perfetto e non sono mancate le volte nelle quali, specie su grandi quantità di dati, mi sono stati restituiti dei messaggi di errore. L’accordo che stanno perfezionando con Gnip potrebbe rendere questo strumento essenziale per chi voglia fare ricerca su Twitter. Le modalità di implementazione di questa funzionalità rendono bene le potenzialità di estensibilità della piattaforma. La gestione delle timezones appare migliorabile (forse renderanno in futuro possibile scegliere all’utente il fuso orario per il grafico). Nel complesso il sistema si comporta bene anche su grandi quantità di dati mostrando eccellenti performance nella creazione delle tagclouds (che necessiterebbero però della possibilità di escludere liste di parole comuni) e nelle ricerche che richiedono sempre tempi ragionevolmente brevi per essere portate a termine.
Credo ci siano più di uno spunto
Come ho avuto modo di scrivere altrove, l’utilizzo di una piattaforma web collaborativa per l’analisi del contenuto rappresenta un percorso obbligato per chi desideri fare ricerca qualitativa su grandi quantità di dati (come quelli provenienti dai media sociali).
DiscoverText è un prodotto della Texifter LLC. Si tratta di una società nata come spin-off a partire dall’attività di ricerca di Stuart W. Shulman presso la University of Massachusetts Amherst.
Non mi resta dunque che augurare buon lavoro a Stuart e al suo team di sviluppatori.
P.S. Durante il periodo di beta-test i dati non sono esportabili quindi non chiedetemeli 😉

Limiti e possibilità della ricerca su Twitter

Il crescere del numero di ricercatori che scelgono i social media come luogo di osservazione per studiare le dinamiche sociali rende indispensabile fare il punto su limiti e possibilità offerti da queste piattaforme

Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche nella comunità accademica italiana, l’idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.
Come all’estero anche in Italia, i ricercatori, al pari dei media, dedicano a Twitter un’attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.
Sul blog ufficiale di Twitter si legge che la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi nel mondo, che la metà di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza ha messo a confronto questi dati con quelli rilasciati da Facebook.
Twitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma fonti attendibili stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cioè fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.
Capire la situazione a oggi non è affatto semplice.
Stimare il traffico verso il sito non è infatti, in questo caso, un buon indicatore perché una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un interesse crescente, in Italia, per questa piattaforma con un volume che, tuttavia, non si discosta molto da quello di siti come Badoo, Netlog o Flickr. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un’idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell’interesse degli utenti verso una certa piattaforma).
Chiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell’interesse dei ricercatori italiani.
Di fatto così non è. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull’analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest’ultima piattaforma. Basta scorrere il resoconto del recente convegno dell’associazione internazionale dei ricercatori che studiano internet, per capire che non si tratta di un fenomeno italiano e che l’interesse della comunità accademica è centrato, a dispetto dei dati sull’utilizzo, più su Twitter che su Facebook. Questa tendenza è particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.
Credo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:
1. Il sistema di privacy e le pratiche d’uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;
2. L’interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;
3. La natura orientata all’informazione (la domanda di Twitter è “Cosa sta succedendo” e non “A cosa stai pensando”) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;
4. L’emergere di pratiche come l’uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalità interne della piattaforma) rendono più semplice comprendere la struttura delle conversazioni.
Dunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.
L’apparente semplicità di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.
Intanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.
Ma c’è dell’altro. Come forse saprete Twitter impone dei limiti di accesso per l’utilizzo delle sue API pubbliche.
Purtroppo questi limiti non sono affatto chiari.
Si sa che le Twitter REST API sono soggette ai seguenti limiti:
– 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);
– 350 richieste autenticate all’ora (basate sull’identificativo dell’utente che fa la richiesta).
Si sa inoltre che ogni richiesta può restituire un massimo di 1500 tweet.
La documentazione che riguarda le Twitter Search API specifica che la ricerca non dà accesso all’indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet più vecchi di una settimana.
Inoltre aggiunge:

The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.
As requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.
To prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error. {"error":"You have been rate limited. Enhance your calm."}.

Dunque i Tweet reperiti attraverso questa API non garantiscono la completezza (la documentazione parla invece di focus sulla rilevanza) e alcuni Tweet potrebbero mancare all’appello per raggiunti limiti di richieste, perché l’utente che ha generato il tweet ha un basso ranking o, infine, semplicemente perché, a causa della limitatezza delle risorse, non tutti i Tweet possono essere indicizzati in Twitter Search (si veda qui).
Se si desidera la completezza (un requisito di solito indispensabile per chi fa ricerca), dice sempre la documentazione di Twitter, conviene usare le Streaming API.
Le Straming API restituiscono i Tweet in tempo reale. Questo significa che non è possibile tornare indietro nel tempo.
Ma anche le Streaming API hanno dei limiti.

Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.

In compenso

The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.

L’uso delle Streaming API richiede l’autenticazione.
Di seguito, nel paragrafo su accesso e limiti di utilizzo, si dice che tutti gli utenti di Twitter sono abilitati a usare due metodi chiamati statuses/sample e statuses/filter e che per tutti gli altri metodi bisogna contattare Twitter.
Ora cosa sono questi statuses/sample e statuses/filter?
Il primo restituisce un campione di Tweet basato sull’universo costituito dal flusso di tutti gli status pubblici (il cui flusso è chiamato da Twitter Firehose).
Le proporzioni di questo campione possono cambiare senza preavviso ma al momento sono le seguenti:
– Circa l’1% degli status pubblici per il flusso che Twitter chiama Spritzer (disponibile a tutti);
– Circa il 10% per il flusso denominato Gardenhose (disponibile su richiesta).
Il metodo statuses/filter è quello che dovrebbe maggiormente interessare un ricercatore. Consente in pratica di filtrare il flusso per specifiche parole chiave (ad esempio un certo hashtag), per posizione geografica, che contengono il nome di un utente (@nomeutente) come un replay o un retweet o una semplice menzione.
Il livello di accesso di default consente l’accesso ad un massimo di 400 parole chiave, di 5000 nomi utente e 25 luoghi geografici (non è chiaro se si tratta di limiti legati alla storia del singolo utente o contemporanei).
In aggiunta a questi limiti la documentazione di Twitter contiene un paragrafo intitolato Filter Limiting nel quale si specifica che le ricerche per parole (track) chiave e quelle per luogo sono soggette ad un limite di utilizzo e aggiunge…

Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.

Non è dato sapere cosa costituisca una ricerca ragionevolmente focalizzata. Rimane dunque la sensazione di una certa confusione. Nell’articolo Six Provocations for Big Data le autrici affermano che

Twitter Inc. makes a fraction of its material available to the public through its APIs. The ‘firehose’ theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or ‘protected.’ Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a ‘gardenhose’ (roughly 10% of public tweets), a ‘spritzer’ (roughly 1% of public tweets), or have used ‘white-listed’ accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.

Di recente DiscoverText ha siglato un accordo con Gnip per offrire ai ricercatori che usano questa piattaforma l’accesso alla Firehose di Twitter. Al momento il servizio è in beta limitata ad un ristretto numero di utenti.
Da ieri ho accesso a questo servizio e lo avrò per i prossimi 4 giorni. Ho già iniziato a raccogliere dati per i principali trending topic italiani. In questi giorni cercherò di capire meglio i vantaggi e gli eventuali limiti di questa soluzione e ne parlerò in un prossimo post.Facendo seguito al diffondersi dei social media presso la popolazione del nostro Paese, si va progressivamente affermando, anche presso la comunità accademica italiana, l’idea che questi spazi possano essere considerati un luogo di osservazione per le dinamiche sociali interne ed esterne alla rete.
Come all’estero anche in Italia, i ricercatori, come i media, dedicano a Twitter un’attenzione talvolta non giustificata dai dati sulla diffusione della piattaforma stessa.
Sul blog ufficiale di Twitter si legge che la piattaforma ha recentemente tagliato il traguardo dei 100 milioni di account attivi nel mondo, che la metà di questi accede quotidianamente e che il 40% di essi legge i Tweet creati da altri utenti senza produrne di propri. Dopo questo annuncio, Vincenzo Cosenza ha messo a confronto questi dati con quelli rilasciati da Facebook.
Twitter non rilascia dati ufficiali sul numero di utenti registrati o attivi in ogni nazione, ma fonti attendibili stimavano circa 1,3 milioni di utenti italiani registrati di cui circa 350.000 attivi (che avevano cioè fatto login durante i precedenti trenta giorni attraverso Twitter o le sue API) a ottobre 2010. Per darvi un termine di paragone, nello stesso periodo Facebook aveva oltre 16 milioni di utenti italiani registrati e Linkedin 1,1.
Capire la situazione a oggi non è affatto semplice.
Stimare il traffico verso il sito non è infatti, in questo caso, un buon indicatore perché una significativa fetta di utenti accede a Twitter usando client che consentono di fruire della piattaforma senza passare dal sito twitter.com. Le statistiche di ricerca di Google evidenziano un interesse crescente, in Italia, per questa piattaforma con un volume che, tuttavia, non si discosta molto da quello di siti come Badoo, Netlog o Flickr. Provate voi stessi ad aggiungere la parola chiave Facebook per farvi un’idea dei rapporti fra i volumi di ricerca (che rappresentano un indicatore dell’interesse degli utenti verso una certa piattaforma).
Chiarite le proporzioni ci sarebbe da attendersi una analoga sproporzione nell’interesse dei ricercatori italiani.
Di fatto così non è. Anche se non ho dati specifici a riguardo ho la sensazione che gli studi basati sull’analisi dei contenuti generati dagli utenti su Facebook e su Twitter si equivalgano o propendano piuttosto per quest’ultima piattaforma. Basta scorrere il resoconto del recente convegno dell’associazione internazionale dei ricercatori che studiano internet, per capire che non si tratta di un fenomeno italiano e che l’interesse della comunità accademica è centrato, a dispetto dei dati sull’utilizzo, più su Twitter che su Facebook. Questa tendenza è particolarmente curiosa in Paesi come il nostro dove i dati sulla diffusione delle piattaforme restituiscono una mappa che indica piuttosto chiaramente dove si trova la maggior parte di utenti e dunque le dinamiche sociali che riguardano settori significativi della popolazione.
Credo ci siano diversi motivi che contribuiscono in vario modo a rendere Twitter una piattaforma attraente dal punto di vista dei ricercatori:
1. Il sistema di privacy e le pratiche d’uso di Facebook rendono inaccessibile gran parte dei contenuti. Su Twitter la maggior parte dei contenuti sono pubblici ed accessibili tramite semplici (o apparentemente semplici) ricerche;
2. L’interesse dei media verso Twitter rende notiziabili le ricerche che riguardano questa piattaforma;
3. La natura orientata all’informazione (la domanda di Twitter è “Cosa sta succedendo” e non “A cosa stai pensando”) lo rendono particolarmente indicato per studi orientati a comprendere i percorsi di diffusione delle notizie;
4. L’emergere di pratiche come l’uso degli hashtag, il retweet, il replay e trending topics (ormai parte delle funzionalità interne della piattaforma) rendono più semplice comprendere la struttura delle conversazioni.
Dunque ci sono diversi buoni motivi per usare Twitter come luogo di osservazione.
L’apparente semplicità di accesso cela tuttavia dei rischi di cui il ricercatore dovrebbe essere, quanto meno, al correte.
Intanto i Tweet reperibili sono, ovviamente, solo quelli pubblici. Per la maggior parte dei progetti non si tratta di un grosso problema che va semplicemente rendicontato specificando, quando ci si riferisce al corpus di dati, di Tweet pubblici.
Ma c’è dell’altro. Come forse saprete Twitter impone dei limiti di accesso per l’utilizzo delle sue API pubbliche.
Purtroppo questi limiti non sono affatto chiari.
Si sa che le Twitter REST API sono soggette ai seguenti limiti:
– 150 richieste non autenticate ogni ora (basate sul numero ip dal quale proviene la richiesta);
– 350 richieste autenticate all’ora (basate sull’identificativo dell’utente che fa la richiesta).
Si sa inoltre che ogni richiesta può restituire un massimo di 1500 tweet.
La documentazione che riguarda le Twitter Search API specifica che la ricerca non dà accesso all’indice completo di tutti i Tweet ma solo di quelli recenti (fino a 6-9 giorni prima) e che non si possono usare le Search API per trovare Tweet più vecchi di una settimana.
Inoltre aggiunge:

The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.
As requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.
To prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error. {"error":"You have been rate limited. Enhance your calm."}.

Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.

In compenso

The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.

Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.

Twitter Inc. makes a fraction of its material available to the public through its APIs. The ‘firehose’ theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or ‘protected.’ Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a ‘gardenhose’ (roughly 10% of public tweets), a ‘spritzer’ (roughly 1% of public tweets), or have used ‘white-listed’ accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.

The Rate Limits for the Search API are not the same as for the REST API. When using the Search API you are not restricted by a certain number of API requests per hour, but instead by the complexity and frequency.
As requests to the Search API are anonymous, the rate limit is measured against the requesting client IP.
To prevent abuse the rate limit for Search is not published. If you are rate limited, the Search API will respond with an HTTP 420 Error. {"error":"You have been rate limited. Enhance your calm."}.

Both the Streaming API and the Search API filter, and on some end-points, discard, statuses created by a small proportion of accounts based upon status quality metrics.

In compenso

The Streaming API results are a superset of the Search API result. The Search API filters and ranks statuses for relevance. On certain queries, the Search relevance filtering can be quite selective. The Streaming API does not perform any relevance filtering or ranking. All statuses that pass the Result Quality filter are available on Streaming API.

Reasonably focused track and location predicates will return all occurrences in the full Firehose stream of public statuses. Overly broad predicates will cause the output to be periodically limited. After the limitation period expires, all matching statuses will once again be delivered, along with a limit message that enumerates the total number of statuses that have been eliminated from the stream since the start of the connection. Limit messages are described in Parsing Responses.

Twitter Inc. makes a fraction of its material available to the public through its APIs. The ‘firehose’ theoretically contains all public tweets ever posted and explicitly excludes any tweet that a user chose to make private or ‘protected.’ Yet, some publicly accessible tweets are also missing from the firehose. Although a handful of companies and startups have access to the firehose, very few researchers have this level of access. Most either have access to a ‘gardenhose’ (roughly 10% of public tweets), a ‘spritzer’ (roughly 1% of public tweets), or have used ‘white-listed’ accounts where they could use the APIs to get access to different subsets of content from the public stream. It is not clear what tweets are included in these different data streams or sampling them represents. It could be that the API pulls a random sample of tweets or that it pulls the first few thousand tweets per hour or that it only pulls tweets from a particular segment of the network graph. Given uncertainty, it is difficult for researchers to make claims about the quality of the data that they are analyzing. Is the data representative of all tweets? No, because it excludes tweets from protected accounts.Is the data representative of all public tweets? Perhaps, but not necessarily.

I marziani scoprono la parte abitata della rete

Una risposta all’articolo scritto da Massimo Mantellini per la rubrica Contrappunti di Punto Informatico.Una risposta all’articolo scritto da Massimo Mantellini per la rubrica Contrappunti di Punto Informatico.Una risposta all’articolo scritto da Massimo Mantellini per la rubrica Contrappunti di Punto Informatico.

Ho letto attentamente l’anteprima del pezzo di Massimo Mantellini che sarà pubblicato domani su Punto Informatico e devo dire che la sua analisi non mi convince.
Premetto che le batterie di domande della ricerca LaRiCA su Internet, blog e siti di social network sono tutte traduzioni fedeli delle domande poste da Pew / Internet negli Stati Uniti. Essendo Pew lo standard di riferimento nel settore, abbiamo deciso di porre domande identiche allo scopo di avere un dato confrontabile. Identica è inoltre la metodologia di reperimento dati attraverso interviste telefoniche.
Detto questo vengo ai miei dubbi citando un piccolo estratto del post:

“a cosa mi serve, se mi riferisco alla parte abitata della rete, sapere quanti marziani l’hanno visitata almeno una volta?”

Secondo me serve a farci un’idea delle dimensioni dell’attenzione e della conoscenza verso il fenomeno “parte abitata della rete”. Se i marziani vengono a visitarci vuol dire che sanno come e dove trovarci e nutrono un qualche interesse per noi. Sapere quanti sono questi marziani è, per me, di un qualche interesse.
Sono d’accordo che sarebbe interessante sapere “quanti cittadini usano la rete per informarsi ed esprimere giudizi sullo stato delle cose, per confrontarsi su tematiche politiche o culturali, per discutere e raccogliere informazioni su prodotti e servizi in una modalità differente da quelle fino a ieri disponibili” ma, semplicemente, non era questo lo scopo della nostra ricerca. La ricerca che abbiamo svolto ha un valore puramente esplorativo ed ogni approfondimento che riguarda lo specifico dei comportamenti dei blogger richiederebbe una diversa strategia di campionamento focalizzata su queste figure.
Anche in vista di un obiettivo come questo avere una stima della numerosità di questi soggetti è essenziale per definire le dimensioni di un eventuale campione.
Ho grosse perplessità, invece, sul ragionamento del 3 milioni * 1 su 10 = 30.000.000.

“Mentre le società di ricerca stimano sul 50% circa il numero dei blog o dei social network aggiornati con una qualche frequenza, chiunque abbia potuto dare una occhiata ai numeri dei grandi fornitori di servizi di social network sa che il rapporto fra blog aperti e blog attivi è molto differente: meno di un blog ogni 10 aperti è solitamente attivo. Se davvero in Italia il numero di creatori di contenuti supera i 3 milioni allora sarebbe necessario immaginare che siano stati attivati nel nostro paese oltre 30 milioni di blog o pagine su Facebook o MySpace o Flickr.”

Non conosco i dati dei grandi fornitori di piattaforme. Conosco invece, grazie a Pew/Internet, le risposte che gli autori di blog americani hanno dato alla stessa domanda.
Ho riassunto i risultati della comparazione in questo grafico (clicca per ingrandire):

Come si può facilmente notare non esistono grandi differenze. Questo mi porta a pensare che la domanda filtro (“Tiene un blog o un diario online”) tenda ad escludere buona parte di quei 9 blog abbandonati su 10. Solo i fornitori di piattaforme possono dirci quanti blog aperti in totale ci sono in Italia ma una cosa è certa: se quello che ci interessa è la parte abitata della rete non è fra i blog abbandonati che la troveremo.
Pur essendo molto scettico e sempre sospettoso rispetto ai dati statistici, non posso non notare che se tre ricerche diverse hanno fornito dati del tutto simili, un fondo di verità ci deve essere.
Per me quel fondo di verità è riassumibile nella considerazione che esiste un significativo numero di italiani (molto più vasto di quello che si poteva immaginare), soprattutto fra i giovani, che leggono o tengono un blog ed hanno un profilo su un sito di social network.
Questo implica che la stragrande maggioranza dei blogger (cioè delle persone che tengono un blog) rappresentano un universo largamente inesplorato che non può essere in alcun modo ricondotto al gruppo dei blogger più noti (che possiamo far coincidere a spanne con quelli iscritti a Blogbabel e sono dunque qualche migliaio). Non solo. Quando si pensa a cosa sia un blog e alle motivazioni che spingono ad aprirne uno bisognerebbe guardare a chi “spulcia il livespace pieno di farfalline della compagna di classe” (per citare un commento del post di Mantellini) e non solo al piccolo sotto insieme che è più visibile ma numericamente molto meno rappresentativo. Sono sicuro che scopriremmo universi completamente diversi ed in qualche modo incommensurabili.
Fatto sta che questa massa di persone (prevalentemente giovani, che hanno come pubblico di riferimento il loro gruppo di amici e se ricevono troppa attenzione su un post la considerano quasi un’intrusione nella loro privacy più che un evento da festeggiare) esiste al di là della visibilità che possa avere o desiderare.
Questo significa che anche quando ragioniamo sull’impatto della parte abitata della rete in Italia dovremmo guardare con una certa attenzione (molto più di quanto sia stato fatto fino ad ora) a questa parte sommersa dell’iceberg.
Se non lo facciamo un giorno non molto lontano potremmo sveglairci e scoprire con sgomento che i marziani della parte abitata della rete siamo proprio noi adulti in cerca di visibilità e iscritti a Blogbabel 🙂

Technorati tags: mantellini, blog, italia, statistiche, ricerca, blogbabel

Ho letto attentamente l’anteprima del pezzo di Massimo Mantellini che sarà pubblicato domani su Punto Informatico e devo dire che la sua analisi non mi convince.

Premetto che le batterie di domande della ricerca LaRiCA su Internet, blog e siti di social network sono tutte traduzioni fedeli delle domande poste da Pew / Internet negli Stati Uniti. Essendo Pew lo standard di riferimento nel settore, abbiamo deciso di porre domande identiche allo scopo di avere un dato confrontabile. Identica è inoltre la metodologia di reperimento dati attraverso interviste telefoniche.

Detto questo vengo ai miei dubbi citando un piccolo estratto del post:

“a cosa mi serve, se mi riferisco alla parte abitata della rete, sapere quanti marziani l’hanno visitata almeno una volta?”

Sono d’accordo che sarebbe interessante sapere “quanti cittadini usano la rete per informarsi ed esprimere giudizi sullo stato delle cose, per confrontarsi su tematiche politiche o culturali, per discutere e raccogliere informazioni su prodotti e servizi in una modalità differente da quelle fino a ieri disponibili” ma, semplicemente, non era questo lo scopo della nostra ricerca. La ricerca che abbiamo svolto ha un valore puramente esplorativo ed ogni approfondimento che riguarda lo specifico dei comportamenti dei blogger richiederebbe una diversa strategia di campionamento focalizzata su queste figure.

Anche in vista di un obiettivo come questo avere una stima della numerosità di questi soggetti è essenziale per definire le dimensioni di un eventuale campione.

Ho grosse perplessità, invece, sul ragionamento del 3 milioni * 1 su 10 = 30.000.000.

“Mentre le società di ricerca stimano sul 50% circa il numero dei blog o dei social network aggiornati con una qualche frequenza, chiunque abbia potuto dare una occhiata ai numeri dei grandi fornitori di servizi di social network sa che il rapporto fra blog aperti e blog attivi è molto differente: meno di un blog ogni 10 aperti è solitamente attivo. Se davvero in Italia il numero di creatori di contenuti supera i 3 milioni allora sarebbe necessario immaginare che siano stati attivati nel nostro paese oltre 30 milioni di blog o pagine su Facebook o MySpace o Flickr.”

Non conosco i dati dei grandi fornitori di piattaforme. Conosco invece, grazie a Pew/Internet, le risposte che gli autori di blog americani hanno dato alla stessa domanda.

Ho riassunto i risultati della comparazione in questo grafico (clicca per ingrandire):

Come si può facilmente notare non esistono grandi differenze. Questo mi porta a pensare che la domanda filtro (“Tiene un blog o un diario online”) tenda ad escludere buona parte di quei 9 blog abbandonati su 10. Solo i fornitori di piattaforme possono dirci quanti blog aperti in totale ci sono in Italia ma una cosa è certa: se quello che ci interessa è la parte abitata della rete non è fra i blog abbandonati che la troveremo.

Pur essendo molto scettico e sempre sospettoso rispetto ai dati statistici, non posso non notare che se tre ricerche diverse hanno fornito dati del tutto simili, un fondo di verità ci deve essere.

Per me quel fondo di verità è riassumibile nella considerazione che esiste un significativo numero di italiani (molto più vasto di quello che si poteva immaginare), soprattutto fra i giovani, che leggono o tengono un blog ed hanno un profilo su un sito di social network.

Questo implica che la stragrande maggioranza dei blogger (cioè delle persone che tengono un blog) rappresentano un universo largamente inesplorato che non può essere in alcun modo ricondotto al gruppo dei blogger più noti (che possiamo far coincidere a spanne con quelli iscritti a Blogbabel e sono dunque qualche migliaio). Non solo. Quando si pensa a cosa sia un blog e alle motivazioni che spingono ad aprirne uno bisognerebbe guardare a chi “spulcia il livespace pieno di farfalline della compagna di classe” (per citare un commento del post di Mantellini) e non solo al piccolo sotto insieme che è più visibile ma numericamente molto meno rappresentativo. Sono sicuro che scopriremmo universi completamente diversi ed in qualche modo incommensurabili.

Fatto sta che questa massa di persone (prevalentemente giovani, che hanno come pubblico di riferimento il loro gruppo di amici e se ricevono troppa attenzione su un post la considerano quasi un’intrusione nella loro privacy più che un evento da festeggiare) esiste al di là della visibilità che possa avere o desiderare.

Questo significa che anche quando ragioniamo sull’impatto della parte abitata della rete in Italia dovremmo guardare con una certa attenzione (molto più di quanto sia stato fatto fino ad ora) a questa parte sommersa dell’iceberg.

Se non lo facciamo un giorno non molto lontano potremmo sveglairci e scoprire con sgomento che i marziani della parte abitata della rete siamo proprio noi adulti in cerca di visibilità e iscritti a Blogbabel 🙂

Technorati tags: mantellini, blog, italia, statistiche, ricerca, blogbabel

Ho letto attentamente l’anteprima del pezzo di Massimo Mantellini che sarà pubblicato domani su Punto Informatico e devo dire che la sua analisi non mi convince.

Detto questo vengo ai miei dubbi citando un piccolo estratto del post:

“a cosa mi serve, se mi riferisco alla parte abitata della rete, sapere quanti marziani l’hanno visitata almeno una volta?”

Anche in vista di un obiettivo come questo avere una stima della numerosità di questi soggetti è essenziale per definire le dimensioni di un eventuale campione.

Ho grosse perplessità, invece, sul ragionamento del 3 milioni * 1 su 10 = 30.000.000.

“Mentre le società di ricerca stimano sul 50% circa il numero dei blog o dei social network aggiornati con una qualche frequenza, chiunque abbia potuto dare una occhiata ai numeri dei grandi fornitori di servizi di social network sa che il rapporto fra blog aperti e blog attivi è molto differente: meno di un blog ogni 10 aperti è solitamente attivo. Se davvero in Italia il numero di creatori di contenuti supera i 3 milioni allora sarebbe necessario immaginare che siano stati attivati nel nostro paese oltre 30 milioni di blog o pagine su Facebook o MySpace o Flickr.”

Non conosco i dati dei grandi fornitori di piattaforme. Conosco invece, grazie a Pew/Internet, le risposte che gli autori di blog americani hanno dato alla stessa domanda.

Ho riassunto i risultati della comparazione in questo grafico (clicca per ingrandire):

Pur essendo molto scettico e sempre sospettoso rispetto ai dati statistici, non posso non notare che se tre ricerche diverse hanno fornito dati del tutto simili, un fondo di verità ci deve essere.

Technorati tags: mantellini, blog, italia, statistiche, ricerca, blogbabel

Panel SNSs in National Context accepted!

Qualche tempo fa su iniziativa di Ewa Callahan e grazie alla fantastica e consigliatissima Air-L, un gruppo di ricercatori che studiano i social networks in diverse parti del mondo si è organizzato per presentare una proposta di panel per il convegno Internet Research 9.0: Rethinking Community, Rethinking Place.
Ora che la proposta è stata accettata ed il processo di review anonimo completato, ne posso parlare nel blog.
Il panel sarà composto da 5 paper che presentareanno ricerche sull’uso dei siti di social network rispettivamente nel contesto nazionale italiano, brasiliano, polacco, americano e coreano.
Darren Purcell (University of Oklahoma US) aprirà il panel con un paper che si discosta leggermente da questa prospettiva nazionale o meglio la declina in modo originale presentando uno studio che indaga l’impatto di Internet sulla creazione di identità nazionali di popoli privi di uno stato. Il caso di studi è su Facebook e consiste, in particolare, di un’analisi comparativa dei gruppi Baschi, Curdi, Palestinesi ed Hawaiani creati su questa piattaforma di social network.
Io presenterò la ricerca comparativa fra Facebook e Badoo di cui ho più volte parlato in questo blog. Potete leggere l’abstract qui.
A seguire Ewa Callahan presenterà uno studio su Nasza-Klasa (la nostra classe). Si tratta di un SNS polacco focalizzato sul ricostruire le reti sociali scolastiche. Il sito ha avuto un successo straordinario raccogliendo oltre 7 milioni di utenti ad un anno dal lancio e l’utilizzo che ne viene fatto trascende di molto lo scopo iniziale per il quale era stato progettato. Il paper presenterà i risultati di una ricerca realizzata in due fasi. Nella prima è stata realizzata una survey sugli utenti per comprendere meglio le motivazioni che spingono ad usare questo SN, nella seconda una content analysis di quanto si dice di Nasza-Klasa fuori dai suoi confini allo scopo di comprendere anche i motivi alla base dell’auto-esclusione.
Dalla Polonia si passa poi al Brasile con il paper di Raquel Recuero (PhD and a professor in the Communication Department at Catholic University of Pelotas UCPel, Brazil) che analizza Orkut (il social network di Google). Il 75% degli utenti di Orkut nel 2005 erano Brasiliani e secondo comScore, oltre 12 milioni di Brasiliani (oltre il 68% degli utenti Internet di quel Paese), hanno visitato il sito di Orkut nel dicembre 2007. La ricerca che presenta Raquel è di tipo etnografico (osservazione partecipante ed intervite) con un periodo di osservazione che va dal 2004 al 2007. Grazie a questo ampio periodo di tempo la ricerca indaga come è cambiato nel corso di questi anni l’uso di Orkut in Brasile e le differenze fra gli erarly e late adopoters.
Si preannuncia molto interessante anche l’intervento di Seong Eun Cho (Ph.D. candidate in School of Communication, Information, and Library Studies at Rutgers University in the United States) che presenta uno studio cross-culturale comparativo fra l’utenza di SNSs Coreana e Americana. In tutto sono state realizzate 30 interviste in profondità a studenti universitari coreani (18 utenti di Cyworld) ed americani (12 utenti di Facebook o MySpace). Differenze significative emergono sopratutto in relazione all’intensità d’uso di questi sistemi e sul concetto stesso di friends. In particolare gli americani tendono a mantenere attive con un basso livello di interazione un numero maggiore di contatti (pur senza accettare richeiste da sconosciuti) (bridging social capital) mentre gli utenti coreani prediligono gruppi più piccoli con un livello alto di intensità (bonding social capital).
L’ultimo paper del panel riguarda specificamente la Corea e YouTube. Gli autori Yeon-ok Lee, (PhD candidate in the Department of Politics and International Relations at Royal Holloway, University of London, UK) e Han Woo Park (Assistant Professor at YeungNam University, South Korea) hanno analizzato l’uso di YouTube durante le elezioni presidenziali del 2007 in Corea. In sintesi si tratta del così detto ‘BBK scandal’ nel quale uno il candidato favorito Lee è stato coinvolto. Poichè la regolamentazione della campagna proibiva di pubblicare video fino a 180 giorni prima del voto, i supporter degli altri candidati hanno iniziato muoversi fuori dai confini nazionali per aggirare l’ostacolo finendo per usare in massa YouTube. Molto interessante la metodologia utilizzata: (i) hyperlink analysis, (ii) interaction network analysis and (iii) semantic network analysis. In sono curioso di vedere i risultati di quella che viene definita semantic networks analysis basata su metodologia KWIC (keywords in context) ed applicata ai commenti dei video.
In sintesi non vedo l’ora che venga ottobre!

Technorati tags: aoir, air, copenhagen, SNSs

How to search, store, export and analyze user generated content for social science

Ieri mattina a Trento con Giovanni e Luca abbiamo presentato alcuni risultati preliminari della ricerca media e generazioni.
In particolare il compito affidato in questa prima fase del progetto alla nostra unità era quello di analizzare le conversazioni online attivate a partire da un set di prodotti generazionali. Lo specifico focus era sulle generazioni X ed Y (i nati dai primi anni ’70 in poi).
I risultati sono stati interessanti e credo che alcuni estratti verranno pubblicati sul sito del progetto insieme ai progressi delle altre linea di ricerca desk sulle generazioni in letteratura e nello specifico del romanzo rosa.
Questo post è invece dedicato a raccontare più nel dettaglio di quanto abbiamo potuto fare ieri la metodologia usata dal punto di vista tecnico (vista anche la curiosità ed interesse suscitata nei colleghi presenti).
L’idea di analizzare le conversazioni online non è nuova per chi legge questo blog.
Per un inquadramento teorico complessivo della questione rimando ad un articolo che ho scritto qualche tempo fa mentre due esempi di progetti pilota realizzati con lo scopo di mettere alla prova l’approccio sono Eyes on Europe (paper, post) e Eyes on you: Pregnancy 2.0 (webcast, draft paper, post).
I progetti pilota ci hanno insegnato che (1) la metodologia aveva delle potenzialità e che (2) la quantità di dati disponibili impediva un qualsiasi ragionevole approccio non supportato dal computer al reperimento e all’analisi collaborativa di questi dati.
Abbiamo dunque deciso di impegnare risorse e tempo nello sviluppo di un’applicazione general purpose che supportasse il ricercatore nel reperimento guidato e nell’analisi collaborativa di questi dati.
Grazie alle competenze tecniche di Romeo e Alfredo questa applicazione è oggi una realtà.
Tecnicamente si tratta di una web application in grado di reperire, consumare, conservare, condividere ed esportare flussi informativi nel formato standard RSS verso le principali applicazioni esistenti per l’analisi del contenuto (al momento abbiamo testato il supporto di Nvivo 7 ma è ragionevole pensare che la stessa cosa possa funzionare con Atlas.ti).
All’atto dell’esportazione dei contenuti di un progetto (post di blog o forum di discussione che supportino rss, foto o video pubblicati sul web) la web application reperisce e restituisce le informazioni biografiche sull’autore del contenuto se disponibili su una delle numerose piattaforma di blog e condivisioni di contenuti audio/video supportate (usando tecniche di scraping ad hoc per ogni piattaforma).
Grazie a questa applicazione abbiamo potuto reperire a partire da un set di oltre 40 prodotti generazionali (film, serie tv, libri, videogiochi, musica, fumetti) e con query costruite ad hoc su ogni prodotto 3000 post.
Di questi 3000 post 928 erano corredati dall’età dell’autore (dato essenziale per la ricerca sulle generazioni), oltre 1000 dal genere e molto spesso (non abbiamo calcolato questo dato esattamente perché privo di interesse nello specifico della ricerca) da una qualche forma (città o nazione) di indicazioni geografica di provenienza.
Questi dati strutturali insieme alla rilevanza degli stessi nei termini della ricerca dei contenuti reperiti rappresentano per la nostra unità di ricerca e per me in particolare una straordinaria conferma delle potenzialità dell’applicazione e della metodologia di ricerca (che solleva anche questioni estremamente interessanti di ordine metodologico ed etico).
Mi sarebbe piaciuto poter annunciare in questo post la disponibilità dell’applicazione per chiunque ne voglia fare uso ma ciò non è purtroppo possibile.
Non lo è per due ordini di ragioni.
1) La prima è che per il momento tutta l’attenzione nello sviluppo si è concentrata sulle funzionalità con conseguenze immaginabili sull’usabilità (oltre che sugli aspetti puramente estetici) dell’applicazione (che fra l’altro non ha neanche un nome definitivo);
2) La seconda è di performance. L’applicazione è infatti ospitata su una macchina virtuale che è ospitata dal server che ospita al tempo stesso la macchina virtuale di questo blog (lo sapevate già che la ricerca in Italia ha pochi fondi, no?). La fase di esportazione dei contenuti di un progetto è estremamente pesante in termini di carico di lavoro sulla macchina. La conseguenza è che se più di 3/4 utenti cercando di esportare contemporaneamente un progetto tendono a saturare le capacità di calcolo della macchina virtuale con le conseguenze che si possono immaginare.
Ovviamente stiamo lavorando per risolvere queste due questioni ma non siamo in grado di dire oggi quando ed anche se saremo in grado di poter rendere disponibile pubblicamente l’applicazione per i ricercatori che intendano farne uso.
Nel frattempo siamo però in grado di ospitare pilot isolati di ricercatori (in senso lato da laureandi, dottorandi, etc.) che ne facciano esplicitamente richiesta.
Se state progettando o realizzando una ricerca basata sull’analisi dei contenuti generati dagli utenti sul web potete contattarmi per concordare le modalità di accesso all’applicazione.
P.S. Anche le offerte di collaborazione sono ben accette. Dunque se l’idea dell’applicazione vi interessa ed avete risorse o competenze da mettere a disposizione per collaborare allo sviluppo del progetto siete i benvenuti.

Technorati tags: nvivo, atlas.ti, social semantics, content analysis, lab20

Nostalgie di un tempo mai vissuto

fantastico! io sn del 93 quindi sn nata verso la fase finale d questi magnifici cartoni, x 7/8 anni li ho visti ank’io…bellissimi…poi sn iniziati i digimon e i pokemon ke hanno rovinato tutto…la televisione di oggi è una tv violenta ma ke futuro ha la mia generazione? e le altre? rivoglio i cartoni di un tempo quelli si k erano cartoni! Querz89 (5 months ago)

prossima volta rinasco 10 anni prima, mi faccio l’infanzia negli anni 80 e mi imbottisco di cartoni, l’adolescenza negli anni 90, e l’età adulta nel 3° millennio… e speriamo bene sull’ultima fase !!! MicinaTheBlack (1 week ago)

Technorati tags: heidi, candy candy, anni 80, genY

M/F ratio in Facebook and Badoo user base

M/F ratio in Facebook and Badoo user base
Originally uploaded by FG@flickr.com

Stimolato dai commenti ricevuti nel post precedente ho deciso di approfondire la questione del rapporto fra maschi e femmine in Badoo e Facebook.
Non è difficile notare (sopratutto se avrete cliccato sull’immagine per ingrandirla) come il rapporto sia simile nelle diverse nazioni prese in esame. Allo stesso modo appare evidente e costante la differente composizione di genere dei due social networks presi in esame. Credo questo dipenda, come ha fatto notare Tommaso nei commenti, dalla effettiva diversità dei siti presi in considerazione.
A questo proposito è interessante considerare quanto recentemente scritto da Maz Hardey rispetto a quelli che lei ha definito stadi del social networking:

i) Stage one: Sociability or ‘being social’, where concern is to build up new points of contact and to maintain ‘old’ connections through interactions on SNSs.
ii) Stay two: Networkability or ‘being networked’, having built up networks of links these are then maintained through membership to an array of SNSs and across different social media hardware – so yes that wonderful piece of technology the iPhone!
iii) Stage three: Visibility or ‘being visible’, when networks of links are used to both cultivate and sustain interactions as well as to experience ‘being in touch’ with others. Social actions are confirmed by a ‘presence’ that is always contactable even if the user is ‘busy’ elsewhere.

La sensazione è che Badoo sia un social network incompleto da questo punto di vista perchè ha buone funzioni in relazione allo stadio 1 ma è molto carente nell’offrire l’esperienza di sentirsi in contatto cosa in cui invece eccelle Facebook.
Quindi rimane sempre in sospeso la questione di base.
Perchè gli italiani usano Badoo più di tutti?

Technorati tags: badoo, facebook, stats