Nota Técnica: Como Fazer Diagramas Sociométricas Uteis em Vez de Simplesmente Bonitas

Padrão

Estou passando bastante tempo ultimamente me sentindo inútil quando ao presente projeto.

Preciso aprender três coisas:

  1. Controlar a colheita de dados
  2. Aprender boas técnicas de pré-processamento desses dados
  3. Utilizar essas técnicas para produzir diagramas que realmente mostra alguma coisa útil

Parece que minha caixa de ferramentas por recolher e indexar a «ecologia digital» de um site na rede consiste agora em

  1. Harvestman
  2. SocNetV
  3. Swish++

Harvestman é o único «crawler» e «spider» — programa que visita um site, registra o enlaços naquele site, segue os enlaços, a repete o processo com os enlaços nos sites ligados — cuja configuração eu consigo entender e que roda na minha máquina sem muito problema.

SocNetV é uma ferramenta lega, com uma aranha embutida, mas sem muito controle sobre a colheita de dados.

O seguinte, por exemplo, mostra dados recolhidos da conta de Twitter da blogueiro de DESDECUBA.COM.

Bacana, né? Mostra os seguidos pela Yoani e outros detalhes. Só que com a capacidade limitada do programa, gasto muito tempo com o que parece ser uma nota sobre um nota em blogue qualquer. A aranha começa a detalhar a estrutura toda do blog.

É interessante por si. Dá para ver comentários excluidos pelo blogueiro e outros sinais de atividade. Mas o que eu queria era que o robô fique com Yoani, explore todos os seguidos e seguidores dela no Twitter, e me mostre sites relacionados.

Só isso. Li um tutorial no Archive-It.org que ajuda a construir uma busca dessas.

Então, uma busca útil, por exemplo, pudesse er

harvestman --fetchlevel=2 --depth=3 -u -*.gif-*.jpg-*.png-*.sw-f*.js-*.css www.imil.org/links

Noutras palavras, pega os enlaços naquela página e registra os enlaços descobertos lá entre tres graus de separação. Não quero saber de imagens, Flash, ou outros elementos técnicos do site.

Primeiro, uma visão ampla mas rasa da rede.

Editores de Diagramas

Até agora, eu virei um craque na leitura de dados arranjados na forma hierárquica apresentada por uma aranha, que reproduz estruturas de diretórios.

Este método produz a «roda de choro» de sempre, às vezes filtrado por minha ontologia — a classifícação funcional de elementos em uma organização em rede — no caso de propaganda digital, por exemplo, o plataforma social, a midia, as agências de propaganda e relações públicas, o samizdat utilizado para propagagar mensagens, os anunciantes, e a infraestrutura física (servidores, hospedagem).

Agora, estou interessado em programas do meu governo envolvendo «o desenvolvimento de mídias livres e independentes» — e ideologicamente indoutrinadas — «no estrangeiro», como sabem. Acima, portanto, uma exploração inicial — a «roda de choro» de IREX. ORG.

Por que IREX? Explico depois.

O que falta, entretanto, é poder editar essa informação, acrescentando entrecruzamentos para representar a rede na dimensão de entrelaços, que possibilita análises mais sofisticados.

Eu sei, por exemplo, que o Instituto Carnegie patrocina programas de formação de jornalistas em várias das instituições de ensino superior grupos sob a cabeçada EDU.

Também sei que MSI Inc., uma consultoria especializada na promoção de empreendedorismo, trabalha quase exclusivamente pela USAID. Registrando essa ligações dá uma nova dimensão à diagrama e possibilita novas inferências.

Umas Notas Sobre IREX

Acima, o modelo PROMEDIA, utilizada para infuenciar legislação e criar uma infraestrutura de ONGs, amigáveis ao Consenso de Washington na nova Republica Tcheca.

A ONG Irex tem um papel importante nesse modelo. Ela mantem um base de dados de políticas públicas internacionais em relação a mídia e mantêm um índice de sustentabilidade de empresas de mídia.

São recursos utilizados em apoio de argumentos pela convergência de padrôes nacionais aos padrôes internacionais desejados pelos multinacionais interessados no assunto.

E Agora?

E agora, tecnicamente falando, como diagramar e modificar os dados obtidos?

Há várias ferramentas que descrubri serem uteis, mas nenhuma que é ideal para tudo. A melhor de todos é yEd, embora sendo programado em Java, me dá uns problemas com grandes coleções de dados.

Acima, por exemplo, são dados recolhidos pela SocNetV e diagramados com yED sobre o site PAULOBORNHAUSEN.COM.BR.

O repórter Leandro Fortes disse que o herdeiro da tradição Bornhausen de doçura e espirito democrático fosse um homem-chave na elaboração da campanha digital do anticontinuismo desse ano eleitoral, pois eu fui atrás.

Muito prometedor, embora necessita algum estudo para poder usar, é o pacote igraph no ambiente de trabalhos estatísticos R. É capaz de produzir belezas como

O único problema é que o interface gráfico só lida com arquivos no formato nativo de PAJEK. Acontece que sou capaz de rodar o PAJEK em Linux por meio de WINE, o emulador de Windows. Talvez eu acharei um jeito de traduzir os arquivos que tenho para este formato.

Os arquivos .paj produzidos pelo Network Workbench não prestam.

Gephi, igualmente, apesar de estar na fase alpha, é capaz de produzir belezes:

O foco da colheita foi ABRAJI. Mostrados são algumas contas de Twitter associadas, algumas campanhas — Excelências, Informação Pública — nas quais a entidade participa, e outros domínios ao qual o site fornece enlaçoes.

O endereço númerico mostrado é da UNIVERSIDADE DO ESTADO DE SANTA CATARINA. Se eu decubrisse outros domínios hospedos naquele servidor, graças ao meu grande amigo ROBTEX.COM,  seria útil acrescentá-los ao mapa.

O problema é as ferramentas de edição. Eu gostaria poder buscar certos nós usando regexps é apresentar só as etiquetas deste nós. Não pode fazer isso tão facilmente.

A yEd é ótima para isso.

A desvantagem é que roda em Java, é por isso precisa-se de recursos de sistema demais.

Não tem outro jeito. Eu e a patroa estamos falando em ir pra Santa Ifigênia encomendar uma caixa mais poderosa do que esse laptop ultrapassado. Rodando Debian, naturalmente. Vou chamá–la de «La Poderosa».

GUESS é a outra opção, mas precisa-se aprender um monte de funções no CLI — linha de comando — que eu não consigo entender direto. Por exemplo, podia marcar nós de interesse com um certo cor e fazer transformações so em nós daquele cor. Talvez no futuro. Um exemplo simples, estilo «roda de choro»:

Pajek é a ferramenta mais sofisticada de todas, e vou precisar de tempo para aprender utilizá-la.

O Network Workbench é capaz de traduzir redes em formato GraphML no formation .NET de Pajek, enquanto igraph trabalha diretamente com GraphML.

Em fim: ando praticando com yED, pajek é igraph para ver o que posso fazer que seria realmente informativo.