Ordem e Progresso: Avanços Técnicos na Grande Aranahação

Padrão

Pela primeira vez, eu tenho dados reais para analisar, colhidos durante minha Grande Aranhação do Estilo Neocon.

Para quem não acompanha esse exercício na ARS — análise de redes sociais — Magna, eu resolvi utilizar um robô — WIRE, de C. Castillo, et al. da Universidade de Chile — para fazer um censo de sites e blogs políticos com o fim de analisar a exportação de estratégias de comunicação social deste tipo para paises em desenvolvimento.

A frase «estilo neocon» é do jornalista Luis Nassif. Eu quis mostrar que, muito além de um estilo retórico, trata-se de um conjunto de estratégias e táticas de comunicação social que depende de uma estrutura institucional apoiado por filantropias corporativas e o governo.

Tém uma agência do governo, USAID, responsável por tal exportação, em parceria agora com o departamento de Estado e as forças armadas.

Começamos com a observação de que o Instituto Millenium, campeão de liberdade de expressão no Brasil, recebe apoio de vários institutos de pesquisa nos EUA associados com este tal de Estilo Neocon —  Atlas, Cato, Heritage, Endeavor, e outros da Rua K em Washington, D.C., o kilómetro zero da indústria de lobby.

Isso segundo a divulgação do próprio instituto e análises de rede que corroborava estas afiliações.

Construimos uma lista de «sementes» composta de sites aptos a levar a pontos de contato entre o estilo neocon e seus tradutores.

OrdemLivre.org, por exemplo, se diz parte da rede Atlas e também o sucursal oficial do Instituto Cato no Brasil. O responsável, Odemiro Fonseca, é conselheiro fiscal do Instituto Millenium.

Nessa terceira iteração do Projeto Trystero 47 — gosto de — inclui o CUT.ORG.BR para ver se tem o mesmo tipo de afialação entre entes sindicais, partidos e ONGs que já observamos entre entidades de classe, partidos e ONGs dentro do ámbito do «estilo neocon ».

Com isso, espero conseguir uma amostra mais equilibrada de discurso político em rede nesse ano eleitoral no Brasil. No entanto, não alcancei as interentidades partidárias do continuismo e sua candidata, o que chega a surprender.

Agora podemos pelo menos começar a aplicar técnicas de análise de redes utilizando o Pajek, software robusto e grátis que roda facilmente em WINE na minha máquina x86 com Debian 2.6.32-5-686.

Preparação de Dados: Um Jeitinho

Um problema que precisou ser superado antes, no entanto, foi a extração dos sites e laços, utilizando, por exemplo

wire-info-extract -s > sites.csv

para extrair a lista de sites, com seus atributos, do banco de dados.

Acontece que o seguinte comando não funcionava, porém:

wire-info-extract --sitelinks > sitelinks.csv

Este deveria pegar os laços entre sites e guardá-los no arquivo sitelinks.csv.

O WIRE produz duas diagramas, a de documentos — 7 milhões até agora — e a de sites, com uma amostra limitado a 400.000 — dos quais 100.000 são blogs do site TUMBLR.COM e portanto inúteis! Não sei por que.

O dados são extraidos da diagrama de documentos e agrupados por site.

Por exemplo, se WWW.IRI.ORG contém um documento 1201 com um laço a uma página 1415 de NED.ORG, seria contado como um laço entre documentos 1201 e 1415 e também contabilizado como um laço cumulativo entre os dois sites.

Mas por qualquer razão, algo a ver com o jeito do comando de aproveitar o STDOUT, não consegui fazé-lo. Em fim, descubri que eu podia escrever o arquivo dentro de EMACS, utilizando o eshell.

Executando o comando dentre de Emacs, os dados produzidos são guardados no «buffer», que pode ser salvo como um arquivo.

O produto é um matriz de laços com o número de laços de um site a outro entre parénteses. Este número tem que ser tirado antes de utilizar os dados, embora seria útil poder saber desse grau de conexão sem mexer com o enorme volume de dados na diagrama de documentos.

Abre-se o documento e apagam-se estes números utilizando um REGEXP — busca com expressão regular.

Agora é so botar o documento no formato Pajek e salvar com a terminação .net.

Agora, para poder associar os nomes dos nós com seus números na diagrama, tem que trabalhar um pouco com o arquivo sites.csv. Digite o comando

cvstool col 1,30 sites.csv > names.csv

para criar um arquivo com o número do site, na coluna 1, e seu nome, na coluna 30, assim como

1,hoover.org
2,bushcountry.org

E assim vai, 400 mil vezes

Abre o arquivo em qualquer editor de texto e substituia as vírgulas com espaços, acrescenta a cabeçada de um arquivo Pajek

*Vertices 381114
*Arclist

e salvo como names.net. Em Pajek, é só executar

Nets > Transform > Add > Vertex names from file

e selecionar names.net e pronto!

Começando a Trabalhar

É facil confirmar as estatísticas compilada pelo WIRE no Pajek. Tome um censo dos componente fortes — Nets > Componets > Strong — e verás que o SCC — maior componente completamente conectado — é de uns 11 mil sites.

Por «completamente conectado», quer dizer que tem um caminho de laços pelo qual podemos navegar de cada nó a qualquer outro.

Mexendo

Processando …