Do Caderno de Laboratório: Duas Maneiras de Analizar a Indústria de Clipping

Padrão

Não há outro jeito: para fazer o trabalho que eu gostaria fazer nessa série, preciso de um motor de indexação  industrial. Um HiLux no lugar das fuscas que tenho.

O que estou fazendo agora é recolhendo fragmentos com Harvestman e indexando com Swish++.

Eu leio a estrutura dos diretórios criada desse jeito com Network Workbench, salvo em formato legível, e tento achar pontos de entrecruzamento entre estes círculos com Pajek.

É muito trabalhoso.

Em paralelo, estou fazendo uma colheita de dados mais abrangente e menos pontual com Heritrix, sistema pela construção de motores de pesquisa do Archive.org, em preferência ao Nutch, bugiganga programada em Java e parte do projeto Apache que vem recomendada pelos pesquisadores profissionais.

O problema com isso é que no fim das contas, a indexação dos dados em formato ARC tem que ser feito por NutchWax, uma descendente de Nutch-Lucene, a documentação do qual está muito desatualizada e que em qualquer caso não consigo entender.

Um Fotomosáico do Jornal Brasileiro

entretanto, eu fico fazendo minhas explorações de fragmentos da rede.

Ontem, por exemplo, seguindo a estrutura do Instituto Millenium, eu estava recolhendo dados sobre as entidades de classe ditas patrocinadoras do Instituto: ANJ, ABERT, ANER, ABRANET, ABRALFABETA, ABRANALFA e tudo aquilo, além de instituições afiliadas com estas, como CONAR, o coitado do ACLAME, e o IICS — leia-se Opus Dei.

Noutras palavaras, a turna toda de Xõ, CONFECOM! e Xô, PNDH III!

Já leu o texto de Idelber Avelar no OI sobre o assunto?

Leia.

Até agora só consigo fazer o Harvestman recolher os enlaços externos dentro de um único grau de separação — meu blog refere-se ao blog da Mina, Nassif, e Leandro, por exemplo, além de blogs de Brooklyn com ypsilon.

Mais a Mina aponta Fulana, Sicrana, e Beltrana, enquanto Nassif chama de amigos o Vi o Mundo e Edu,, o Mello, o Argemiro, e o Escrivinhador, e assim vamos indo.

Para capturar isso, você tem que descer na hierarquia do diretório e fazer nova colheita para apanhar os enlaços da Mina, e de novo para cada laço dos sites referidos pela Mina, até fechar o círculo.

Ontem, então, eu estava fazendo isso com a Associação Nacional de Jornais.

Era suza vez. Estou tentando ser sistemático.

Está vendo?

O Harvestman deixou arquivos de «log» par cada descendente de primeiro grau do ANJ:

  1. CONAR
  2. ALB
  3. CNMP
  4. LIBERDADEDEEXPRESSAO.ORG.BR
  5. WAN-PRESS.ORG

A ideia é criar um índice tipo …

ANJ/CONAR/WAN-PRESS/IFRA/MICROSOFT
CONAR/ANJ/
CONAR/LIBERDADEDEEXPRESSAO
ANJ/LIBERDADEDEEXPRESSAO

… para convertir em formato CSV — substituindo a barra pela vírgula — e de lá para uma lista de ligações — «edge list» — ou matriz de adjacência.

O WebSphinx produz exatamente esta visão dos dados, mas para mim, é descontrolado e guloso demais, me desculpe. Tem quem gostam da ferramenta.

Um trecho que achei interessante ontem, por exemplo, foi «ANJ> Oficina de Clipping > … », que levou a um assunto inédito para mim: Como é o subsetor de «clipping» e monitoreamento de mídia no Brasil, serviços utilizados por empresas, agências e veículos de mídia para medir o mercado?

Eu tenho interesse pessoal no assunto. Leia

Este me levou à nova entidade de classes, ABEMO, que representa o setor.

Pode ser que Oficina de Clipping é contratado de ANJ e integrante de ABEMO, embora a estrutura por si só não permite conclusões sobre a «semântica» do laço institucional.

Por isso tem que ler páginas e falar com pessoas, aquele trabalho chato de jornalista e pesquisador.

Eu descubri, por exemplo, que a campanha TransformAmericas.org o Coronel do Blog — aquele covardanônimo que agrega os blogs do Millenium e TERNUMA– tinham muito enlaços em comum envolvendo campanhas de filantropia não-lusófonas.

Por meio de uma indexação e busca no conteúdo dos diretórios, fiquei entendendo que todas são campanhas apoiadas pelo Twitter e disponível na página About, do serviço, referida por cada página de resultados. Portanto, têm isso em comum simplesmente por ter Twitter em comum — eles e tu e eu e nossas vovozinhas e Vladimir Putin, que eu saiba.

Não era, portanto,  um fato muito importante em si, embora ambos também tem laços aos institutos de pesquisa neoconservadores — Atlas, Cato, Heritage e Endeavor — que patrocinam o Millenium.

Retomando A Conversa Fiada

Retomando o fio e procedendo assim, você acaba com os círculos fechados os pontos de entrecruzamento dos quais você pretende descobrir para reconstruir uma rede.

Acima, por exemplo, a estrutura interna do NDI, afiliada do NED, fundo go governo estadounidense pela exportação de Democracia Made in the USA.

O objetivo é tomar essa estruturas isoladas …

… e fazer aparecer as estruturas institucionais nas quais são embutidas.

Quem é o homem no meio, o corretor de informações ao resto da rede?

Tudo, hoje em dia, escondido dentro de uma nuvem de Twitter e tudo mais — onda e ondas de barulho que afogam o sinal, como diria meu primeiro texto de semântica, de John Lyons.

Dois Novos Candidatos: Seegnify e WIRE

Fazendo uma gambiarra para fazer isso passo a passo, com componentes diversos, é muito educativo, mas ineficiente, porém. Eu pretendo aprender a fazer coisas uteis.

Chegou a hora, então, de adotar uma solução industrial que eu, formado em poesia, consigo usar. Nutch eu vagamente entendo, mas fazé-lo rodar e produzir dados significtivos é outra coisa.

O Seegnify promete uma solução fácil: um «appliance» programada com componentes código-abertos e rodando dentro de uma «máquina virtual» de Oracle.

Demorou e demorou para baixar, a documentação foi mínima e de um inglês mambembe, e no fim, o único resultado foi repetidos «kernel panics» em vez da iMágica prometida.

Tudo não passava da maior bazófia.

A VM só parece rodar em Windows, e, pensando bem, se a coisa for feita para rodar em Debian, uai, eu estou rodando Debian Sid 2-6-32. Por quê não simplesmente acrescentar um pacote no repositório de Debian para todos nós de bom gosto?

De fato, foi só durante a desintalação que cruzei com o caveat de Oracle: Não há garantia que essas gambiarras funcionarão, e não é da nossa culpa se entrem em parafuso e fritam sua máquina real.

Pena que não tirei imagens do processo deste fracasso espetacular. O gráficos e design eram lindos lindos lindos.

Isso nos deixa com o feioso WIRE, que falta por inteiro qualquer interface gráfico.

./config
make
make install
cd doc
epiphany index.html

A documentação, escrito por um chileno com um inglês impeccável, falta qualquer enfeite como CSS, Flash, AJAX, ou REST. É palavras e mais palavras em HTML simples, provavelmente convertido de algum documento escrito com EMACS.

Não podia ser mais útil. Até agora, tenho seguido todos os passos, e tudo está dando certinho.

Quando encontrei um problema, foi antecipado pelo guia.

Houve um assunto que não entendi direto sobre uma reserva de «inodes» no disco.

Quando descubri que a coisa não daria certo no disco interno, simplesmente copiei a installação itiera para um disco externo.

sudo cp /var/wiredata /media/tomze/var

E pronto.

Primeiro, você testa os passos um por um.

  1. wire-bot-manager
  2. wire-bot-seeder
  3. wire-bot-gatherer
  4. wire-bot-harvester

Como sementes da sessão, utilizei o componentes daquela rede da ANJ com que eu estava brincando ontem.

A coisa teste os laços fornecidos, recolhe todos os laços internos e externos, e injetam os novo laços no banco de dados como sementes da próxima rodada.

Se não me engane, cada D na diagrama ASCII representa nova DNS, ou servidor, descoberto e marcado para exploração.

Tenho reservado espaço para uns 20 milhões de páginas de HTML e documentos capazes de serem lidos, como DOC e PDF. Sem baixar nada de inútil.

Agora é só rodar

wire-bot-run 20

e o robô repete os quatros passos básicos recursivamente, vinte vezes, em tése dobrando o tamanho da colheita cada vez, como naquela velha enigma: bota um grão de areia no primeira quadra de uma tabela de xadrez. Dobre o número de grãos em cada quadra seguinte  …

Está rodando várias horas agora sem me obrigar a minimizar o uso de outros programas por falta de memória ou a monopolização do processador.

Estou achando isso muito prometedor. Software bem documentado é software bem-pensado, eu sempre acho. Eu já escrevi esse tipo de coisa, e esse chileno, Chato, fez um ótimo trabalho.

Quanto ao análise de dados, vou ter que lembrar umas velhas lições sobre TEX e EMACS, mais tenho tempo.

Detalhes depois.