Novas Visões de Martha: Heritrix e Navicrawler

Padrão

Quo vadis, gringo?

Ainda aguardando aquele projeto do cliente, estou testando novas ferramentas para minha caixa de Pandora sobre núcleos de ciberexistência nos quais pretendo aprofundar.

À mesma vez, aponto a Heritrix — ferramenta utilizada pelo projeto Archive.org — no sentido da ESPM, e consigo configurar a «aranha» para fazer o que eu quero que ela faça: descobrir novos enlaços na fronteira e ir atrás deles antes de aprofundar no site-alvo.

Ao lado da sessão de Heritrix, acima, uma nova descoberta realmente impressionante: a Navicrawler, do projeto francês Web Atlas, do mesmo programador que elaborou as primeiras versões de Gephi.

É um robô que roda como uma extensão de Firefox — no meu caso, Iceweasel — e explora os enlaços nas páginas abertas na janela do navegador.

Puxa vida! Um raio de esclarecimento energumeniza meu cérebro!

O que é mais, pode utilizar a Gephi — ferramenta de mapeamento de redes — para diagramar o mapa em progresso, ao vivo. O assim reza o manual. Só que tenho que buscar o código-fonte da Gephi e construí-la com a capacidade de receber dados dinámicos pelo interface. Acho que a versão 0.7alpha não tem este interface.

Agora, acontece que ainda de manhã — mais confiante que tenho controle sobre a estratégia de recolher dados do Harvestman — eu mandei o robô atrás duas internautas interessantes, o Di Franco e a Martha.

Martha Gabriel, intelecto digital da LocaWeb e professora na Faculdade Anhembi e a BSP — ambos da empresa Sylvan Laureate —  já conhecemos como uma admirável internauta nova.

Segundo o perfil dela,

Martha Carrer Cruz Gabriel é diretora de tecnologia da New Media Developers. Professora dos cursos de MBA e pós-graduação da BSP – Business School São Paulo, Universidade Anhembi Morumbi, UFPR Universidade Federal do Paraná, SENAC e Belas Artes de São Paulo. Palestrante internacional nas áreas de internet, arte e marketing, ministrando palestras nos Estados Unidos, Japão, Inglaterra, China, entre outros. Premiada três vezes como melhor palestrante em congressos nos Estados Unidos (2003, 2004 e 2008). SEO/SEM specialist, reviewer da LEA – Leonardo Electronic Almanac, MIT. Parceiria com a FSB Comunicações / FSB PR Digital.

Eu mando a bugiganga seguir os fios presentes dentro da teia de Martha.

Ainda aguardo os resultados, mas o bacana é poder exportar os dados nos formatos .gdf (GUESS), .net (Pajek) e .csv, para planilhas. Logo no começo, a ferramenta descobre uma lista de sites aos quais a Martha se refere que confirma os dados recolhidos pelo robô Harvestman.

De fato, o Harvestman não achou referências à grande Martha dos blogs da LocaWeb, onde ela parece ser um tipo de deusa de design e estrategia.

Ora, ainda não consegui fazer funcionar o Navicrawler, viu?

Vou tentar com Firefox 3.6 ortodoxo.

Ah, ái vai.

Mirabile dictu, a coisa exporta os dados no formato CSV, capazes de serem traduzidos em outros formatos e de serem usados  tal como estão no Gephi!

[

Pela primeira, entendo como a coisa funciona! É simples!

Pego o exemplo da agência S2 para comparar com dados anteriores.

]

Nuvens de usuários de Twitter são o central de telefonia.

Acima, alguns clientes e colegas.

Opa, de repente, estou me sentido menos ignorante.

Acho que eu sei proceder agora!

Na verdade, a Navicrawler me ensinou interpretar os dados recolhidos pelo Heritrix, que também baixa o conteudo para indexação e busca — o lado semântico do empreendimento.

Ordem e progresso!

Próximo objeto de estudo: o mundo estranho de Carlos Alberto Di Franco.

Este IICS — Instituto Internacional de Ciências Sociais —  relaciona-se com duas organizações quase exclusivamente: a empresa Adobe-Macromedia e a rede mundial de Opus Dei.

Todas as vias levam ao Vaticano e à Catalunha de George Orwell, aparece.

Resultados de Heritrix em seguida.