Nota Técnica Sobre o Problema Original

Padrão

Aponto a ferramenta Navicrawler ao Foro Global sobre Desenvolvimento de Mídia  — o Global Forum on Media Development.

Os resultados são quase satisfatórios.

Primeiro, porém, um desabafo.

Estou com uma baita de uma raiva da Net Virtua hoje. Após uma semana de panes e minipanes em nossa rede, cansei das explicações mambembes do central de atendimento. O serviço continua inexplicavelmente intermitente.

Se a marca de qualidade são os famosos seix noves — 99.999% de disponibilidade — a Net está conseguindo uns sete setes. Servićo de terceiro mundo ao preço do primeiro, como de costume.

Pelo menos, oferecem um desconto pelo tempo fora do ar. Realmente estão dando uma força para realizar a imagem projetada por seus anúncios na TV, de bom serviço e o técnico sorridente e prestativo naquela camisa bonitinha. O call center parece ser bem gerenciado.

Só que estou duvidando que o tempo descontado será do período inteiro de serviço inacessível e quase inacessível. O tempo meu que gastou vale para um mês inteiro de serviço.

Notas de Laboratório

Então, eu aproveito meu tempo nas Idades Médias para brincar mais com meus brinquedos, utilizando dados anteriormente baixados. Sobre a questão de extrair dados úteis pelo mapeamento de redes de Heritrix, Harvestman e Pavuk é melhor guardar para outro momento. Vamos ficar nos sucessos parciais e prometedores.

Naviaranhar é Preciso

Outro dia, como comecei a dizer, apontei o programa Navicrawler — uma extensão do navegador Firefox que funciona como uma «aranha» — ao coração das trevas, esse tal do GFMD.INFO.

Os resultados foram mistos. No fim das contas, utilizando Pajek e yEd, consequi produzir uma visão parcial do complexo que fornece o objeto principal desses estudos, apoiados em todas essas gambiarras técnicas.

Encurtando o relato: Eu simplesmente comecei com o site GFMD.INFO e deixou o Navicrawler seguir os laços recolhidos de cada nó na rede.

Acima, por exemplo, o Revista Leader está apontada pelo Instituto Millenium, e aponta para ela. Não é de estranhar: O Paulo Uebel, antigo presidente do IEE, e o presidente presente do Novo IPES.

A Revista Leader, por sua vez, aponta também para o Banco Itau, o Odebrecht, o Méndes Júnior, e os outros suspeitos de sempre pela procuradoria suiça, além de Apple Computer (NASDAQ:AAPL) e Adobe-Macromedia.

O poder de agrupar elementos do yEd, mostrado acima, é impressionante.

Pena que não roda tão bem assim na minha máquina quando alimentado com redes grandes, como 1.000 nós e 5.000 laços, digamos.

Agora, explico como cheguei ao resultado e quais as hipóteses maiores que ilustra.

Um exemplo preliminar: Como eu usei o Pajek — rodando muito bem no emulador de Windows para Linux, WINE,se bem que com poder de fogo reduzido quanto à diagramação (acima) — para isolar a rede de Twitter de uma comunidade lusófona de desenvolvimento de mídia internacional.

Integrantes da rede de Twitter do IJNET em português incluem

  1. ABERJE
  2. Globo
  3. Estadão
  4. Curso Abril de Jornalismo
  5. ABRAJI
  6. Centro Knight da Universidade de Texas

E mais ainda.

O entrecruzamento de integrantes desta rede e os peso-pesados da rede do Millenium é notável.

Com mais prática com a Pajek, espero fazer análises realmente úteis, para variar!

Depois eu vou mostrar como este, parcialmente automatizado, foi feito.

Colheita > Préprocessamento > Análise > Visualização

Agora, com a Navicrawler, a colheita de dados é uma maravilha. A aranha, como eu disse, procede de site em site, mostrando as referências recebidas por outras páginas assim como as referências externas.

Assim se produz uma planilha que representa intuitivamente os nós da rede, os alvos desses nós, e as etiquetas de ambos.

]

Na planilha, a funções de gestão de dados — filtros, por exemplo — podem ser utilizadas.

A armazenagem de dados ainda está com problemas, porém.

A ferramenta salva os dados em quatro formatos

  1. CVS, ou «valores separados por vírgula», um formato supostamente legivel por Gephi
  2. NET, parcialmente útil em Pajek
  3. GDF, um formato supostamente legível por GUESS, um componente do Network Workbench
  4. WXSF, um formato que eu conheço vagamente como relacionado ao gestão de fluxos de trabalho e BPO

Só que o Gephi, por exemplo, não reconhece este formato, assim como não consegue lidar com arquivos .DOT (GraphViz) e .NET (Pajek).

Parece só poder lidar diretamente com arquivos XML-GraphML produzidos pela SocNetV.

Acima, por exemplo, é um produto de escanear dados produzidos por Navicrawler com Gephi.

A rede começa com a consultoria de Carlos Alberto di Franco e passa pela Master em Jornalsimo rumo à Universdide de Navarra e de la às galaxias no universo da Universia.

Só que os dados passaram por um liquificador quando importados pelo Gephi.

A diagrama não representa realidade nenhuma. Esta, porém, de SocNetV, é boa.

Também passa pelo Instituto Internacional de Ciências Sociais, que mergulha imediatamente na rede de Opus Dei ponto qualquer país de que pode-se pensar …e muitos com TLDs inéditos, álias. Ponto PY é Paraguay, eu sei, mas ponto PH? As Filippinas?

Estas diagramas são reflexos de dados recolhidos pelo SocNetV, as desvantagens do qual é a falta de controle sobre os dados a ser recolhidos e a incompatibilidade dos arquivos .NET que produz com o Pajek.

Quanto ao .NET produzido pela Navicrawler, também é esquisito.

O arquivo é legível pelo Pajek, mas cada nó é o nome de uma ligação, uma dupla de nomes. Por exemplo:

Cada nó é uma dupla de nós, quer dizer, um enlaço, mostrando a ligação entre contas de Twitter de vários usuários individuais à conta institucional de Internews, com números representando o coordenado cartesiano do nó.

Vou ter que pensar sobre um jeitinho de préprocessamento das minhas planilhas antes de alimentar ambos programas, Pajek e Gephi, com os dados.

A tabela de dados nativa ao Gephi está divido entre uma tabela de nós e uma tabela de laços, por exemplo, enquanto no Pajek, dá para exportar estes tipos de dados em arquivos separados de formato distinto …

No entretanto, o legal de Pajek, só para dar um exemplo simples, é poder buscar um REGEXP — uma expressão regular que pode retornar vários resultados, assim como «c*rro» retornará tanto «carro» quanto o gostoso «churro», o doce frito mexicano de farinha, açucar e canela.

Acima, a rede básica do Knight Foundation, que serviu como base do análise feito em yEd. Faz tempo que não ouvi falar de Newsvine, site de «eu, o jornalista» de Associated Press, se não me engane.

É assim que eu consegui produzir, a mão, o mapeamento mostrado no começo da rede do GFMD em yEd — que funciona muito bem para criar diagramas bonitas e bastante informativas em escala menor.

Por exemplo, vamos navegar ao ponto de partido para observar a «fronteira» de laços do primeiro grau.

Dentro da amostra recolhida pelo Navicrawler, que era configurada para uma busca abrangente e rasa, GFMD aponta para o IJNET.

Este, em torno. some numa verdadeira nuven de ONGs relacionadas com um dois maiores fundadores de Jornalismo 2.0, segundo a CIMA: a cadeia de jornais Knight-Ridder.

Esta relação é refletida em vértice 55, acima, de 3.874.

Faço uma experiência deconstruindo a rede em partes e depois recombinando-a que produz, como o ponto de interseção de dois segmentos, a conta de Twitter na língua do Quixote do IJNET:

Tem redes em língua árabe e língua persa também.

Este de poder calcular interseções e divergências entre complexos de dados, e representá-las graficamente — tudo aquilo dos primeiros capítulos do Principia Matemática de Russell e Whitehead — é o que eu queria aprender.

Quais os blogs em común entre as blogosferas do IMIL e a TERNUMA, por exemplo?

Veja a nota anterior … ai, não consigo localizar. A busca de WordPress deixa a desejar.

Próximos Passos

Agora, é so pensar no jeito de mexer com a planilha criada do arquivo em formato CSV para alimentar o Gephi. Estou estudando o formato dos arquivos XML que este aceita.

O yEd tem mecansimos bom para isso. Pegue o arquivo CSV, abre como uma planilha de OOCalc – a planilha de Open Office — e salve como XLS — formato de Excel.

Está pronto para pré-processamento em OOCalc e importação no yEd.

Também há essa questã de XSL e XSLT — formato pela transformação de uma dialeta de XML em outra. O yEd tem facilidades pela aplicação desse mecanismo também. É só pegar alguns exemplos de XSLT e ficar brinando.

Caraca, por que não pensei nisso antes? O OOCalc é o tradutor de formatos ideal!

Até tem XSLT embutido.

Finalmente, tenho que pensar em como o Network Workbench pode ser útil. Este, que nem o yEd, tem a capacidade de escanear uma hierarquia de diretórios como aquela produzido com admirável eficiência, por exemplo, pelo Harvestman.

Da para visualizar a rede resultante com Prefuse, editá-la com o relutante GUESS, e salvá-lo em algum sabor de XML que até agora não presta. XXGML? FED? GDF? Uma verdadeira torre de Babel.

A Questão Central

A questão central para mim continua sendo o circúito vicioso mostrado embaixo:

E assim que acabamos com o Tratado de Tordesilhas PC-Mac, com Bill Gates e Steve Jobs os imperadores da reportajabaganda.

Quandos os Fuzileiros Salvaguarda o Mundo para o Mercantilismo

O modelo de democracia para exportação do meu governo é o de um estado de direito essencialmente mercantilista, como De Soto define este no livro El Otro Sendero.

Estou lendo aqui um exemplo que o peruviano festejado pelo Instituto Cato recentemente deu nos fins dos anos 80:

Na Espanha, os Cortes e a polícia foram utilizados para impedir «concorrência deseal», por lei ou por força. Os donos de privilégios às vezes tomar a lei em mãos próprias, punindo qualquer um que pretendia quebrar seu monopólio.

Larruga conta como, em 1684, os moradores de Pastran abriram uma fábrica de fitas modelado em fábricas estrangeiras. Todo ia bem até 1690, quando os moradores de Fuente de la Encina resolveram imitar seus vizinhos.

Os cidadãos indignados de Pastrana, que desfrutavam um mercado exclusivo de doze léguas em toda direção, pegaram em armas, atacou a Fuente de la Encina, sequestraram os bens capitais da fábrica, e levaram os concidadãos que acharam trabalhando lá de volta para Pastrana na condição de prisioneiros de guerra.

Não é outra coisa que vimos no caso do Instituto Millenium: Os mais ardentes e vocíferos defesores do empreendedor são os oligopsonias que controlam o mercado tanto para seus bens e serviços quanto para os insumos e componentes a serem utilizados por ele para «inovar».

Eis o famoso «shopping de inovação»: o consumidor pode ter qualquer marca e configuração de computador que quiser — uma vez que os componentes incluiam um processador Intel e, se o sistema seja Linux, um sabor de Linux que não é GPL puro-sangue.

É por isso que cada e qualquer site projetado por profissionais hoje em dia obrigatoriamente tem um enlaço ao Adobe, para baixar a versão mais recente de Flash ou Shockwave.

Como vivo apontando, em alguns sites, chega ao absurdo de programar manchetes estáticas em Flash só para aproveitar uma fonte tipográfica desejada!

É como o cara no filme que utiliza o carro para atravessar o quintal e pegar o correio, em vez de andar 20m à pé.

Trabalhar no shopping de inovação é como brincar com Lego, aquele brinquedo de construção: Pode criar qualquer coisa, uma vez que o elemento básica seja quadrado e encaixa com nosso formato.

Se quer traçar curvas, terá que quadrar o círculo.

Muito mais fácil se conformar.

Não é assim?

Em fim, alguns exemplos aleatórios de visualizaçãoes recentes.

A Malidta NET

Ah, a Net voltou, conforme o resultado de uma busca de correio.

O spam de sempre de O Diário de Maringa e o espamador mais sem-vergonha de todos: Globo. Cada vez mais convites descarados para repercutir produtos do mandante no blog, sub rosa e sub-reptíciamente, em troco de um intercâmbio de entrelaços.

Já ouviu? Lá na Nassif tem novo blog!

Entre as outras mensagens devidamente solicitadas e bem-vindas, além do ex-blog do Maia Pelado: O boletím do dia de WebCPA, chefiado por meu caro amigo Mike e realmente bem feito e o boletím semanal de Charutos e Cachimbos, meu antigo fornecedor de puros habanos e baianos de mata fina.

O mais fácil era simplesmente ligar lá, encomendar uma caixa de Monte Pascoal Belicoso — os Robusto também são incríveis — e outra de Partagas No. 4, e buemba!

Motoboy está lá dentro de meia hora.

Hoje em dia, temos que economizar.

Mais os bons tempos voltarão!

Ops. A rede não voltou por inteiro.

Pacotes chegam, embora não saem mais, como convidados mal-educados.

Não consigo subir novos arquivos, apesar de poder editar texto e inserir imagens já subidas no WordPress.

Poxa.

Eu vou postar agora e andar subindo as imagens depois, caso a coisa não pegue no tranco.

Tarde demais! Salve tudo num editor de texto qualquer.

Putz. Estou conseguindo fazer um traceroute — rastreio de rota — até a Veja e o Globo, e até ao New York Times, mas não estou podendo subir essa nota. Ué.

O envio desse texto falhou com uma mensagem de erro críptica.

Porra.

Duas horas da tarde, disseram.

Disseram pela telefone.

A gente teve que pedir emprestada a telefone da vizinha.

Temos VoIP, que cai com a Internet mais não com o TV a cabo.

Shit. Shit goddammit. Zift! Zai zift!