Nota Técnica: Pobremas, Teoremas e Dadóides do Dia

Padrão

Deixa te falar uma coisa: estou com pobremas técnicos.

Atualização, 1827 horas: meus pobremas acabaram!

Pule à parte onde fala-se da natureza estatística de spam.

Estou fazendo uma grande colheita de sites ligados entre si — «a ecologia digital do estilo neocon» — mas agora cheguei a um impasse: a rede colhida é grande demais para ser lida com Pajek, minha ferramenta principal de análise.

O que fazer? Eu faço uma tentativa de aplicar, pela primeira vez, o pouco que ficou sabendo de R — o clone software-livre de SPSS, o pacote estatístico pelas ciências sociais.

Não pode alocar um vetor do tamanho 71.7 MB.

Morto!

Uai.

Agora tenho que ler um documento chato sobre o assunto por alguns suiços.

O que querem dizer com o seguinte?

On all builds of R, the maximum length (number of elements) of a vector is 2^31 – 1 ~ 2*10^9.

2*10^9 = 2.000.000.000, ou seja, 2 GB, não =? Tenho uma amostra de 400.000 sites, dos quais 222.087 não tem laços ou páginas colhidas ainda. O robô fica sabendo de 8.8 milhões de documentos. A densidade de uma rede completa desse tamanho seria de 16*10^10.

Talvez é isso: o R está tenta criar uma matriz quadrada com essas dimensões. Se eu tirasse 222.087 nós indefinidos, ficariamos com uma matriz de (2*10^5)*(2*10^5), ou seja, 4*10^10, ou seja, 40 bilhões de células binárias.

Mais ô: eu consegui encarregar uma versão menor da rede, mais com as mesmas dimensões — de 400.000 nós — em Pajek, e deu certo.

Tenho que descobrir um jeito de reduzir a rede antes de tentar alimentar R ou Pajek com os dados.

Talvez se eu tirasse todas as entradas com a definição de indefinida — COMPONENT_UNDEF?

Ou a solução pode ser mais simples: Uma vez que o robô — WIRE, de C. Castillo, et al., Universidade de Chile — reserva 28% da memória livre, pode ser que eu não posso fazer esses análises enquanto roda o robô.

Out talvez eu podia limitar a memória alocada ao robô:

ulimit -t 600 -m 150000

Mas nesse momento, estou impedido de progredir. Originalmente, achei que fosse problema com o arquivo de dados, que apresentou parágrafos vázios, atrapalhando o Pajek. Aprendi que a expressão regular (REGEX) para buscar e tirar essa linhas é um simples

^$

É bom saber!

Dentro do R, estou começando a brincar com o módulo igraph, dito um bom programa pela visuaização de grandes redes.

O procedimento seria extrair da rede seus componentes fortemente interligados, ou segundo outros critérios, com R, e passar esses dados ao igraph.

No Meio do Caminho Uma Pedra Rolante

Mas chega de demostrar minha pura ignorância.

Amigos nerds estão rindo de mim, tenho certeza.

Aos dadóides do dia.

Nessa altura do camponeato, o site com mais peso dentro de nossa amostra é aquele da revista Rolling Stone Brasil (Editora Abril), embora eu não consigo entender porque.

Tem um IN_DEGREE — número de laços indo de outras interentidades — de apenas um, desde OESQUEMA.COM.BR.

OESQUEMA é um internauta interessante, por ilustrar o constraste entre dois papeis que eu vou chamar do «bibiliotecário» e «o profeta».

O bibliotecário tem quase nehum laços vindo — referências por outras interentidades — mais um grande número de laços indo.

Costuma ser interessante por apresentar um cardápio de leituras que reflete um interessse pessoal ou institucional. Acrescentam mais-valia agregando conteúdo, mas por qualquer razão, nessas alturas, ainda não atraiu outros navegantes-leitores.

Meu velho blog, The New Market Machines, provavelmente tem perfil de bibliotécario, pelo tamanho da lista de blogs e sites acompanhados, por exemplo — e falta de grande número de leitores. Ainda bem: as pessoas pelas quais eu escrevo sabem que blogs são um desperdício de tempo.

O profeta costuma ser o perfil de agregadores de conteúdo automatizado como Feedburner ou WordPress.org ou Twitter ou AddThis — elementos da «plataforma social» embutidos em grande número de sites — como vemos na lista de sites com o maior «ranking» relativo à amostra inteira.

O profeta por excelência dentro de nossa amostra e DISQUS.COM, com quase 500 citaçãoes vindo até agora e nenhum indo. Trata-se de um sistema de comentários que se integra com sites e blogs. Os 500 são usuários da ferramenta dentro de nossa amostra.

Assim, o DISQUS se encaixa no perfil que faz dos componentes da plataforma social um commodity valioso em termos de marketing: tem grandes índices de HUB e AUTHORITY — a densidade e qualidade da sua vizinhança.

Estes são entre os critérios utilizado pelos motores de pesquisa quando calculam o peso de contéudo nos resultados de busca qualquer.

Portanto, é uma qualidade muito desejável segundo a grande arte de SEM-SEO — otimização para e marketing por meio de motores de pesquisa.

A questão interessante é com se encaixa o estilo bibliotécario nessa estratégia?

«Outliers»: Anomalias e Espameação

O SEO Researcher explica, numa nota sobre métodos estatísticos pela deteção de «SEO chapéu-negro» ou «spam de motores de pesquisa» — técnicas enganosas utilizadas para moralizar determinado site, aumentando seu valor indevidamente.

O método mais simples é o «bloco de eu sozinho». Veja

Sites que não sejam agregadores robotizados tendem, no percurso de tempo, a um equilíbrio relativo entre os graus IN e OUT — assim como num debate, o número de palavras faladas por cada interlocutor tendem a ser iguais, a não ser que um interlocutor fala pelos cotovelos com a intenção de «filibuster», ou monopolizar a conversa para desconversar.

É por isso que debates na TV tém regras como os dois minutos cada. Lógico.

Os «bibliotécarios» dão uma impressão de um site com muita atividade durante muito tempo.

Mas essa impressão pode ser enganosa.

Lembrem-se mais uma vez da campanha Rafa Define now Twitter — fruta da imaginação dos publicitários do projeto YouthActionNet, da ESPM-Anhembi-Morumbi —  que ganhou 189.000 seguidores num só dia, segundo um site de tuitendências.

Assim, crescimento de conectividade social muito além da taxa previsível sempre chama a atenção. O crescimento de 500% em um único dia, e 3.000% dentre de duas semanas, numa comunidade «eu não quero Dilma» no Facebook, por exemplo.

Acima: Grandes mudanças repentinas no conteúdo de uma interentidade são anomalias.

Uma Analogia Para Todos Nós Envolvendo Charutos, Meu Pior Vício

Uma analogia: Eu sou um sincero apreciador de charutos. Estou morrendo de receber um dinheiro de um cliente caloteiro para poder comprar pelo menos uma caixa de Damatta Graduado — charuto mais em conta com bom fator custo-benefício. Ou quem sabe, um pequeno estoque de Siboney 25 Minutos?

Mantenho uma coletânea de decenas de caixas de charutos, que servem tanto de nichos de aramazenagem — grampos, pen drives, canetas, cartões de visita e guardanapos rabiscados, ou que seja — como de lembrançinhas de fumaçadas saudosas.

Na minha mesa nesse momento, um caixa de Partagas Mille Fleurs organiza pen drives enquanto uma de Monte Pascoal Belicosos contém isqueiros, o cortador de charutos, alguns cachimbos, e fios que preciso reunir com as bugigangas às quais pertencem.

Uma caixa de Hoyo de Monterrey — sem par, para meu gosto — server como um oratório improvisado dedicado a Nossa Senhora Padroeira do Brasil e São Raúl Seixas.

Mas se eu quissesse criar a impressão enganosa de ser tabagista avançado de longa data, eu podia, por exemplo, pedir do meu fornecedor um monte de caixas para ser espalahadas pela minha sala.

Se OESQUEMA seja uma instância dessa tática «chapéu-negro» só saberemos com um análise focado completo — que dia desses eu talvez farei, se der tempo.

Nossa exploração ainda está jovem, se bem que já identificou os nós mais importantes, um perfil dos quais está emergindo.

Mas teremos que aguardar até aparecer indicações que a amostra está tendendo no sentido do esperado equilíbrio.

Um dos sites «sementes», por exemplo — CLAREMONT.ORG — ainda está na categoria INDEFINIDA, apesar de ter páginas baixadas e indexadas.

Fatos externos — eu estive presente na fundação da fundação como estudante no Claremont Graduate University — são testemunhas à centralidade deste instituto de pensamentologia pivô do movimento neocon, e berço do todo-poderos POWERLINEBLOG.COM.

Pode ser que haverá algo no arquivo

robots.txt

que explique a opacidade e a demora do «fechar o círculo» — quando o efeito Mundo Pequeno começa a produzir citações indo.

Vou explorar com um robô menor dentro do misterioso complexo Trystero 47 …