5/1/2006

Uma nova Torre de Babel
por Eduardo Favaretto*
 
This article is available only in Portuguese language

A Bíblia menciona, no livro do Gênesis, uma grande torre que começou a ser construída pela humanidade, a fim de atingir o paraíso. Para evitar que tal projeto tivesse sucesso, Deus criou uma grande confusão entre as línguas que eram usadas por seus construtores.
A história cita que a obra ficou incompleta, pois, seus construtores, sem condições de comunicar-se entre si, migraram-se para outras partes do planeta, originando as diversas línguas e raças do mundo.


Reprodução da pintura "A Torre de Babel" (1563) de Pieter Brueghel the ElderHoje, tudo indica, uma nova Torre de Babel foi reconstruída na Internet por meio de uma de suas principais formas de comunicação: a Web (World Wide Web).
Ela nasceu no centro de pesquisa do CERN (Suíça), em dezembro de 1990, com o projeto liderado pelo inglês Timothy "Tim" John Berners-Lee, considerado o pai do Web, quando este fez na prática, a primeira demonstração pública usando as iniciais "www".

Nestes últimos 15 anos, a Web acumulou um imenso conteúdo interativo que permite aprender, resolver problemas pessoais ou profissionais, se divertir e interagir em qualquer lugar do planeta. Porém, somente a capacidade de falar, escrever e ler bem não são suficientes para utilização de toda informação existente para uma infinidade de propósitos. Na rede mundial existe informação de todos os tipos e para todos os gostos. O desafio agora é adquirir o pleno domínio do uso desta moderna Torre de Babel.
Suface Web e Deep Web - 20 bilhões de páginas num total de cerca de 600 bilhões
Como um fenômeno global, estima-se a existência de cerca de 600 bilhões de páginas disponíveis na Web (aquelas que teriam acesso via "www"), mas nem sempre estão linkadas em outras páginas publicamente, ou são criadas dinamicamente apenas no momento que são visualizadas (páginas on-the-fly) ao acessar bancos de dados (públicos ou privados), ou muitas vezes solicitam o registro prévio do usuário com o pagamento de assinaturas ou não, para em seguida serem liberadas para consulta.

A chamada Web profunda (deep Web) ou invisível, lembra a figura de um iceberg, tendo referência a sua parte submersa, não visível a quem está "navegando". Uma imensa biblioteca de informação digital, mas diferentemente das bibliotecas tradicionais, organizadas e catalogadas, não tem nada de organização.

É interessante perceber que apesar dos muitos povos que a utilizam, independentemente de cor e raça ou credo, existe um meio comum de comunicação entre eles, que também não depende da marca do computador ou tipo de sistema operacional que seja utilizado. Estamos falando da própria Web pela Web ou de páginas específicas que atendem pelo nome de mecanismos de buscas, buscadores ou search engines. São programas computacionais desenvolvidos com o objetivo de indexar informações descritivas e temáticas das páginas e/ou sites da Internet em bases de dados, com a finalidade de possibilitar a recuperação de documentos solicitados pelos usuários, segundo a forma de busca e os critérios adotados.

Scripts (programas virtuais) conhecidos como "aranhas" visitam periodicamente endereços da webTais mecanismos de buscas podem ser divididos em duas categorias principais, quanto ao critério de inclusão dos links da Web em sua base de dados.

Na categoria conhecida como "robôs de buscas", os índices são criados automaticamente por "scripts" (programas virtuais), também chamados de spiders (aranhas), que "visitam" virtualmente, de forma periódica, cada endereço disponível na Web referenciado em sua base de dados. Por possuir conteúdo muito abrangente, estes buscadores quase sempre acumulam uma infinidade de links, com assuntos extremamente variados e recebem a denominação de buscadores generalistas. Na categoria "catálogo de diretórios", os índices são gerados por grupos humanos (conhecidos como surfers ou editores) que auxiliam no cadastramento e classificação de páginas da Web, quase sempre organizadas uma a uma, "manualmente", de forma criteriosa, seguindo uma distribuição por assuntos relacionados. Por possuir conteúdo mais restrito e um número limitado de links, este tipo de buscador pode receber a denominação de especializado, temático ou regional.
Construídos para "varrer" a web, os mais populares buscadores generalistas da atualidade, do tipo "robôs de buscas" são: Google, o qual pesquisa em 8,1 bilhões de páginas, Yahoo que recentemente informou que consulta 19,2 bilhões de documentos e MSN Search que acessa cerca de 5 bilhões de links. É muito difícil confirmar estes números, pois não há qualquer serviço oficial de auditoria para este assunto. O mais popular mecanismo do tipo "catálogo de diretórios", editado por humanos e mantido pelo trabalho voluntário de surfers (cerca de 71 mil pessoas até esta data) é o Open Directory Project (http://www.dmoz.org), que atinge cerca de 5,2 milhões de endereços catalogados.
Open Directory Project - http://www.dmoz.org - mais de 71 mil pessoas colaboram com seu conteúdo
A Web visível por estes mecanismos pode chegar a cerca de 20 bilhões de links cadastrados. Ou seja, também conhecida pelo termo surface Web, a quantidade de páginas que qualquer usuário pode ter acesso automaticamente por meio do uso das search engines generalistas na atualidade, atinge "apenas" o máximo de 3,3% do total estimado de páginas disponíveis para consulta.

Parece insano considerar que alguém, algum dia, poderia reclamar por não conseguir acessar todas as outras 580 bilhões de páginas, que por estimativa, devem existir na Web.
A questão é uma só: quantidade não é qualidade, além de querer encontrar, é preciso saber escolher as fontes de informações apropriadas ou o buscador apropriado e "aprender" a usar cada um de seus recursos oferecidos.
Se você fizer uma busca na Web apenas com uma única palavra, e usar um buscador generalista, vai receber uma lista, muitas vezes com milhões de resultados e nem sempre os primeiros desta lista são os mais relevantes.
Se optar por usar buscadores do tipo catálogo de diretórios, ficará surpreso com o número muito inferior de resultados apresentados, mas com muito mais precisão.

Para que o resultado das buscas na Web por meio de search engines, receba cada vez mais um toque humano, diversas novas idéias e teorias estão em discussão. Além de métodos específicos para acesso segmentado da deep Web, mecanismos de buscas especialistas em determinados assuntos, a teoria da Web Semantic e sites de busca em comunidades ou aqueles que recebem o trabalho participativo ou colaborativo dos internautas.
Afinal, as perspectivas são muito boas quanto a evolução da tecnologia dos mecanismos de buscas, mas por enquanto nos resta apenas nos condicionarmos nas escolhas mais precisas para nos locomovermos com desenvoltura cada vez maior pela Torre de Babel reconstruída que é a Web.