freeware, spyware, malware

quinta-feira, 14 de maio de 2009

ferramentas de busca

Estrutura de um Buscador

De modo geral, todas as ferramentas de busca são basicamente formadas por três componentes essenciais:

Crawler, spider ou robot: são programas de computador que percorrem os websites na Internet através de seus links para catalogar o conteúdo dos sites. Periodicamente os crawlers visitam os sites para catalogar novos links e conteúdos. Cada ferramenta de busca possui o seu crawler. Os mais conhecidos são o Googlebot (do Google), Inktomi Slurp (do Yahoo!) e o MSNBot (do MSN.com).

Índice (index): é o banco de dados onde são armazenadas as informações coletadas pelo crawler. Quando um usuário realiza uma pesquisa em uma página busca, ele estará consultando o índice da ferramenta de busca e não procurando diretamente na internet. Então sites que não forem indexadas no índice ou banidas não aparecem nos resultados da busca.

Interface de busca: interface gráfica pelo qual o usuário interage com a ferramenta de busca para efetuar suas buscas, ou seja, a página de busca propriamente dita.

Termos Importantes

Para compreender melhor os fundamentos das ferramentas de busca, é necessário entender alguns termos.

Palavras-chave: são as palavras que o usuário digita na interface de busca para encontrar os sites relativos a um determinado assunto.

Cache: as ferramentas de busca possuem uma cópia do conteúdo de cada website em seu índice. Esta cópia é chamada de cache. As ferramentas de busca atualizam seu índice com visitas periódicas ao site, assim ele sempre será atualizado. Na maioria dos buscadores é possível ver o cache atual de uma página. No Google por exemplo, em um resultado de busca, basta clicar em Cache ao lado de um dos resultados para ver a versão do site que está no índice.

Spamming: é uso abusivo de técnicas de otimização que tornam uma página artificial voltada para a ferramenta de busca e não para o visitante da página. Atualmente essas ferramentas possuem algoritmos muito complexos que verificam o uso dessas técnicas. Esse artifício para enganar os buscadores é chamado de Black Hat SEO (chapéu preto) ao contrário das técnicas corretas para otimização de websites chamadas de White Hat SEO (chapéu branco). Sites que utilizam técnicas de Black Hat SEO podem ser penalizados com seu banimento dos resultados de busca.