Cadastre e Divulgue seu Site ou Blog

Como o Google rastreia, indexa e publica na web

Quando você se senta em frente ao seu computador e faz uma pesquisa no Google, você é apresentado quase que instantaneamente a uma lista de resultados de toda a web. Como o Google encontra páginas que correspondem a sua consulta e determina a ordem dos resultados de pesquisa?

Em termos mais simples, a pesquisa na web é como procurar em um livro muito grande com um índice impressionante que diz exatamente onde tudo está localizado. Quando você faz uma pesquisa no Google, nossos programas verificam nosso índice para determinar os resultados de pesquisa mais relevantes que devem ser retornados ("publicados") para você.
Os três principais processos de retorno de resultados de pesquisa são:

Rastreamento: o Google sabe sobre o seu site? Podemos encontrá-lo?
Indexação: o Google pode indexar o seu site?
Publicação: o site tem um conteúdo bom, relevante e útil para a pesquisa do usuário?

Rastreamento
O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.

Nós usamos um grande conjunto de computadores para buscar (ou "rastrear") bilhões de páginas na web. O programa que realiza a coleta é chamado Googlebot (também conhecido como robô, bot ou spider). O Googlebot usa um processo algorítmico: programas de computador que determinam quais sites devem ser rastreados, com que freqüência e quantas páginas devem ser coletadas em cada site.



O processo de rastreamento do Google começa com uma lista de URLs de página da web, gerada de processos anteriores de rastreamento e aumentado com dados dos Sitemaps fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links de cada página e os inclui à sua lista de páginas para rastreá-los. Novos sites, alterações em sites existentes e links inativos vão ser detectados e usados para atualizar o índice do Google.

O Google não aceita pagamento para rastrear um site com mais freqüência, e mantemos a área de pesquisa de nossos negócios separada dos nossos serviços geradores de receita do AdWords.
Indexação
O Googlebot processa cada uma das páginas que ele rastreia para compilar um imenso índice com todas as palavras encontradas e sua localização em cada página. Além disso, processamos informações incluídas nas principais tags e atributos de conteúdo, como tags de Título e atributos "ALT". O Googlebot pode processar muitos tipos de conteúdo, mas não todos. Por exemplo, não podemos processar o conteúdo da maioria dos arquivos em Flash ou páginas dinâmicas.

Publicação de resultados
Quando um usuário insere uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retorna os resultados que acreditamos ser os mais relevantes para os usuários. A relevância é determinada por mais de 200 fatores, entre eles o PageRank de uma determinada página. O PageRank é a medida da importância de uma página com base nos links de entrada de outras páginas. Em termos mais simples, cada link para uma página em seu site a partir de outro site adiciona um PageRank ao seu site. Nem todos os links são iguais: o Google trabalha com afinco para melhorar a experiência do usuário, identificando links de spam e outras práticas que afetam negativamente os resultados de pesquisa. Os melhores tipos de links são aqueles retornados com base na qualidade do seu conteúdo.
Para que o seu site seja bem classificado nas páginas de resultados de pesquisa, é importante verificar se o Google pode rastrear e indexar o seu site corretamente. Nossas Diretrizes para webmasters destacam algumas das melhores práticas que podem ajudar você a evitar as armadilhas comuns e melhorar a classificação do seu site.