robots.txt

Este arquivo guía ós Search Engine Crawlers que visitan a nosa web, especificándolles que URLs poden acceder e a cales non. É usado, sobre todo, para evita-lo exceso de pedicións cara a web e non é un mecanismo para mante-la web fóra de Google, para isto existe a meta tag noindex ou unha protección mediante contrasinal.

Entón, para que se utiliza?

Como dicíamos, o seu propósito principal é xestiona-lo tráfico de crawlers e ten distintos efectos segundo o tipo de arquivos ó que se aplique:

Páxina web

Pódese utilizar para páxinas web (HTML, PDF ou calquera outro formato non-media) para evita-lo exceso de tráfico de crawlers e para evitar estes robots en páxinas non importantes ou con contido simiar a outras. Isto é porque cada empresa como Google destina un "presuposto" a cada web, polo que se o gasta inutilmente, non poderá rematar de visita-las páxinas máis importantes do noso sitio web. Hai que ter moi en conta que non serve para evitar que Google indexe a nosa páxina, xa que o poderá facer mediante links externos, por exemplo.

Arquivos media

Pódese utilizar para evitar que as nosas imaxes ou vídeos aparezan nos resultados de busca, pero non evitará que outras páxinas ou usuarios fagan link a estes arquivos.

Arquivos recurso

Pódese usar para bloquear recursos como imaxes sen importancia, scripts ou arquivos de estilos, se cremos que as páxinas non se verán afectadas por esta perda. Pero, se a ausencia destes recursos fan que os crawlers non comprendan as páxinas, non debemos bloqueados.

Comprendendo as limitacións dun robots.txt

Antes de crear e editar este arquivo, deberíaos comprende-los límites deste método de bloqueo de URLs. Segundo a situación e as necesidades, poderemos pensar noutros métodos para asegurarnos de que as nosas URLs non se poidan atopar mediante buscadores.

Non tódolos buscadores soportan as directivas de robots.txt

A ordes aquí colocadas non reforzan o comportamento dos crawlers, depende dos seus propios mecanismos se obvian ou non as nosas directivas. Polo tanto, se queremos mande-la nosa información segura dos bots, é mellor usar métodos como a protección mediante contrasinal.

Cada crawler interpreta a sintaxe ó seu xeito

Aínda que os máis respectables web crawler sigan as directivas do robots.txt, cada un deles pode interpreta-las liñas ó seu xeito. Para evitar estes problemas, debemos coñece-la sintaxe adecuada para cada crawler.

Unha páxina non permitida mediante robots.txt, pode ser indexada se é linkeada dende outros sitios.

Se unha páxina está deshabilitada para a indexación dos bots, pode ser atopada mediante links doutras partes da web. Para evitar isto, a parte do método de contrasinais, tamén se pode utiliza-la meta tag noindex, un response header ou simplemente eliminando a páxina.

Crear un arquivo robots.txt

Este arquivo localízase sempre no directorio raíz do noso sitio web, polo que, se o sitio chámase www.exemplo.gal, o noso robots.txt terá como dirección www.exemplo.gal/robots.txt.Este é un arquivo de texto plano que conterá o estándar Robots Exclusion Standard e consiste nunha ou máis regras que bloquean ou permiten o accesso dos crawlers a unhas específicas rutas, se estas regras non se especifican, tódolos arquivos do noso sitio son permitidos para a busca dos bots.

O seguinte é un arquivo robots.txt con dúas regras:

User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.exemplo.gal/sitemap.xml

E isto é o que significa:

1. O axente de usuario chamado Googlebot non ten permisos para rastrear URLs que comecen por HTTP://exemplo.gal/nogooglebot.

2. O resto de axentes teñen permitido o acceso. Se borrásemos esta liña, por defecto tódolos crawlers poden rastrear todo o sitio.

3. O arquivo sitemap.xml localízase en http://exemplo.gal/sitemap.xml.

Podes buscar por exemplos máis amplos da sintaxe.

Primeiros pasos da creación

Para isto, podemos usar calquera editor de texto plano e debemos evitar utiliza-los procesadores de texto, porque poden engadir marcas propias que darán problemas ós crawlers. Debemos asegurarnos de que ó gardar este arquivo, estea formatado en UTF-8.

Formato e localización das regras

1. O arquivo debe chamarse robots.txt.

2. O noso sitio debe conter un só robots.txt.

3. Este arquivo debe estar localizado no directorio raíz.

4. O arquibo robots.txt pode ser engadido en subdomonios (https://sitioweb.exemplo.gal/robots.txt) ou en portos non estándar (https://exemplo.gal:8181/robots.txt).

5. Este arquivo debe estar codificado en UTF-8 xa que, buscadores coma Google, poden ignora-los caracteres que non formen parte deste rango de codificación.

Engadir regras no arquivo

As regras son instrucións para que os crawlers saiban que partes do sitio poden rastrexar.

1. O arquivo robots.txt consiste nun ou máis grupos.

2. Cada grupo consiste en múltiples regras ou directivas, unha por liña. Cada grupo comeza cun User-agent que especifica o obxectivo do grupo.

3. Un grupo contén a seguinte información:

- A que axente vai dirixido o grupo,

- a que arquivos ten acceso e

- a que arquivos non ten acceso.

4. Os bots procesan os grupos de arriba cara a abaixo. Un axente só pode coincidir cun grupo de regras, o primeiro que coincida será o que utilice.

5. Por defecto, os crawlers asumen que poden rastrexar tódolos directorios non bloqueados coa regra disallow.

6. As regras son case sensitive.

7. O carácter # marca o comezo dunha liña de comentario.

Fontes documentais

developers.google.com