El archivo robots.txt es un pequeño archivo de texto en el directorio raíz de su sitio que le indica a los robots de búsqueda (Googlebot, Bingbot, Yandex y otros) qué páginas pueden y no rastrear. Un archivo robots.txt configurado correctamente es uno de los primeros pasos del SEO técnico, que afecta directamente la forma en que los motores de búsqueda indexan su sitio.
Por qué necesitas robots.txt
El archivo robots.txt realiza varias funciones importantes:
- Gestión del presupuesto de rastreo: Google asigna un número limitado de rastreos por día a cada sitio. Robots.txt le permite dirigir el bot a páginas importantes en lugar de páginas técnicas o duplicadas.
- Protección de secciones privadas: cierre el panel de administración, los puntos finales API, las páginas de prueba y los directorios de servicios para que no se indexen.
- Prevención de duplicados: bloquea páginas con opciones de filtrado y clasificación que crean miles de duplicados.
- Puntero del mapa del sitio: incluya la URL del mapa del sitio XML para que los robots puedan encontrar todas las páginas importantes más rápido.
Sintaxis robots.txt
El archivo consta de directivas simples:
- User-agent: define a qué bot se aplica la regla.
User-agent: *significa "todos los robots". - Disallow: prohíbe el escaneo de la ruta especificada.
Disallow: /admin/cerrará todo el directorio. - Allow — permite escanear una ruta específica dentro de un directorio prohibido.
- Sitemap: indica la URL completa del mapa del sitio XML.
- Crawl-delay: establece el retraso entre las solicitudes de bot (no admitido por todos los motores de búsqueda).
Errores típicos en robots.txt
Una configuración incorrecta puede perjudicar gravemente al SEO:
- Bloqueo de archivos CSS y JS: Google necesita acceso a estilos y scripts para la representación correcta de la página. Prohibir estos recursos puede causar problemas de indexación.
- Disallow: /: esta directiva bloquea TODOS los análisis. Una barra diagonal adicional puede eliminar completamente un sitio del índice.
- Conflicto de permitir y no permitir: si las reglas entran en conflicto entre sí, diferentes bots pueden interpretarlas de manera diferente.
- Reglas de prueba olvidadas - después de iniciar el sitio, a menudo se olvidan de eliminar
Disallow: /, que se agregó durante la etapa de desarrollo. - Ruta de archivo incorrecta — robots.txt debe estar ubicado estrictamente en la raíz del dominio:
https://example.com/robots.txt.
Cómo crear robots.txt con Xuvero
Nuestro Robots.txt generador simplifica el proceso de creación de un archivo:
- Seleccionar reglas básicas— habilitar o deshabilitar el acceso para todos los bots con un solo clic.
- Agregar rutas no permitidas - Especifique los directorios a bloquear: /admin/, /api/, /dashboard/, /tmp/.
- Especificar URL del mapa del sitio: agregue un enlace al mapa del sitio XML.
- Copia el resultado: el archivo robots.txt listo aparecerá en el campo de resultados. Cópielo y cárguelo en el directorio raíz de su sitio.
Plantillas Robots.txt para diferentes CMS
- WordPress — bloquear /wp-admin/, /wp-includes/, /wp-json/, permitir /wp-admin/admin-ajax.php para que los complementos funcionen correctamente.
- Laravel - cerrar /storage/, /vendor/, /nova/ (si usa Nova), /telescope/.
- Tienda en línea — bloquear páginas de filtro (?sort=, ?filter=), carrito (/cart/), pago (/checkout/), cuenta personal (/account/).
Robots.txt y Seguridad
Es importante recordar que robots.txt es una recomendación, no una protección. El archivo está disponible públicamente y los atacantes pueden usarlo para encontrar secciones ocultas del sitio. Para una protección real, utilice autenticación, firewall o metaetiqueta noindex.
Conclusión
Un archivo robots.txt configurado correctamente es la base del SEO técnico. Ayuda a los motores de búsqueda a rastrear su sitio de manera eficiente, indexar las páginas correctas yignore los innecesarios. Utilice nuestro generador de robots.txt gratuito para crear el archivo correcto en minutos, sin errores de sintaxis.