Cómo crear un archivo robots.txt y subirlo al servidor
El proceso de crear un archivo robots.txt y subirlo al servidor es muy sencillo y puedes hacerlo tú mismo sin mucha dificultad.
Ten en cuenta que un archivo robots.txt no es obligatorio. Lo debes usar para evitar que ciertas páginas o directorios de tu sitio web sean rastreadas por los motores de búsqueda. Por otra parte, si lo creas, facilitarás el acceso de estos motores de búsqueda y te encontrarán más fácil y rápidamente.
Si quieres saber qué es un archivo robots.txt y cómo beneficia a tu sitio web, puedes leer este post.
¿Cómo crear un archivo robots.txt en tu sitio web?
Antes de empezar, es importante comentar que hay plugins y programas en Internet que te ayudarán en la creación de estos archivos. Pero ahora me gustaría explicar la forma de crearlos tu mismo.
Básicamente, para crear el archivo, sólo tienes que crear un documento de texto plano con el nombre “robots.txt”.
Para hacerlo puedes usar el bloc de notas o un editor de código como Notepad. También puedes usar otras herramientas más actualizadas como SeoBook, entre otras.
Ahora bien, para crear un archivo robots.txt y subirlo al servidor es imprescindible que que los rastreadores entiendan tu archivo. Para ello, utiliza los siguientes comandos, commodities, restricciones y notas:
Comandos:
- User-agent (spider name): le indica qué tipo de rastreador debe cumplir las indicaciones que colocarás.
- Disallow (ruta no permitida): informa al rastreador las páginas que no debe rastrear.
- Allow (ruta permitida): le dice al rastreador las páginas que sí deben ser rastreadas.
- Sitemap (mapa del sitio): indica la ubicación del sitemap de tu sitio web, importante para que los rastreadores te encuentren.
- Crawl-delay: le indica al rastreador el tiempo en segundos que debe esperar entre cada página que rastrea. Con este comando podrás reducir la carga de tu servidor en caso de que lo necesites. El tiempo recomendado es de 5-10 segundos.
Commodities:
- Asterisco (*) – Se usa en una secuencia cualquiera de caracteres. Por ejemplo, los directorios que comienzan por “privado” quedarían “/privado*/”
- Dólar ($) – Se usa para indicar el final de una URL. Por ejemplo, para indicar un archivo que termina con la extensión .php usarías “/*.php$”.
Restricciones
- Incluir todos los rastreadores – User-agent: *
- Especificar el rastreador de Google – User-agent: Googlebot
- Para especificar el rastreador de Bing – User-agent: Bingbot
- Para restringir el rastreo de todo el sitio web – Disallow: /
- Para restringir un único directorio – Disallow: /directorio/
- Si quieres que no rastreen directorios que comienzan por “algo” – Disallow: /algo*/
- Evitar el rastreo de una página – Disallow: /pagina-web.html
- Restringir la extensión .gif – Disallow: /*.gif$
- Permitir un subdirectorio – Allow: /directorio/subdirectorio/
- Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml
Insertar Notas
Si quieres, para mejorar el orden en tus archivos, puedes incluir una nota usando el signo “#”. Ejemplo: # Este archivo se creó en enero de 2018.
Ejemplos
- Darle acceso solo a un archivo de un directorio y bloquear el resto
User-agent: *
Allow: /mi-directorio/mi-archivo.php
Disallow: /mi-directorio/
# Acceso restringido a todo el directorio excepto al archivo de canciones
2. Decirle al buscador que ubique tu sitio web
Sitemap: http://misitio.com/sitemap_index.xml
Sitemap: http://misitio.com/post-sitemap.xml
- Indicar el archivo a rastrear y su ubicación
User-Agent: *
Disallow: /nombrearchivo/
Sitemap: https://tudominio.com/sitemap.xml
- Indicar varios archivos a rastrear, su ubicación y tiempo
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /imagenes/
Disallow: /tecnologia/
Allow: /tecnologia/computadoras
Crawl-delay: 10
Sitemap: https://www.tudominio.com/sitemap.xml
¿Cómo subir el archivo al servidor?
Ahora debes completar el proceso de crear un archivo robots.txt y subirlo al servidor.
Básicamente, debes colocarlo en la raíz de tu dominio web para que lo busquen los bots. Es decir, si se coloca en otro lugar no te servirá de nada. Por ejemplo: http://www.example.com/robots.txt.
Generalmente, la carpeta raíz de un servidor tiene por nombre: htdocs o public_html, dependiendo del sistema operativo que use.
Subirlo con FTP
Tan pronto como crees el archivo ya lo puedes subir al servidor. Lo puedes hacer usando el protocolo FTP (File Transfer Protocol = Protocolo de transferencia de archivos). Es decir, FTP es un software cliente/servidor que permite a usuarios transferir ficheros entre ordenadores en una red TCP/IP.
Sin duda alguna, el funcionamiento es sencillo. Desde tu propio ordenador, vas al programa cliente FTP para conectarte con el servidor. Luego, una vez establecida la conexión, te identificas como usuario con la contraseña y ya puedes subir el archivo.
Ahora bien, si no cuentas con un software FTP, puedes descargar algunos gratuitos aunque la mejor opción es que consultes a tu proveedor de hosting.
Subirlo con tu CPanel
Por otra parte, también puedes subirlo con tu cPanel en caso de que lo tengas. Usas el administrador de archivos y lo subes.
Básicamente, vas a tu Panel de Control, das clic en “file manager”, se abre y ahí deben estar los archivos de tu página. Posteriormente, le das clic donde diga “Upload” y ahí subes el archivo.
Verifica que funcione bien y haya subido correctamente
Ahora bien, ya has creado un archivo robots.txt y subirlo al servidor fue el segundo paso. Por último, debes verificar que funcione correctamente.
La dirección URL del archivo creado debe tener el formato: http://sitio-web/robots.txt
Seguidamente, introdúcela en un navegador y comprueba si se puede acceder correctamente.
Por ejemplo, busquemos si “The New York Times” tiene archivos robots.txt
1.- Escribimos la dirección básica del sitio web: https://www.nytimes.com/
De esta forma, entramos a su página web normal
2.- Ahora, escribimos la dirección pero agregándole “/robots.txt” al final: http://www.nytimes.com/robots.txt
Ahora, podrás observar las características de su archivo robots.txt
A continuación, verifica el funcionamiento del archivo que acabas de crear de la siguiente forma:
- Entra en tu cuenta de Google Search Console y das clic en “Acceder” en la esquina superior derecha.
- Selecciona tu propiedad (ejemplo: sitio web) y das clic en “Rastrear o Crawl” a la izquierda de tu pantalla.
- Haz clic en el probador: “robots.txt Tester”.
- Si vez algún código en esa sección, bórralo y colocas tu nuevo archivo robots.txt.
- Haz clic en “Probar”, abajo a la derecha.
- Si el texto de “Probar” cambia a “Permitido,” quiere decir que tu archivo robots.txt es válido.
También lo puedes verificar con la siguiente herramienta de Google https://goo.gl/jLcfF1
Siguiendo el proceso indicado, podrás crear un archivo robots.txt y subirlo al servidor.
También puedes consultar el Asistente de Google dando clic aquí: https://goo.gl/XUmUXJ
Si te quedan dudas de cómo crear un archivo robots.txt y subirlo al servidor, o prefieres que te lo haga un especialista, contacta conmigo y buscaremos la mejor solución.
Deja una respuesta