Il file robots.txt lo avrai sentito nominare spesso se hai a che fare con WordPress, ma che cos’è di preciso? Partiamo dalla descrizione tecnica che ci offre Wikipedia:
“Il protocollo di esclusione robot indica, nel gergo di internet e più in generale del web, le regole utilizzate dai crawler per applicare restrizioni di analisi sulle pagine di un sito web.
Esse sono contenute nel file robots.txt, ideato nel giugno 1994 con il consenso dei membri della robots mailing list. In questo momento non esiste un vero e proprio standard per il protocollo robots.”
In pratica questo file contiene delle istruzioni che i motori di ricerca devono seguire quando scansionano le pagine di un sito web.
La prima volta che ho sentito il bisogno di configurare il file robots.txt è stata quando, controllando su Google Webmaster Tool, ho trovato tantissimi errori 404. I crowler non riuscivano a raggiungere molti link perchè li avevo completamente rimossi dal sito.
CROWLER / SPIDER: QUESTI (S)CONOSCIUTI!
Ma cosa sono i crowler? Il crawler è un software che analizza i contenuti del nostro database per conto di un motore di ricerca. In pratica il motore di ricerca fornisce al crowler una lista di URL che devono essere analizzati, in modo da aggiornare costantemente l’elenco dei nostri hyperlink.
Quando configuri il file robots.txt non fai altro che dare ai crawler (detti anche spider) delle regole da seguire e indichi quali pagine devono essere analizzate e scansionate, e quali invece no.
DOVE INSERIRE IL FILE ROBOTS.TXT SE UTILIZZO WORDPRESS?
E’ sufficiente un semplice notepad o un altro editor di testo. Quel che importa è salvare il file con estensione .TXT e chiamarlo esattamente robots.txt
Una volta creato il file, basterà caricarlo nella root del nostro sito e il gioco è fatto!
- Per essere più precisi, entra nel tuo sito tramite un programma FTP (io utilizzo FileZilla e te lo consiglio vivamente), carica il file robots.txt nella cartella principale cioè quella che contiene sia le tre cartelle principali di WordPress (wp-content/wp-admin/wp-includes) sia gli altri files tipo index.php / wp-config.php ecc.
Ecco dove devi caricare il file robots.txt di preciso. In questo esempio ho utilizzato FileZilla.

CONFIGURARE IL FILE ROBOTS.TXT PER WORDPRESS
[NO] Fai attenzione perchè se inserisci “/” in disallow bloccherai l’indicizzazione di tutti i contenuti:
User-agent: * Disallow: /
[SI] Poichè sono sicuro che ti piacerebbe avere il migliore modello di file robots.txt già bello e pronto, eccone uno realizzato seguendo le linee guida di codeplex.
User-agent: * Allow: / Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /e/ Disallow: /show-error-* Disallow: /xmlrpc.php Disallow: /trackback/ Disallow: /comment-page- Allow: /wp-content/uploads/ User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / Sitemap: http://www.miosito.it/sitemap.xml (QUI INSERISCI LA SITEMAP DEL TUO SITO WEB)
Il tuo primo file robots, invece, doveva essere configurato come l’esempio qui sotto:
User-agent: * Disallow:
Ovviamente niente ti vieta di creare un file robots.txt personalizzato in base alle tue esigenze! Se vuoi vedere gli altri siti come hanno impostato il loro, al termine di un URL scrivi “/robots.txt” (senza virgolette).
Ad esempio cerca www.facebook.it/robots.txt e guarda quale configurazione utilizza il portale di Mark Zuckerberg. Credo che Google, in ogni caso, preferisca che sia dato l’accesso totale al sito, infatti se controlli la console di Web Master Tool e segui il percorso:
- Configurazione sito
- Crawler
- Genera file Robots.txt
Ti verrà consigliato di impostare il file in questo modo:
User-agent: * Allow: /
Ora non resta che sperimentare e configurare il file robots.txt come meglio credi si adatti al tuo sito web. Per verificare i risultati controlla costantemente i dati riportati sul sito “Strumenti per i Webmaster di Google” e modificalo secondo le tue esigenze.
By Giorgio Perillo
Ciao, bloccando nel file robots.txt la cartella wp-content, non si permette la convalida del test di ottimizzazione per i dispositivi mobili. Le nuove linee guida infatti dichiarano che l’algoritmo di GOOGLE debba avere accesso anche ai file css e javascript che risiedono appunto nella cartella del tema, a sua volta contenuta in wp-content.
Ciao Fabrizio! Hai ragione, Google ha bisogno di accedere ai files css e javascript e sarebbe meglio se il robots.txt non bloccasse nulla. Come specificato nell’articolo, la configurazione migliore, nella maggioranza dei casi, è sempre —-> User-agent: * Allow: /
Poi in base alle singole esigenze si può modificare a piacimento il file. In ogni caso sono sicuro che a tutti i lettori sarà utile questa informazione.
Grazie del tuo contributo!
Prego, ciao !