Il file robots.txt è un piccolo file di testo che si trova nella root (cartella principale) nel tuo sito Joomla. Il file contiene alcune istruzioni dedicate agli spider dei motori di ricerca. Gli spider (detti anche crawler) sono dei software che si occupano di scansionare in modo sistematico i contenuti presenti in rete.

guida alla configurazione del file robots.txt

Compilando correttamente il file robots.txt comunichiamo ai motori di ricerca quali parti del nostro sito deve indicizzare oppure no. Ma non solo.

Due consigli utili per una buona configurazione

Il contenuto del file robots.txt distribuito nella versione di Joomla 2.5 appare così (lo spider è a parte!)

robot.txt and searche engine spider

Il primo consiglio è quello di commentare (usando #) o cancellare la riga con la scritta

Disallow: /images/

Questa istruzione comunica ai motori di non indicizzare nel risultati di ricerca le immagini che utilizzate abitualmente nei vostri articoli. E’ sbagliato e potenzialmente dannoso in termini di traffico. Vi capita mai di cercare una foto usando Google immagini? Sì, anche a me. Rimuovendo la riga in questione per chiunque sarà possibile rintracciare la vostra pagina attraverso una ricerca per immagini. Ovviamente questa operazione vi porterà un maggior numero di visitatori. Non ci sono controindicazioni note.

Ed ora il secondo consiglio. Di recente i maggiori motori di ricerca hanno siglato un intesa per estendere le funzionalità del file robots.txt sia per ragioni operative che per questioni di sicurezza. In particolare hanno deciso di permettere all’utente di indicare il percorso della sitemap XML del sito. Ciò permette a motori come Google, Bing o Yahoo di indicizzare in poco tempo contenuti che voi gli indicherete e, di conseguenza, di evitare l’indicizzazione di contenuti con dati sensibili o, in qualche modo, pericolosi per il sito.

Potete quindi generare la vostra sitemap con Xmap e metterla a disposizione dei motori di ricerca includendo una riga come questa:

Sitemap: http://www.miosito.it/sitemap.xml

Una volta apportate le modifiche accedi a “strumenti per webmaster” di Google e verifica che il file robots.txt sia stato correttamente analizzato. Se vengono segnalati errori ricontrolla attentamente la sintassi dei comandi.

Eventuali personalizzazioni del file Robots.txt

Se avete esigenze particolari è possibile personalizzare il contenuto del file robots.txt. Ad esempio è possibile dare comandi diversi a differenti motori di ricerca, impostando il valore user-agent. Facciamo un esempio:

User-agent: Googlebot
Disallow: /catalogo-prodotti2010.html
Disallow: /cartellapersonale/

In questo caso diremo solo a Google di non indicizzare la pagina www.miosito.it/catalogo-prodotti2010.html perché ormai è obsoleta ed impediremo l’indicizzazione del contenuto di una specifica cartella con materiale personale.

NOTA BENE: queste istruzioni faranno in modo che nelle ricerche non appiano i risultati in questione ma non impediranno agli utenti di visitare i contenuti (se linkati ad uno qualsiasi dei menu di navigazione) pertanto valuta con attenzione cosa lasciare a disposizione degli utenti del tuo sito Joomla. Se desideri escludere le pagine dalla navigazione richiedi una password d’accesso o rimuovi le pagine dal server. Uomo avvisato…

Autore:
Segue con passione l'evoluzione del CMS Joomla fin dall'inizio del 2006 e ama sperimentare tutte le tecnologie che contribuiscono a migliorare il web

Hai trovato utile questo articolo? Allora condividilo coi tuoi amici