Robots.txt

Il file con le regole per i crawler dei motori di ricerca

Provider

04 Novembre 2022 - Lorenzo Conconi

Premessa

Il file robots.txt è un oggetto utilizzato per fornire delle macro indicazioni ai motori di ricerca.

Inizio

La funzione di questo articolo non è quella di offrire indicazioni su come scrivere un file robots.txt ma di segnalare ai clienti un sistema di valutazione del lavoro svolto dal Web Master che sta gestendo il loro sito internet.

Motore di ricerca

Se il nostro sito internet riceve un numero di visite sufficiente a supportare la nostra attività, direi che è inutile porsi troppi problemi. Questo vuol dire che il nostro Web Master ha fatto un buon lavoro e quindi gode della nostra fiducia. In caso contrario, se riteniamo che sia il caso di analizzare sulle cause di uno scarso traffico, dobbiamo per forza fare uno sforzo per capire i principali oggetti tecnici che si occupano di comunicare informazioni al motore di ricerca.

File di testo

Il file robots.txt è un normale file di testo che deve essere presente nella cartella principale del nostro sito. Il contenuto di questo file è formato esclusivamente da alcune semplici regole che devono essere lette da un crawler (meglio conosciuto come spider o robot: è il software di un motore di ricerca che ha la funzione di analizzare tutti i siti presenti in internet ed indicizzarli nel miglior modo possibile).

Regole

Robots.txt non può assolutamente avere altri nomi e quindi deve essere unico e posizionato nella cartella principale del sito internet. Il file deve utilizzare la codifica UTF-8 che comprende il codice ASCII. In caso contrario, le regole potrebbero essere invalidate.

Contenuto

User-agent: è il nome del crawler a cui sono riferite le successive istruzioni, se è indicato un asterisco, vuol dire che le regole valgono per tutti i crawler. Questa regola è obbligatoria. Allow: indica tutti i percorsi, o singole pagine, autorizzati. Se non indicato, vuol dire che il crawler non ha nessuna limitazione in quanto il comportamento predefinito è quello di avere il permesso di accedere a tutte le pagine di un sito. Disallow: indica tutti i percorsi o singole pagine non autorizzati. I persorsi devono terminare con '/' mentre i nomi delle pagine devono essere completi (come indicato nel browser). Sitemap: questa regola non è necessaria ma indica dove si trova la sitemap del nostro sito internet.

Verifica

In base alle indicazioni fornite, è possibile verificare la presenza ed il contenuto del file robots.txt digitando sul browswer: nomedelsitoconestensione/robots.txt. Per esempio, per controllare il mio sito, si può scrivere: lorenzoconconi.com/robots.txt Per quanto riguarda il mio file robots, ho disabilitato l'accesso a tutte le directory tecniche in quanto il contenuto non è importante per un motore di ricerca. Ho disabilitato anche l'accesso ad alcune singole pagine perchè la mia strategia SEO è mirata al contenuto del mio Blog e quindi evito di far analizzare le pagine che ritengo meno importanti.

Conclusione

Il file robots.txt contiene le regole necessarie ad un crawler per analizzare il nostro sito internet. E' indispensabile solo se abbiamo la necessità di essere visibili ad un motore di ricerca e quindi per essere indicizzati nel miglior modo possibile.

Lorenzo Conconi

Questo Blog serve per presentare la mia attività di analista programmatore su internet e su SAP, i miei hobbies (mi piace suonare la chitarra) e fornire alcune informazioni sui luoghi in cui ho trascorso le vacanze.