Meta Tag robots noindex per evitare pagine duplicate con WordPress

Semplice ma efficace esempio da utilizzare per impiegare l'attributo noindex nel metatag robots in wordpress, per impedire ai motori di ricerca di indicizzare pagine praticamente duplicate, come quelle delle categorie, dei tags, degli autori, ricerche, archivi, pagine non trovate
Codice da utilizzare per impiegare noindex in WordPress

Meta Tag robots noindex per evitare pagine duplicate con WordPress: con poco codice da inserire nel file functions.php del Child Theme.


Usando con criterio il <meta name="robots" content="noindex, follow" /> si evita di creare pagine duplicate, e potenzialmente penalizzanti.
Con WordPress è sufficiente aggiungere del codice nel file functions.php del Child Theme.
La considerazione dei meta tag da parte dei motori di ricerca, va sempre tenuta nella giusta considerazione.

Perché usare il meta tag robots

Quando un blog che funziona con WordPress inizia ad avere tanti articoli, potrebbero esserci parecchie categorie, o tags, e potrebbero essere considerate come pagine duplicate dai mdr.

Quindi potenzialmente penalizzanti, se considerate SPAM; un tentativo più o meno maldestro di creare a tutti i costi o quasi, più pagine nel sito sebbene abbiano lo stesso contenuto.

• Non esagerare con il numero di categorie è sempre e comunque importante.
A meno che non abbiano un concreto scopo di esserci, non creare una categorie, o un tag, che contiene solamente 1 o 2 articoli.

• Vale lo stesso discorso anche se utilizzi i tags: meglio qualcuno in meno, che in più, buttato li.

Un aspetto che può aiutare, è quello di creare del contenuto anche per le pagine delle categorie, indipendentemente dalla paginazione.

Il contenuto, la descrizione della categoria, ha un ruolo ben preciso, può funzionare come una sorta di landing page, in cui poi sono elencati tutti gli articoli presenti, come ovvio che sia.

A mio avviso, la pagina di una categoria, o tag, che ha del contenuto creato appositamente, non per fare volume, ha motivo logico di essere indicizzata; diversamente, no.

Quali pagine escludere

Nonostante WordPress sia ottimo e abbondante, non può essere pronto così com'è per rispondere a tutte le esigenze di ognuno.

Considera queste pagine:

• dei tag (senza contenuto);

• delle categorie (senza contenuto);

• degli autori;

• degli archivi (2014/10/ etc.);

• dei risultati della ricerca;

• degli articoli più vecchi quando si parte dalla home page (older posts, page/2/, etc.);

sia che contengano solo i titoli dei post, oppure titolo e descrizione, o l'excerpt (l'estratto), sono pagine duplicate, perché il loro contenuto è presente in ciascun post, quindi viene ripetuto negli archivi.

E tutte queste pagine, sostanzialmente sono archivi, che riprendono parti di contenuto delle pagine degli articoli.

Innanzitutto: non lasciare mai l'intero articolo presente in queste pagine.
Bastano il titolo, o se preferisci titolo e descrizione.

Meta Tag robots noindex per evitare pagine duplicate con WordPress: il codice da usare

Chiarito questo, è inutile far indicizzare ai motori pagine che contengono contenuti già presenti nelle pagine dei post, e potenzialmente potrebbe essere penalizzante.

L'evoluzione degli algoritmi di Google, si spinge a comprendere se una pagina sia duplicata con intenzioni SPAM, o se semplicemente appartiene ad un archivio: e il discorso cambia, e non poco.

Tuttavia, anche se Google è parecchio evoluto, diamogli comunque una mano, per fargli capire quali sono le pagine del nostro sito da indicizzare e quali no, con il codice qui sotto da inserire nel file functions.php del Child Theme.

function add_noindex() {
if ( is_404() || is_author() || is_date() || is_search() || is_category() || is_tag() || is_paged() ) {
echo '<meta name="robots" content="noindex,follow" />' . "\n";
}
}
add_action( 'wp_head', 'add_noindex' );

Cosa fa il codice del meta tag robots

Il codice sopra dà queste istruzioni al motore di ricerca, se la pagina è una di queste non deve essere indicizzata:

404 (pagina non trovata);

autori;

archivio con formato data;

risultati di ricerca (s=parola+chiave);

categorie;

tag;

paging (cioè page/2/, page/3/, etc.)

Il codice sopra, viene inserito tra i tag <head> e </head> del codice HTML il meta tag robots che specifica noindex (non indicizzare la pagina), follow (segui però i link presenti nella pagina).

• Sta a te valutare, in base a quanto contiene il tuo sito, se far indicizzare:

• le pagine delle categorie;

• dei tag;

• della paginazione di categorie e tag.

Nel tal caso, puoi usare questo codice, che ne permette l'indicizzazione:

function add_noindex() {
if ( is_404() || is_author() || is_date() || is_search() () ) {
echo '<meta name="robots" content="noindex,follow" />' . "\n";
}
}
add_action( 'wp_head', 'add_noindex' );

Con questo codice, non permetti l'indicizzazione delle pagine 404, autori, archivio date, risultati di ricerca, quindi tutte le altre, incluso categorie, tag e relativa paginazione, saranno indicizzate.

Facciamo capire chiaramente a Google e Bing, e agli altri motori, quali pagine non devono essere indicizzate, e quali sì.

Semplicemente perché hanno del contenuto, che è presente in quelle dei post, e quindi sarebbe inutile indicizzarle, pur permettendo di seguire i link degli articoli, in quanto dopo l'istruzione “noindex” viene inserita dopo la virgola quella del “follow”.

Viceversa, se fosse “nofollow” darebbe istruzione ai motori di non seguire nemmeno i link presenti, e non è quello che in questo caso serve al sito.

Quando il meta tag robots non è presente, le pagine vengono potenzialmente indicizzate, come se fosse presente in questo modo:

<meta name="robots" content="index,follow" />

Il codice sopra dà istruzione di indicizzare sia la pagina sia i link in essa presenti, è quanto accade quando non è inserita nessuna istruzione, quindi il meta tag robots ha motivo logico di essere utilizzato quando si ha necessità di non far indicizzare determinate pagine.

Personalizzare WordPress con poche semplici mosse

WordPress è un CMS completo, pronto da usare anche per chi non ne sa molto di HTML, PHP e programmazione in genere.

Non ha bisogno di nulla o quasi, è SEO friendly, ottimizzato per i motori di ricerca, gestisce il DataBase, dispone di tanti temi, plugin, il tutto gratuito: non è poco.

Con qualche piccolo accorgimento, è possibile rendere il sito ancora più in linea con le aspettative dei motori.

Una delle tante possibilità del CMS, è la semplicità di personalizzazione.

Ad ogni modifica apportata, controlla sempre il codice sorgente delle pagine, dal browser (tasto destro del mouse > Visualizza codice sorgente), perché è in questo modo che i motori di ricerca vedono le pagine del sito.

Quindi, se ha inserito il codice sopra, ora vai controllare come prima cosa le pagine dei post che devono essere indicizzate, quindi non deve essere presente l'istruzione “noindex,follow”.

Viceversa in tutte le pagine di archivio che hai escluso, deve risultare.

La pagina di documentazione di WordPress.