Individuare i contenuti duplicati

I contenuti duplicati sono un grosso problema per la SEO, ma come facciamo a individuarli?

Come è possibile individuare i contenuti duplicati?

Esistono diverse tecniche; quelle che noi consigliamo sono le seguenti:

  • Copyscape (copyscape.com): è un tool gratuito che ci permette di vedere se il contenuto di una pagina web è presente anche in altre pagine o documenti sul web; utilizzando la versione a pagamento, si ha la possibilità di sfruttare strumenti avanzati e di monitorare in maniera automatica i contenuti di un determinato sito web;
  • Virante (http://www.virante.com/seo-tools/duplicate-content): effettua un’analisi di contenuti duplicati sul proprio sito web;
  • Plagium (plagium.com): basta inserire il testo del documento per vedere se esso è stato utilizzato in rete;
  • Plagiarisma (http://plagiarisma.net): possiamo scegliere se inserire l’URL o il corpo del documento per verificare se vi sono state copie dei nostri contenuti;
  • Duplichecker (duplichecker.com): offre all’utente innumerevoli funzioni di ottimizzazione per la verifica dei contenuti duplicati;
  • sfruttare i motori di ricerca: è sufficiente inserire una parte del testo, di cui vogliamo verificare la provenienza, tra virgolette (per esempio, “la nostra azienda DN Levat produce gru“) per vedere se è stato utilizzato in rete da altri siti web;
  • vedere su Search Console la presenza di segnalazioni di title duplicati (potrebbe essere un campanello di allarme iniziale);
  • utilizzare il software Xenu e lavorare con i filtri di Excel per individuare la presenza di testo duplicato o di URL “doppi”.

Infine, per proteggere i propri contenuti è sempre opportuno pubblicarli sotto una specifica licenza. Per esempio, la più utilizzata sul web è la Creative Commons.

Come possiamo evitare i contenuti duplicati?

Per evitare i contenuti duplicati ci sono diverse tecniche; cercheremo di mostrare quelle che, secondo noi, hanno maggiore rilevanza:

  • usare il file robots.txt o il metatag <meta name=”robots” content=”noindex”> per escludere pagine o documenti che potrebbero risultare duplicati, o sfruttare opportunamente il re=”canonical”
  • utilizzare in modo coerente gli URL: come già illustrato, URL con caratteri maiuscoli e minuscoli, che portano a una medesima pagina, possono essere interpretati in maniera errata;
  • implementare la tecnica del tag canonical, che ci permette di comunicare allo spider del motore di ricerca quale degli URL che puntano a un contenuto duplicato deve essere indicizzato;
  • sfruttare la GSC per verificare la presenza di possibili contenuti duplicati provenienti da siti non collegati al nostro o per verificare i suggerimenti forniti da Google;
  • nel caso di spostamento di una pagina, usare il redirect 301;
  • in situazioni in cui vogliamo rimuovere definitivamente un URL precedentemente indicizzato, utilizzare gli strumenti messi a disposizione dai rispettivi motori di ricerca;
  • nel caso si utilizzino blog o CMS, verificare che non vengano archiviati in maniera errata i post o che non si generino contenuti complicati;
  • nel caso di violazione di copyright, possiamo segnalarla a Google dal seguente link: http://www.google.it/dmca.html.

Ora che abbiamo ben chiari i principi che regolamentano i contenuti duplicati e le tecniche per evitarli, saremo più consapevoli delle nostre azioni sul web.

All’interno di DeepSEO ci sono tantissime lezioni dedicate alla scrittura dei contenuti in ottica SEO