Den måde du kan finde ud af hvad nøjagtigt at undersider Google ser som duplicate content, eller knap så relevant, er ved at lave en sammenholdning af de indekserede sider i Google og dine samlede sider online.
Et værktøj som f.eks. Xenu kan spider din side og lave en oversigt over alle online sider, som du kan sammenholde med et dump af en site:ditdomane.dk i Google.
Til at dumpe med fra Googles indeks, kan du f.eks. anvende Mozbar.
I et excel ark kan du indsætte begge datakilder og fjerne dupletter, herefter har du en oversigt over de sider, som er online, men som ikke er i Googles indeks pt.
Omkring intern duplicate content, er Google Webmaster Tools faktisk meget nyttigt. Under søgeudseende, kan du under Html forbedringer få indsigt i om sider f.eks. vises med både / og uden eller også f.eks. .html, ja eller om der er to ens versioner. Her er det dog kun title og beskrivelse, der sorteres efter og ikke selve content. Der skal du over i Copyscape for at studere den slags nærmere.