Udfordringer ved at fjerne Duplicate Content

Fra Helsingør

Tilmeldt 23. Nov 06

Indlæg ialt: 992

Peter Lauge Fra Hvorfor kan man ikke slette sin virksomhed fra Indeks? Skrevet 18-06-2010 kl. 21:47

Hvor mange stjerner giver du? :

Hejsa,

Jeg kæmper med at få fjernet duplicate content på www.esprezzo..dk som er en dejlig Magento shop.

Jeg har i min robots.txt skrævet følgende:

Disallow:   *cat=*
Disallow:   *price=*
Disallow:   *SID=*

og under Google Webmasterværktøjer sat Google til at se bort for disse 3 params.

Men jeg bliver ved med at finde DC URLer og der er rigtig mange.

1) Mit forste spørgsmål er, burde alle sider med disse params ikke forsvinde fra Google når jeg har sat Parameterstyring til at ignore disse params?

2) Eller i det mindste forsvinde når Google Bot ser min opdaterede robots.txt?

3) er der en nemmere måde at fjerne 100vis af URLer end at gøre det manuelt? :-)

På forhånd tak!

Dataetik og AI

Fra København

Tilmeldt 14. Jan 08

Indlæg ialt: 312

Thomas Jakobsen Skrevet 19-06-2010 kl. 07:04

Hvor mange stjerner giver du? :

Mon ikke det kanoniske tag kan hjælpe dig med det meste af dine DC problemer?

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 19-06-2010 kl. 09:13

Hvor mange stjerner giver du? :

Peter Lauge:
1) Mit forste spørgsmål er, burde alle sider med disse params ikke forsvinde fra Google når jeg har sat Parameterstyring til at ignore disse params?

Jo Google vil ikke indeksere sider som har cat, price eller sid i urlen.

Peter Lauge:
2) Eller i det mindste forsvinde når Google Bot ser min opdaterede robots.txt?

Ja Google vil fjerne siderne, men det vil tage tid for Google at fjerne dem, det er ikke noget der sker over night bare fordi Google har hentet din nye robots.txt fil.

Peter Lauge:

3) er der en nemmere måde at fjerne 100vis af URLer end at gøre det manuelt? :-)

Ja det gør der, men som jeg kan se det så er der ikke registreret så mange urler på Google med de params. så den manuelle måde er nu ikke så langsom at udføre.

Men ud over det, så ville jeg selv gøre det på en helt anden måde. jeg ville ikke bruge robots.txt til at blokerer for crawling, men i stedet ville jeg lave et dynamisk script som 301 redirectede alle gamle sider, med ovenstående params til eksempelvis forsiden eller til deres respektive urls hvis sådan en fandtes. på den måde finder Google ud af at siden er flyttet og den vil også blive fjerne fra Google. og samtidig bliver eventuel værdi overført til andre sider også.

Yderligere ville jeg ikke bruge Canonical URLs som en løsningsmodel, men som et yderligere værktøj til sikring mod DC. Jeg ville først og fremmest fjerne kilden til problemet, og lave yderligere sikring på forskellige punkter.

Men ellers kan du jo bare gøre det via webmaster tools, og fjerne hver enkelt url via den. der er ikke så mange som skal fjernes som jeg ser det.

MVH Kim

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd

Fra Helsingør

Tilmeldt 23. Nov 06

Indlæg ialt: 992

Peter Lauge Fra Hvorfor kan man ikke slette sin virksomhed fra Indeks? Skrevet 19-06-2010 kl. 09:23

Hvor mange stjerner giver du? :

@Kim: Tak for svar.

Det er mere end 2 måneder siden jeg ændrede min robots og lavede ændringerne i Webmaster tools. Derfor forstod jeg ikke hvorfor der ikke skette noget.

Jeg vil prøve din version med at åbne op i robots og lave ændringerne i .htaccess.

Det er ikke så mange DC URLer tilbage igen. Men de kommer ikke allesammen frem i samme søgninger. Hvis jeg søger lidt forskelligt i Google kommer der nogle flere frem - hvirlket er underligt.

Nå men tak :-)

Dataetik og AI

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9740

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 19-06-2010 kl. 09:43

Hvor mange stjerner giver du? :

KTJ-Media.dk:
Ja Google vil fjerne siderne, men det vil tage tid for Google at fjerne dem, det er ikke noget der sker over night bare fordi Google har hentet din nye robots.txt fil.

Det er desværre en meget almindelige misforståelse - robots.txt (eller META-robots) er ikke en ekskluderings-protokol, men alene en protokol der fortæller søgemaskinerne at de ikke skal crawle siden.

Således kan søgemaskinerne godt finde på, at indeksere sider de de slet ikke har crawlet, og hvis de først har crawlet dem er det langt fra sikkert de fjernes igen bare fordi du "ekskluderer" dem med robots.txt.

Hvis du VIL have siderne fjernet skal du derfor enten manuelt gøre det via webmaster tools, eller udstede en 410 på siderne (kan også bruge 404 men 410 er hurtigere).

Waimea Digital

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 19-06-2010 kl. 10:33

Hvor mange stjerner giver du? :

Mikkel deMib Svendsen:
Det er desværre en meget almindelige misforståelse - robots.txt (eller META-robots) er ikke en ekskluderings-protokol, men alene en protokol der fortæller søgemaskinerne at de ikke skal crawle siden.

Jeg vil så sige at hver gang jeg har testet med robots.txt, så har Google selv fjernet urlerne fra deres indeks. omend det tager tid som jeg også skriver. Så jeg kan ikke rigtig se hvor misforståelsen ligger henne. Du har dine erfaringer og jeg har mine erfaringer.

@Peter

Som sagt tager det tid for Google at fjerne urlerne fra deres indeks hvis ikke man gør andet end at blokerer for crawling i robots.txt., fx i form af at fjerne urlerne manuelt via webmaster tools. derfor kan der sagtens gå mere end 2 måneder. og det er også derfor jeg anbefaler at du gør noget andet.

Jeg testede min løsningsmodel/anbefaling for nogle måneder siden, og den virker ret hurtigt alligevel, jeg testede med 80 urler, disse urler blev fjernet i løbet af 26 dage, uden at jeg gjorde andet end at 301 redirecte dem til deres respektive urler. og samtidig bliver eventuel værdi også overført til de nye urler. hastigheden hvorpå urler bliver fjernet kommer an på rigtig mange ting, men generelt tager det ikke så lang tid med den løsning.

MVH Kim

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9740

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 19-06-2010 kl. 10:43

Hvor mange stjerner giver du? :

Gennemsnit 4,0 stjerner givet af 4 person

KTJ-Media.dk:
Så jeg kan ikke rigtig se hvor misforståelsen ligger henne. Du har dine erfaringer og jeg har mine erfaringer.

Det er ikke et spørgsmål om erfaring - men et spørgsmål om, hvad den pågældende protokol rent faktisk understøtter. Og det ER altså ikke en ekskluderingsprotokol - like it or not.

Særligt Google indekserer MEGET store mængder sider, som de aldrig har crawlet - alene på baggrund af links. De sidste estimater jeg så pegede på, at op imod 1/3-del til halvdelen af hele Googles indeks er sider de aldrig har crawlet.

Waimea Digital

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 19-06-2010 kl. 10:50

Hvor mange stjerner giver du? :

Gennemsnit 5,0 stjerner givet af 1 person

Mikkel deMib Svendsen:

Det er ikke et spørgsmål om erfaring - men et spørgsmål om, hvad den pågældende protokol rent faktisk understøtter. Og det ER altså ikke en ekskluderingsprotokol - like it or not.

uanset hvad så ændre det ikke på at det har virket i de tests jeg har lavet.

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd

Fra Helsingborg

Tilmeldt 3. Apr 05

Indlæg ialt: 6571

Niels Henriksen Fra TextReactor Skrevet 19-06-2010 kl. 10:59

Hvor mange stjerner giver du? :

Mikkel deMib Svendsen:
De sidste estimater jeg så pegede på, at op imod 1/3-del til halvdelen af hele Googles indeks er sider de aldrig har crawlet.

Skal lige have det ned på mit niveau.... dvs. de indekser dem på de links der er til de sider?

Jeg har programmeret i over 27 år. Jeg har kodet i C, C++, Java, Delphi, Perl, JavaScript, C#, F#, VB.NET, ASP, Myresnak :D, Comal80 osv....

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 19-06-2010 kl. 11:24

Hvor mange stjerner giver du? :

Mikkel deMib Svendsen:
Særligt Google indekserer MEGET store mængder sider, som de aldrig har crawlet - alene på baggrund af links. De sidste estimater jeg så pegede på, at op imod 1/3-del til halvdelen af hele Googles indeks er sider de aldrig har crawlet.

tror jeg måske har forstået det du prøver at sige.

Det du siger er at hvis en side er blevet indekseret uden at have været crawlet, så vil man få besvær med at få Google til at fjerne urlerne fra deres indeks kun ved brug af robots.txt

Mens hvis Google har crawlet. så kan det godt lade sig gøre.

det stemmer nemlig overens med at det har virket for mig, da de sider som er blevet fjernet i mine tests har været crawlet.

MVH Kim

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd