Udfordringer ved at fjerne Duplicate Content

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9740

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 19-06-2010 kl. 22:06

Hvor mange stjerner giver du? :

KTJ-Media.dk:

Det du siger er at hvis en side er blevet indekseret uden at have været crawlet, så vil man få besvær med at få Google til at fjerne urlerne fra deres indeks kun ved brug af robots.txt

Mens hvis Google har crawlet. så kan det godt lade sig gøre.

Nej, det er sådan set samme sag i begge situationer. Robots.txt og META-robots er ikke en standard der fortæller søgemaskinerne om de skal INDEKSERE en side, men om de skal CRAWLE den :)

Det er så ikke altid, at søgemaskinerne vælger at beholde sider i deres indeks, som de ikke må crawle. Det afhænger bl.a. af hvor mange andre der linker til siden. Er der mange dropper de den ofte ikke. Er der ingen er det min oplevelse at der lidt oftere sker. Men du kan aldrig være sikker.

Hvis du vil være sikker på at de fjerner siden, skal du enten 301 redirecte den, returnere en 404 (410 hvis det skal gå hurtigere), eller ekskludere siden via webmastertools. Det sidste er det der slår igennem hurtigst, men skal så gøres side for side, eller directory for directory.

Waimea Digital

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 19-06-2010 kl. 23:10

Hvor mange stjerner giver du? :

Mikkel deMib Svendsen:
Nej, det er sådan set samme sag i begge situationer. Robots.txt og META-robots er ikke en standard der fortæller søgemaskinerne om de skal INDEKSERE en side, men om de skal CRAWLE den :)

I know... på det punkt modsiger jeg dig ikke.

Mikkel deMib Svendsen:
Det er så ikke altid, at søgemaskinerne vælger at beholde sider i deres indeks, som de ikke må crawle. Det afhænger bl.a. af hvor mange andre der linker til siden. Er der mange dropper de den ofte ikke. Er der ingen er det min oplevelse at der lidt oftere sker. Men du kan aldrig være sikker.

Så siger du egentlig også dér, at jeg har delvist ret i at sider bliver fjernet fra Googles indeks, omend det går meget langsomt, så sker det. Så jeg kan ikke rigtig se hvad denne diskution skulle til for. Du siger det samme som jeg. Den eneste forskel er at du har en anden oplevelse af hvor meget Google fjerner, mens at stort set hver gang jeg har testet ved kun at bruge robots.txt, har fået fjernet siderne fra googles indeks, og dermed har jeg en anden oplevelse.

Mikkel deMib Svendsen:
Hvis du vil være sikker på at de fjerner siden, skal du enten 301 redirecte den, returnere en 404 (410 hvis det skal gå hurtigere), eller ekskludere siden via webmastertools. Det sidste er det der slår igennem hurtigst, men skal så gøres side for side, eller directory for directory.

Hæ.. Du behøver ikke fortælle mig hvordan man bedst får fjernet urls fra Googles indeks. læser du min første post, vil du der kunne se hvad det er jeg skriver jeg ville gøre. Og det er stort set det samme som du skriver her. :)

MVH Kim

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9740

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 19-06-2010 kl. 23:48

Hvor mange stjerner giver du? :

KTJ-Media.dk:
I know... på det punkt modsiger jeg dig ikke.

Så er det bare mig der ikke kan læse, for du skriver da tidligere i tråden ...

"Jo Google vil ikke indeksere sider som har cat, price eller sid i urlen. "

og

"Google vil fjerne siderne, men det vil tage tid for Google at fjerne dem, det er ikke noget der sker over night bare fordi Google har hentet din nye robots.txt fil."

Du blander crawling og indeksering sammen. Det du udelukker med robots.txt og META-robots er crawling - ikke indeksering.

Du kan således ikke så entydigt påstå, at "Google vil fjerne siderne ..." når det faktisk ikke er sikkert de gør det blot ved brug af robots.txt eller META-robots.

Og det er lige præcis DET som er vigtigt for folk at forstå.

Waimea Digital

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 20-06-2010 kl. 01:35

Hvor mange stjerner giver du? :

igen, du har din opfattelse/erfaring og jeg har min opfattelse/erfaring.

Jeg har ikke oplevet at Google har indekseret en side, når jeg via robots.txt har blokeret for crawling. Dermed er min opfattelse også at man samtidig blokerer for indeksering.

Og det passer jo ikke at man med meta-robots blokerer for crawling, da Google skal crawle siden for at kunne se meta-robots tagget. ;)

Mikkel deMib Svendsen:
Du kan således ikke så entydigt påstå, at "Google vil fjerne siderne ..." når det faktisk ikke er sikkert de gør det blot ved brug af robots.txt eller META-robots.

Nej entydigt nok ikke, men når det for mig 99% af gangene har virket i mine tests. og igen siger jeg det tager tid, men det har virket. så er det for mig stort set det samme som et entydigt ja. Men igen det er ikke det samme som at jeg anbefaler den metode.

MVH Kim

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9740

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 20-06-2010 kl. 01:54

Hvor mange stjerner giver du? :

Det er ganske kort tid siden, at jeg havde en endnu kunde, der måtte bruge en masse penge, bekymringer og tid på at få rettet op på nogle alvorlige problemer netop fordi hun havde fulgt "gode råd" om robots.txt magen til dine i et forum som dette. Det synes jeg er ærgeligt. Det vil jeg gerne bidrage til, at andre kan undgå.

Jeg synes derfor det er lidt ærgeligt, at du så vedholdende ønsker at fastholde nogle faktuelt forkerte fortolkninger af, hvordan disse protokoller virker. Det kan kun skade - ikke gavne. Så jeg forstår ikke helt pointen ...

Nå, men jeg håber bare, at de Aminoer, der læser denne tråd har tillid til at jeg ved hvad jeg snakker om, når jeg beskriver hvordan robots.txt og META-robots virker - og hvordan det ikke virker.

Waimea Digital

Fra Holbæk

Tilmeldt 7. Apr 06

Indlæg ialt: 561

Jakob Søndergård Skrevet 20-06-2010 kl. 02:22

Hvor mange stjerner giver du? :

Gennemsnit 5,0 stjerner givet af 1 person

Lige for at komplicere tingene yderligere, så er jeg uenig med jer begge. Det er ganske rigtigt som Mikkel siger, at disallow i robots.txt ikke betyder noindex, det betyder bare "don't crawl". URL'en kan sagtens optræde i Googles indeks alligevel, hvis andre linker til den.

Men med metatagget derimod, betyder noindex faktisk "don't index" og Google opfatter det som sådan. Det er hvad jeg har oplevet, det er hvad jeg kan læse andre har oplevet og det er i øvrigt hvad Google selv fortæller.

Robots.txt - http://www.google.com/support/webmasters/bin/answer.py?answer=156449

Metatagget - http://www.google.com/support/webmasters/bin/answer.py?answer=93710

Det sjove er så, at hvis du har et metatag med "noindex" og samtidigt har en disallow i din robots.txt, så vil Google aldrig opdage dit "noindex" fordi disallow forhindrer den i det, hvilket kan være med til yderligere forvirring - og man kan komme til at tro at "noindex" heller ikke virker.

Fra Pompano Beach, Florida, USA

Tilmeldt 19. Apr 06

Indlæg ialt: 3762

Thomas Rosenstand Fra Concept Interest TCON Services LLC Skrevet 20-06-2010 kl. 04:48

Hvor mange stjerner giver du? :

Gennemsnit 4,2 stjerner givet af 5 person

Det er Mikkel, der har ret her. Og hvis han har uret, har Google det også ;-)

Søgemaskineoptimering der virker

Fra København S

Tilmeldt 1. Feb 06

Indlæg ialt: 3534

Kim Tetzlaff - Kim Tetzlaff ApS Fra Kim Tetzlaff ApS Kim Tetzlaff Ejendom Skrevet 20-06-2010 kl. 08:04

Hvor mange stjerner giver du? :

Gennemsnit 5,0 stjerner givet af 1 person

Mikkel deMib Svendsen:

Det er ganske kort tid siden, at jeg havde en endnu kunde, der måtte bruge en masse penge, bekymringer og tid på at få rettet op på nogle alvorlige problemer netop fordi hun havde fulgt "gode råd" om robots.txt magen til dine i et forum som dette. Det synes jeg er ærgeligt. Det vil jeg gerne bidrage til, at andre kan undgå.

Jeg synes derfor det er lidt ærgeligt, at du så vedholdende ønsker at fastholde nogle faktuelt forkerte fortolkninger af, hvordan disse protokoller virker. Det kan kun skade - ikke gavne. Så jeg forstår ikke helt pointen ...

Det der er sjovt er at du stadig ikke kan se at det ikke er et råd jeg giver og at det ikke er en fortolkning. Men en opfattelse som bygger på tests. Uanset om Google, du, rosenstand eller andre siger at det jeg siger ikke passer, så er det fakta at det stadig har virket at få fjernet indhold fra Google i de tests jeg har lavet. Og dette kan ingen af jer modsige. Men jeg har stadig ikke givet det som et råd.

Det her er mit råd, som jeg også har skrevet en del gange nu og henvist til en del gange, men det læser du jo udenom.

KTJ-Media.dk:
Men ud over det, så ville jeg selv gøre det på en helt anden måde. jeg ville ikke bruge robots.txt til at blokerer for crawling, men i stedet ville jeg lave et dynamisk script som 301 redirectede alle gamle sider, med ovenstående params til eksempelvis forsiden eller til deres respektive urls hvis sådan en fandtes. på den måde finder Google ud af at siden er flyttet og den vil også blive fjerne fra Google. og samtidig bliver eventuel værdi overført til andre sider også.

Yderligere ville jeg ikke bruge Canonical URLs som en løsningsmodel, men som et yderligere værktøj til sikring mod DC. Jeg ville først og fremmest fjerne kilden til problemet, og lave yderligere sikring på forskellige punkter.

Men ellers kan du jo bare gøre det via webmaster tools, og fjerne hver enkelt url via den. der er ikke så mange som skal fjernes som jeg ser det.

Det der så er endnu sjovere er at du let og elegant hopper over, det at jeg skriver at du er forkert på den når du siger at meta-robots er en standard der fortæller at søgemaskiner ikke må crawle siden. For det passer simpelthen ikke, både fordi Google rent logisk skal crawle siden for at kunne se meta-robots tagget og samtidig hvis du nu fx læser din egen bog, så skriver du også der at siden vil blive crawlet. Der er vidst noget som ikke helt hænger sammen her. Wink

Thomas Rosenstand:

Det er Mikkel, der har ret her. Og hvis han har uret, har Google det også ;-)

Hvorfor råder du folk til at blokerer for indeksering via robots.txt, hvis det mikkel siger er korrekt? du råder jo ligefrem folk til det. Igen siger jeg at jeg ikke har givet det råd.

MVH Kim

Kim Tetzlaff

🚀 Hastighedsekspert ⚙️WordPress hjemmesider 🎯SEO
Siden 1995 - hjemmeside Udvikling og teknisk optimering af hjemmesider
👉 Mere om mig

Hastighedsekspert og wordpress nørd

Fra Holbæk

Tilmeldt 7. Apr 06

Indlæg ialt: 561

Jakob Søndergård Skrevet 20-06-2010 kl. 10:57

Hvor mange stjerner giver du? :

Thomas Rosenstand:

Det er Mikkel, der har ret her. Og hvis han har uret, har Google det også ;-)

Din video fortæller præcis det samme som jeg skrev. At Mikkel har ret hvad angår robots.txt men tager fejl hvad angår metatagget. Det er godt I kan bakke hinanden op... Wink

Fra Pompano Beach, Florida, USA

Tilmeldt 19. Apr 06

Indlæg ialt: 3762

Thomas Rosenstand Fra Concept Interest TCON Services LLC Skrevet 20-06-2010 kl. 15:54

Hvor mange stjerner giver du? :

KTJ-Media.dk:
Hvorfor råder du folk til at blokerer for indeksering via robots.txt, hvis det mikkel siger er korrekt? du råder jo ligefrem folk til det. Igen siger jeg at jeg ikke har givet det råd.

Jeg råder til det, når der ikke er andre muligheder - som f.eks. på en DanDomain shop. I min verden er det altid bedre at undgå et problem end at reparere det - men jeg er sørme også tilhænger af at sætte et plaster på, hvis man har skåret sig. Jeg håber, du kan forstå det nu?

Søgemaskineoptimering der virker