1) Mit forste spørgsmål er, burde alle sider med disse params ikke forsvinde fra Google når jeg har sat Parameterstyring til at ignore disse params?
Jo Google vil ikke indeksere sider som har cat, price eller sid i urlen.
Peter Lauge:
2) Eller i det mindste forsvinde når Google Bot ser min opdaterede robots.txt?
Ja Google vil fjerne siderne, men det vil tage tid for Google at fjerne dem, det er ikke noget der sker over night bare fordi Google har hentet din nye robots.txt fil.
Peter Lauge:
3) er der en nemmere måde at fjerne 100vis af URLer end at gøre det manuelt? :-)
Ja det gør der, men som jeg kan se det så er der ikke registreret så mange urler på Google med de params. så den manuelle måde er nu ikke så langsom at udføre.
Men ud over det, så ville jeg selv gøre det på en helt anden måde. jeg ville ikke bruge robots.txt til at blokerer for crawling, men i stedet ville jeg lave et dynamisk script som 301 redirectede alle gamle sider, med ovenstående params til eksempelvis forsiden eller til deres respektive urls hvis sådan en fandtes. på den måde finder Google ud af at siden er flyttet og den vil også blive fjerne fra Google. og samtidig bliver eventuel værdi overført til andre sider også.
Yderligere ville jeg ikke bruge Canonical URLs som en løsningsmodel, men som et yderligere værktøj til sikring mod DC. Jeg ville først og fremmest fjerne kilden til problemet, og lave yderligere sikring på forskellige punkter.
Men ellers kan du jo bare gøre det via webmaster tools, og fjerne hver enkelt url via den. der er ikke så mange som skal fjernes som jeg ser det.
Det er mere end 2 måneder siden jeg ændrede min robots og lavede ændringerne i Webmaster tools. Derfor forstod jeg ikke hvorfor der ikke skette noget.
Jeg vil prøve din version med at åbne op i robots og lave ændringerne i .htaccess.
Det er ikke så mange DC URLer tilbage igen. Men de kommer ikke allesammen frem i samme søgninger. Hvis jeg søger lidt forskelligt i Google kommer der nogle flere frem - hvirlket er underligt.
Ja Google vil fjerne siderne, men det vil tage tid for Google at fjerne dem, det er ikke noget der sker over night bare fordi Google har hentet din nye robots.txt fil.
Det er desværre en meget almindelige misforståelse - robots.txt (eller META-robots) er ikke en ekskluderings-protokol, men alene en protokol der fortæller søgemaskinerne at de ikke skal crawle siden.
Således kan søgemaskinerne godt finde på, at indeksere sider de de slet ikke har crawlet, og hvis de først har crawlet dem er det langt fra sikkert de fjernes igen bare fordi du "ekskluderer" dem med robots.txt.
Hvis du VIL have siderne fjernet skal du derfor enten manuelt gøre det via webmaster tools, eller udstede en 410 på siderne (kan også bruge 404 men 410 er hurtigere).
Det er desværre en meget almindelige misforståelse - robots.txt (eller META-robots) er ikke en ekskluderings-protokol, men alene en protokol der fortæller søgemaskinerne at de ikke skal crawle siden.
Jeg vil så sige at hver gang jeg har testet med robots.txt, så har Google selv fjernet urlerne fra deres indeks. omend det tager tid som jeg også skriver. Så jeg kan ikke rigtig se hvor misforståelsen ligger henne. Du har dine erfaringer og jeg har mine erfaringer.
@Peter
Som sagt tager det tid for Google at fjerne urlerne fra deres indeks hvis ikke man gør andet end at blokerer for crawling i robots.txt., fx i form af at fjerne urlerne manuelt via webmaster tools. derfor kan der sagtens gå mere end 2 måneder. og det er også derfor jeg anbefaler at du gør noget andet.
Jeg testede min løsningsmodel/anbefaling for nogle måneder siden, og den virker ret hurtigt alligevel, jeg testede med 80 urler, disse urler blev fjernet i løbet af 26 dage, uden at jeg gjorde andet end at 301 redirecte dem til deres respektive urler. og samtidig bliver eventuel værdi også overført til de nye urler. hastigheden hvorpå urler bliver fjernet kommer an på rigtig mange ting, men generelt tager det ikke så lang tid med den løsning.
Så jeg kan ikke rigtig se hvor misforståelsen ligger henne. Du har dine erfaringer og jeg har mine erfaringer.
Det er ikke et spørgsmål om erfaring - men et spørgsmål om, hvad den pågældende protokol rent faktisk understøtter. Og det ER altså ikke en ekskluderingsprotokol - like it or not.
Særligt Google indekserer MEGET store mængder sider, som de aldrig har crawlet - alene på baggrund af links. De sidste estimater jeg så pegede på, at op imod 1/3-del til halvdelen af hele Googles indeks er sider de aldrig har crawlet.
Det er ikke et spørgsmål om erfaring - men et spørgsmål om, hvad den pågældende protokol rent faktisk understøtter. Og det ER altså ikke en ekskluderingsprotokol - like it or not.
uanset hvad så ændre det ikke på at det har virket i de tests jeg har lavet.
Særligt Google indekserer MEGET store mængder sider, som de aldrig har crawlet - alene på baggrund af links. De sidste estimater jeg så pegede på, at op imod 1/3-del til halvdelen af hele Googles indeks er sider de aldrig har crawlet.
tror jeg måske har forstået det du prøver at sige.
Det du siger er at hvis en side er blevet indekseret uden at have været crawlet, så vil man få besvær med at få Google til at fjerne urlerne fra deres indeks kun ved brug af robots.txt
Mens hvis Google har crawlet. så kan det godt lade sig gøre.
det stemmer nemlig overens med at det har virket for mig, da de sider som er blevet fjernet i mine tests har været crawlet.