Er jeg blevet blacklistet af Google?

Fra Roskilde

Tilmeldt 30. Jul 06

Indlæg ialt: 2298

Jesper Jørgensen Skrevet 10-03-2008 kl. 20:38

Hvor mange stjerner giver du? :

Hej Mikkel

Jeg har nyligt læst mig igennem "The Anatomy of a Large-Scale Hypertextual Web Search Engine" af Page og Brin tilbage fra 1998. Allerede dengang gjorde de det klart at PageRank ikke kunne stå alene:

Google considers each hit to be one of several different types (title, anchor, URL, plain text large font, plain text small font, ...), each of which has its own type-weight. The type-weights make up a vector indexed by type. Google counts the number of hits of each type in the hit list. Then every count is converted into a count-weight. Count-weights increase linearly with counts at first but quickly taper off so that more than a certain count will not help. We take the dot product of the vector of count-weights with the vector of type-weights to compute an IR score for the document. Finally, the IR score is combined with PageRank to give a final rank to the document. [page & Brin, 1998]

Så rigtigtnok er PageRank en del af indekset, men som det fremgår af ovenstående beregnede de allerede tilbage i 1998 en IR Score som inkluderede indgående links med det pågældende søgeord - hvilket jeg godt mener man kan kalde en "run-time linkpopularitet". Jeg skal ikke kunne afgøre om Teoma er bedre til det, men jeg mener Google har taget højde for det med denne IR Score, som naturligt nok er forbedret henad vejen.

Jeg synes mange (ikke nødvendigvis dig Mikkel) uberettiget beskylder Google for at have startet ud med en teknologi (PageRank) der hurtigt blev forældet og måtte forlades fordi den var utidsvarende. PageRank kan højst sandsynligt allerede tilbage i 1998 have haft en sekundær betydning i forhold til den runtime bestemte IR Score, ligesåvel som PageRank den dag i dag kan have en sekundær (eller tertiær) betydning på søgeresultaterne (som ikke nødvendigvis kan påvises ved reengineering).

Mvh Jesper

www.jpknive.dk

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9749

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 10-03-2008 kl. 20:57

Hvor mange stjerner giver du? :

> indgående links med det pågældende søgeord

Nej, det er misforstået. Den PageRank/linkpopularitets-værdi Google beregner i indekset er helt uafhængig af det som brugerne søger på - altså run-time. Det er en statisk værdi i indekset.

Problemet med det kan f.eks. eksemplificeres ved to aviser - den ene er den bedste, sådan overordnet set, men den anden har en bedre sportssektion. Den bedste avis har flest links. Problemet er så, at uanset hvordan man søger, så vil den avis med flest link score højest - i hvert fald i forhold til linkværdien/PageRank. Med Teoma's metode, der beregner de linkværdien i run-time, på basis af de relevante sites - og dermed ville den generelt dårligere avis, men med en bedre sportssektion, teoretisk set få en højere score på sportssøgninger.

Waimea Digital

Tilmeldt 8. Mar 08

Indlæg ialt: 183

Anders Runge Skrevet 10-03-2008 kl. 22:12

Hvor mange stjerner giver du? :

Hej Mikkel,

Jeg har aldrig påstået at Google har patent på PageRank algoritmen.

Patentet er registeret under Stanford med Larry Page som opfinder. Min pointe var blot at "Page" i algoritmens navn stammer fra Larry Pages efternavn, og derfor ikke skal oversættes som "siderangering".

Det skaber kun forviring, hvis folk smider om sig med fordanskede eller egne opfundende begreber.

Lidt for kreative SEO prøver konstant at forbedre deres PageRank(TM), og Google forsøger konstant at forhindre dette.

(Det er vist kun i SEO og revisions verdenen, at man kan blive beskyldt for at være for kreativ :-P)

Så naturligvis er der implementeret en del ændringer i forhold til den oprindelige algoritme.

Igen min pointe var blot at illustrere at PageRank(TM) udelukkende bliver beregnet ud fra et sites ind- og udgående links og deres PageRank(TM). I modsætning til Teoma, som også anvender indholdet af siderne der linkes fra til beregning af deres linkpopularitet.

Det blev nævnt tidligere i tråden, at man kunne forbedre sin PageRank(TM) ved at ændre sit content. Ved at ændre dit content kan du forbedre din placering ved en søgning, men ikke din PageRank(TM).

PageRank(TM) er gået fra at være facit til blot en mellemregning, hvilket nok også er hvorfor du kalder den for forældet.

PageRank(TM) er en indikator for, hvor godt Google mener du har lavet dit link arbejde.

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9749

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 10-03-2008 kl. 22:21

Hvor mange stjerner giver du? :

> Jeg har aldrig påstået at Google har patent på PageRank algoritmen
Sorry, det var ikke specielt henvendt til dig :)

> derfor ikke skal oversættes som "siderangering".
Helt enig!

> Lidt for kreative SEO prøver konstant at forbedre deres PageRank(TM), og Google forsøger konstant at forhindre dette.
Well, "lidt for kreative" SEO'ere gør også nogle gange det omvendte. Læs mere her om anti-linkbuilding :)

> Det er vist kun i SEO og revisions verdenen, at man kan blive beskyldt for at være for kreativ :-P)
Så har du ikke arbejdet indenfor det offentlige LOL

> I modsætning til Teoma, som også anvender indholdet af siderne der linkes fra til beregning af deres linkpopularitet.
Google anvender også indholdet fra de sider der linkes fra, og link-teksten, men forkskellen er, at de beregnes som en statisk værdi i Googles indeks, hvorimod Teoma beregninger på baggrund af den kollektion af sites de finder ved keyword-søgningen :)

> Ved at ændre dit content kan du forbedre din placering ved en søgning, men ikke din PageRank(TM).
Helt enig!

> PageRank(TM) er en indikator for, hvor godt Google mener du har lavet dit link arbejde.
Det største problem her er, at den data vi får er både meget unøjagtig og meget forsinket i forhold til den data Google faktisk har og anvender. Men som en indikator, sammen med andre indikatorer, kan det sagtens bruges.

Waimea Digital

Tilmeldt 8. Mar 08

Indlæg ialt: 183

Anders Runge Skrevet 11-03-2008 kl. 00:08

Hvor mange stjerner giver du? :

At ask.com vælger at implementere deres portal. Således at Teoma algoritmen køres runtime. Vil jeg ikke tilskrive Teoma algoritmen, men et arkitektur mæssigt valg.

I princippet kunne Google godt beregne både PageRank(TM) og IR Score runtime, og derved opbygge deres søgeresultat.

En runtime søgning må alt andet lige være tungere end en søgning baseret på cached og indexeret data.

Derfor ser man også at Google finder langt flere dokumenter ved en søgning end Ask.

En søgning på f.eks. PageRank giver på ask.com 2.600.000 hits, hvor google.com giver 121.000.000 hits.

Omvendt vil jeg på Ask kunne finde information, som endnu ikke er blevet crawlet af google.

Det er et arkitektur mæssigt valg.

Personligt bruger jeg begge search engines afhængigt af hvad jeg søger.

Fra Lyngby

Tilmeldt 26. Mar 05

Indlæg ialt: 9749

Mikkel deMib Svendsen Fra DEMIB HOLDINGS ApS Waimea Digital Skrevet 11-03-2008 kl. 00:11

Hvor mange stjerner giver du? :

Google laver masser af beregninger i run-time, bare ikke PageRank. Så det er ikke der skoen trykker. Og iøvrigt er det ikke det at det er run-time der gør forskellen, men måden det er det på. Og det har intet med størrelsen af Teomas indeks at gøre - de har bare altid haft et mere snævert fokus, der f.eks. ikke inkluderer lande som Danmark.

Waimea Digital

Fra Roskilde

Tilmeldt 30. Jul 06

Indlæg ialt: 2298

Jesper Jørgensen Skrevet 11-03-2008 kl. 11:03

Hvor mange stjerner giver du? :

ExpertRank, som Teoma/Ask nu kalder det, ser ud til at lide af samme type problem som PageRank. Der er mange ting der har betydeligt større indflydelse på en sides relevans, end de clusters af sites indenfor samme tema som linker til siden/domænet. Fx. vil inbound links med søgeordet i anker teksten være langt mere betydende for relevansen. Samtidig vil der ved naturligt opståede links være en meget høj korrelation mellem anker-tekst-relevante-links og links med høj ExpertRank. Hvis en søgemaskine i forvejen tager højde for anker-tekst-relevante-links, vil jeg defor vove den påstand at det ændrer meget lidt ved rankings hvorvidt man også inddrager ExpertRank. Af samme grund bør ExpertRank ikke vægte så meget i den samlede score, på samme måde som PageRank ikke bør gøre det hos Google.

Der hvor jeg ser den største fordel ved ExpertRank er at man kan straffe sites der måske har mange anker-tekst-relevante-links, men lille ExpertRank, da dette kan indikere at der er tale om SEO manipulerede sider hvor links er oprettet ukritisk hvor det har været muligt.

Faktum er vel at brugerne ikke har fundet Teomas algoritmer signifikant bedre end Googles. I Annual Search Engine Watch Report fra 2005 Har Google fået over 75% af stemmerne mens Ask Jeeves har fået ca 4% i kategorien "Outstanding Search Service". Og her snakker vi ikke her og fru Jones der er underlagt Googles markedsføring, men medlemmer af forummet der aktivt har vist en interesse for søgeteknologi.

Mvh Jesper

www.jpknive.dk

Tilmeldt 8. Mar 08

Indlæg ialt: 183

Anders Runge Skrevet 11-03-2008 kl. 12:55

Hvor mange stjerner giver du? :

De største forskelle mellem PageRank og Teoma (eller HITS som denne er baseret på) er :

1. Teomas beregninger bliver udført på query tidspunktet (og ikke ved indekseringen). Dette medføre naturligvis et performance hit. Til gændgæld vil dine data være mere "friske".

2. Teoma søger kun i en del mængde af 'relevante' dokumenter, hvor PageRank bliver beregnet på alle dokumenter i netværket.

3. Der beregnes i Teoma to værdier nemlig hub og authority. PageRank beregner kun en værdi nemlig hub.

Jeg høre mange sige at PageRank er forældet. PageRank bruges stadig, men den kan naturligvis ikke stå alene. Den skal understøttes af en algortime som beregner dokumentets authority.

Google bruger idag PageRank til at finde dokumentets hub værdi. Derudover bruger de IR til at finde dokumentets authority.

I sidste ende betyder det for dig som bruger, at ask.com levere mere "friske" søgeresultater baseret på en delmængde relevante dokumenter i netværket, hvor google.com levere cached/gamle søgresultater baseret på alle dokumenter i netværket.