Køb et Amino Sponsorlink
Se og prøv på www.søgekorrektur.dk
Orv, jeg ville frygtelig gerne have indsat nogle linjeskift. Det er lidt svært at læse.
Må jeg spørge hvordan du har lavet det?Den klassiske metode er jo at beregne en edit distance (evt. en Levenshtein distance!?) mellem det indtastede ord og ordene i dit index. Arbejdet ligger jo så i at begrænse antallet af sammenligninger. Der er også situationer hvor Soundex algoritmen eller Olivers algoritme er de rigtige at bruge.
Jeg laver det jævnligt selv, men jeg benytter oftest Solr (http://lucene.apache.org/solr/), hvor spellchecking følger med som et component og fungerer out of the box. Solr/Lucene er så kraftfuldt et værktøj at det, efter min mening, sjældent giver mening at arbejde i at gøre det bedre selv. Ikke dermed sagt at man ikke skal forbedre og patche Solr - det sætter vi alle pris på :)
Laver du nogen andre former for behandling af dine søgeord? Stemming eller lemmatization? Benytter du stopords-lister eller synonym-lister? Er din stavekontrol case-sensitive?Hvordan laver du stavekontrol ved queries der består af flere ord? Deler du strengen op i enkelte ord og kører din stavekontrol på den eller kører du den på hele strengen, lige meget hvor mange ord den består af? Hvis du deler strengen op, hvad deler du den så på?
Sorry hvis det er for mange spørgsmål, men information retrieval er et område jeg er meget interesseret i og både arbejder med til dagligt og hygger mig med i min fritid.
Hej Morten
Der fik jeg vist lige antændt en gnist i dig hva? Det er godt. Der er nogenting jeg gerne vil svare på, og nogen af dem, vil jeg gerne holde for mig selv. Jeg bruger ikke levenshtein - den er for tung. Soundex virker nærliggende, men det fungerer ikke rigtigt på dansk, da vi har ofte bruger stumme bogstaver.
Stemming på dansk er særdeles besværligt og kræver noget mere tid og data ved hånden, end jeg har fået. Dansk er et besværligt sprog. Som nævnt implementerede jeg det for nogle kunder og desværre har det ikke været økonomi eller tid til det. Olivers algoritme har jeg ikke læst om, så det vil jeg gerne vide mere om.
Kan vi ikke skrive privatbeskeder, hvis du er mere interesseret i det tekniske? ;-) Pt. vil jeg gerne have stillet mig egen nysgerrighed om hvorfor det er sådan et sjældent fænomen i Danmark.
Hej igenStemming på Dansk er nu ikke så slemt. Du kommer rigtig rigtig langt ved at bruge Snowball (http://snowball.tartarus.org/algorithms/danish/stemmer.html) og lemmatization ligger lige til højrebenet med Hunspell. Begge dele er open source, ligesom Solr og stort set alt hvad jeg ellers leger med :) Hvis de ikke kan klare dine behov, så er der stadig flere muligheder for at forbedre på resultaterne, men jeg har endnu ikke set nogen danske webshops der har haft behov for mere end det.
Mht. udbredelsen i Danmark, så er det faktisk også rigtig udbredt efterhånden. Virksomhedskulturen i DK er bare ikke til at dele sine tekniske landvindingerne alt for meget med andre. Webshops i fx. USA praler meget mere med deres tekniske kunnen.Hvis man vil gå et skridt længere end bare information retrieval, så er natural language processing og computational linguistics faktisk ved at blive buzzord i større virksomheder, selv i DK. Jeg bliver oftere og oftere kontaktet af både danske og udenlandske firmaer, som er interesserede i at forbedre deres søgninger eller har en interesse i det semantiske web.
Du har ret i at du tændte en gnist. Det fylder rigtig meget i min verden og det er noget jeg har en hel del erfaring med. Mht. at diskutere det tekniske, så behøver jeg ikke nogen detaljer. Hvis du har lyst til at snakke teknisk, så vil jeg gerne gøre det åbent, så alle kan drage fordel af de erfaringer vi har og kan benytte dem til at forbedre deres sites.
Interessant - hvilke virksomheder anvender det? Og jeg skal da lige høre, hvem arbejder du for?
Det er ikke min plads at "outte" de virksomheder der benytter de her teknologier. Hvis de vil fortælle verden om det, så må de selv gøre det.
Jeg arbejder fuldtids for Fynske Medier og må hellere slå fast at jeg IKKE laver konsulentarbejde for andre. Ikke at jeg tror at du er interesseret i det, men jeg vil bare gerne lige have det med i fald at min arbejdsgiver ser mine beskeder :) Fynske Medier er et bladhus og ejer og/eller driver en lang række websites.
Nå, så er du også selv lidt hemmelighedsfuld alligevel ;-) Respekt for det.
Jeg vil også gerne snakke om det tekniske - jeg tror bare ikke Amino er et passende forum at gøre det på, desværre.
Det er klar at nogen former for information retrievel ikke rigtig tåler offentlig udstilling, men stavekontrol på søgefunktion, synes jeg virker som meget aktuelt forbedring af brugeroplevelsen - særligt når konkurrencen for webshops er så tiltagende, som den er.
Det er nu ikke for at være hemmelighedsfuld, men hvis en virksomhed har valgt ikke at dele tekniske detaljer med omverdenen, så mener jeg at det ville være forkert af mig begynde at dele min viden om dem.
Det har du ret i. Men jeg vil da sige tak for dit input, er du Datalog eller hvor har du alle de goodies fra?