Hov. Du er ikke logget ind.
DU SKAL VÆRE LOGGET IND, FOR AT INTERAGERE PÅ DENNE SIDE

Har i stavekontrol på søgefunktionen / Søgekorrektur / "Mente du"?

Side 1 ud af 3 (27 indlæg)
Fra Aalborg
Tilmeldt 4. Mar 11
Indlæg ialt: 169
Fra  HoxIT Skrevet kl. 19:50
Hvor mange stjerner giver du? :
Den seneste tid har jeg haft tralvt med at implementere stavekontrol på et par kunders søgefunktion. I kender det bla. fra Google "Mente du" staveforslag. Det var måske et omfattende projekt, men jeg spekuleret lidt over det. Det var nemlig ikke let at finde noget om det i Danmark - hvorfor egentlig ikke? Der er ikke ret mange danske webshops eller websites, der har den funktion. Så mine spørgsmål er: Hvis I har stavekontrol på jeres side, hvordan fik I det? og hvis ikke har I så undersøgt muligheden for at få det på jeres side? Og er I interesseret i at få det? God weekend folkens!
Fra Aalborg
Tilmeldt 4. Mar 11
Indlæg ialt: 169
Fra  HoxIT Skrevet kl. 19:52
Hvor mange stjerner giver du? :

Orv, jeg ville frygtelig gerne have indsat nogle linjeskift. Det er lidt svært at læse.

Fra Odense
Tilmeldt 3. Feb 12
Indlæg ialt: 26
Skrevet kl. 20:07
Hvor mange stjerner giver du? :

Må jeg spørge hvordan du har lavet det?

Den klassiske metode er jo at beregne en edit distance (evt. en Levenshtein distance!?) mellem det indtastede ord og ordene i dit index. Arbejdet ligger jo så i at begrænse antallet af sammenligninger. Der er også situationer hvor Soundex algoritmen eller Olivers algoritme er de rigtige at bruge.

Jeg laver det jævnligt selv, men jeg benytter oftest Solr (http://lucene.apache.org/solr/), hvor spellchecking følger med som et component og fungerer out of the box. Solr/Lucene er så kraftfuldt et værktøj at det, efter min mening, sjældent giver mening at arbejde i at gøre det bedre selv. Ikke dermed sagt at man ikke skal forbedre og patche Solr - det sætter vi alle pris på :)

Laver du nogen andre former for behandling af dine søgeord? Stemming eller lemmatization? Benytter du stopords-lister eller synonym-lister? Er din stavekontrol case-sensitive?

Hvordan laver du stavekontrol ved queries der består af flere ord? Deler du strengen op i enkelte ord og kører din stavekontrol på den eller kører du den på hele strengen, lige meget hvor mange ord den består af? Hvis du deler strengen op, hvad deler du den så på?

Sorry hvis det er for mange spørgsmål, men information retrieval er et område jeg er meget interesseret i og både arbejder med til dagligt og hygger mig med i min fritid.

Fra Aalborg
Tilmeldt 4. Mar 11
Indlæg ialt: 169
Fra  HoxIT Skrevet kl. 20:46
Hvor mange stjerner giver du? :

Hej Morten

Der fik jeg vist lige antændt en gnist i dig hva? Det er godt. Der er nogenting jeg gerne vil svare på, og nogen af dem, vil jeg gerne holde for mig selv. Jeg bruger ikke levenshtein - den er for tung. Soundex virker nærliggende, men det fungerer ikke rigtigt på dansk, da vi har ofte bruger stumme bogstaver.

Stemming på dansk er særdeles besværligt og kræver noget mere tid og data ved hånden, end jeg har fået. Dansk er et besværligt sprog. Som nævnt implementerede jeg det for nogle kunder og desværre har det ikke været økonomi eller tid til det. Olivers algoritme har jeg ikke læst om, så det vil jeg gerne vide mere om.

Kan vi ikke skrive privatbeskeder, hvis du er mere interesseret i det tekniske? ;-) Pt. vil jeg gerne have stillet mig egen nysgerrighed om hvorfor det er sådan et sjældent fænomen i Danmark.

Fra Odense
Tilmeldt 3. Feb 12
Indlæg ialt: 26
Skrevet kl. 21:14
Hvor mange stjerner giver du? :

Hej igen

Stemming på Dansk er nu ikke så slemt. Du kommer rigtig rigtig langt ved at bruge Snowball (http://snowball.tartarus.org/algorithms/danish/stemmer.html) og lemmatization ligger lige til højrebenet med Hunspell. Begge dele er open source, ligesom Solr og stort set alt hvad jeg ellers leger med :) Hvis de ikke kan klare dine behov, så er der stadig flere muligheder for at forbedre på resultaterne, men jeg har endnu ikke set nogen danske webshops der har haft behov for mere end det.

Mht. udbredelsen i Danmark, så er det faktisk også rigtig udbredt efterhånden. Virksomhedskulturen i DK er bare ikke til at dele sine tekniske landvindingerne alt for meget med andre. Webshops i fx. USA praler meget mere med deres tekniske kunnen.
Hvis man vil gå et skridt længere end bare information retrieval, så er natural language processing og computational linguistics faktisk ved at blive buzzord i større virksomheder, selv i DK. Jeg bliver oftere og oftere kontaktet af både danske og udenlandske firmaer, som er interesserede i at forbedre deres søgninger eller har en interesse i det semantiske web.


Du har ret i at du tændte en gnist. Det fylder rigtig meget i min verden og det er noget jeg har en hel del erfaring med. Mht. at diskutere det tekniske, så behøver jeg ikke nogen detaljer. Hvis du har lyst til at snakke teknisk, så vil jeg gerne gøre det åbent, så alle kan drage fordel af de erfaringer vi har og kan benytte dem til at forbedre deres sites.

Fra Aalborg
Tilmeldt 4. Mar 11
Indlæg ialt: 169
Fra  HoxIT Skrevet kl. 23:02
Hvor mange stjerner giver du? :

Interessant - hvilke virksomheder anvender det? Og jeg skal da lige høre, hvem arbejder du for?

Fra Odense
Tilmeldt 3. Feb 12
Indlæg ialt: 26
Skrevet kl. 23:31
Hvor mange stjerner giver du? :

Det er ikke min plads at "outte" de virksomheder der benytter de her teknologier. Hvis de vil fortælle verden om det, så må de selv gøre det.

Jeg arbejder fuldtids for Fynske Medier og må hellere slå fast at jeg IKKE laver konsulentarbejde for andre. Ikke at jeg tror at du er interesseret i det, men jeg vil bare gerne lige have det med i fald at min arbejdsgiver ser mine beskeder :) Fynske Medier er et bladhus og ejer og/eller driver en lang række websites.

Fra Aalborg
Tilmeldt 4. Mar 11
Indlæg ialt: 169
Fra  HoxIT Skrevet kl. 23:39
Hvor mange stjerner giver du? :

Nå, så er du også selv lidt hemmelighedsfuld alligevel ;-) Respekt for det.

Jeg vil også gerne snakke om det tekniske - jeg tror bare ikke Amino er et passende forum at gøre det på, desværre.

Det er klar at nogen former for information retrievel ikke rigtig tåler offentlig udstilling, men stavekontrol på søgefunktion, synes jeg virker som meget aktuelt forbedring af brugeroplevelsen - særligt når konkurrencen for webshops er så tiltagende, som den er.

Fra Odense
Tilmeldt 3. Feb 12
Indlæg ialt: 26
Skrevet kl. 23:46
Hvor mange stjerner giver du? :

Det er nu ikke for at være hemmelighedsfuld, men hvis en virksomhed har valgt ikke at dele tekniske detaljer med omverdenen, så mener jeg at det ville være forkert af mig begynde at dele min viden om dem.

Fra Aalborg
Tilmeldt 4. Mar 11
Indlæg ialt: 169
Fra  HoxIT Skrevet kl. 23:51
Hvor mange stjerner giver du? :

Det har du ret i. Men jeg vil da sige tak for dit input, er du Datalog eller hvor har du alle de goodies fra?

Side 1 ud af 3 (27 indlæg)