Hov. Du er ikke logget ind.
DU SKAL VÆRE LOGGET IND, FOR AT INTERAGERE PÅ DENNE SIDE

Hvordan laver jeg en søgemaskine?

Side 8 ud af 10 (94 indlæg)
Tilmeldt 10. Nov 09
Indlæg ialt: 0
Skrevet kl. 15:33
Hvor mange stjerner giver du? :

wow... det var da lidt af en diskution jeg fik startet her! :-) Jeg nærlæser lige lidt senere, men jeg har da et par kommentarer.

Det var ikke albert Einstein, men Isaac Newton der fik et æble i hovedet.
Jo jeg har visioner, men der er jo ingen grund til at afsløre dem alle lige med det samme. Jeg synes bl.a. det ville være spænnende at lave en maskine der søgte på indholdet i billeder og video.

Så var jeg ude og køre post i formiddags, og tænkte på hvordan jeg kan indekserer store mængder tekst med forholdsvis begrænset database størrelse!

Nå jeg skal lige hente datteren i vuggestuen så kigger jeg ind senere! :-) 

Fra Horsens
Tilmeldt 7. Feb 06
Indlæg ialt: 341
Skrevet kl. 16:54
Hvor mange stjerner giver du? :

Tja...been there done that. Jeg tror ikke det kan lade sig gøre for alm. mennesker eller sågar alm. store virksomheder. Du skal have et kæmpe budget.

Jeg og en kammerat samt en ekstern hyret programmør arbejdede i 1½ år på et lignende projekt og kom aldrig tæt på at være i mål.

Det kræver så enorm stor kapacitet, at lave en linkdatabase, hente indhold, parse indhold og så igen rangere skidtet. Når vi var færdige med én af processerne var vi allerede milevidt bagud. Der kommer så mange nye sider til hvert minut, at det er umuligt, at følge med.

Jeg har en hel del kode til at ligge du gerne må overtage, hvis du er interesseret og agter, at begive dig ud i det.

Et par goderåd , der måske er oplagte, men som godt kan være faldgrubber:

1) Lav en niche søgemaskine, der måske er bedre end Google på nichen. Hele nettet er for stort. Vi var bl.a. nødt til, at sortere porno sider fra - der går så også tid med at lave et filter, der fungerer nogenlunde.

2) Pas på med at din bot ikke render i en autogeneret kalender. Så kommer botten pludselig på meget overarbejde og mens du sover og botten snurrer kan du have spildt 8 timer på at hente inholf fra en uendelig kalender.

3) Lad være med at købe udstyr før det er strengt nødvendigt og du er sikker på, at det hele kører. Har selv brugt alt for mange penge på udstyr, der hurtigt bliver forældet. bl.a. en server til 35.000 kr. jeg ikke kan få 5.000 kr for i dag her 1½ år senere.

Tilmeldt 10. Nov 09
Indlæg ialt: 0
Skrevet kl. 18:39
Hvor mange stjerner giver du? :
hej roscoe. Tak for de gode råd. Ja der er mange faldgrupper jeg kan falde i. Jeg vil da meget gerne se noget af det kode i har lavet, og se om det kan genbruges.
Tilmeldt 20. Oct 10
Indlæg ialt: 6
Skrevet kl. 23:10
Hvor mange stjerner giver du? :
Gennemsnit 1,0 stjerner givet af 2 person

Roscoe:

Tja...been there done that. Jeg tror ikke det kan lade sig gøre for alm. mennesker eller sågar alm. store virksomheder. Du skal have et kæmpe budget.

Jeg og en kammerat samt en ekstern hyret programmør arbejdede i 1½ år på et lignende projekt og kom aldrig tæt på at være i mål.

Det kræver så enorm stor kapacitet, at lave en linkdatabase, hente indhold, parse indhold og så igen rangere skidtet. Når vi var færdige med én af processerne var vi allerede milevidt bagud. Der kommer så mange nye sider til hvert minut, at det er umuligt, at følge med.

Pointen er jo, at for at lave en konkurrent skal du ikke starte med hele webben, du skal starte snaeveret og fokuseret. 

Som jeg beskrev i en tidligere kommentar har jeg lavet en scanner der paa 10 timer kan finde 40.000 danske domaener, koerende paa min lille baerbare. Det du beskriver lyder sgu som om i bare er daarlige programmoerer eller fatter 0. 

 

Tilmeldt 10. Nov 09
Indlæg ialt: 0
Skrevet kl. 23:15
Hvor mange stjerner giver du? :

johnnyj:

Roscoe:

Tja...been there done that. Jeg tror ikke det kan lade sig gøre for alm. mennesker eller sågar alm. store virksomheder. Du skal have et kæmpe budget.

Jeg og en kammerat samt en ekstern hyret programmør arbejdede i 1½ år på et lignende projekt og kom aldrig tæt på at være i mål.

Det kræver så enorm stor kapacitet, at lave en linkdatabase, hente indhold, parse indhold og så igen rangere skidtet. Når vi var færdige med én af processerne var vi allerede milevidt bagud. Der kommer så mange nye sider til hvert minut, at det er umuligt, at følge med.

Pointen er jo, at for at lave en konkurrent skal du ikke starte med hele webben, du skal starte snaeveret og fokuseret. 

Som jeg beskrev i en tidligere kommentar har jeg lavet en scanner der paa 10 timer kan finde 40.000 danske domaener, koerende paa min lille baerbare. Det du beskriver lyder sgu som om i bare er daarlige programmoerer eller fatter 0. 

 

Ikke endvidere flinkt skrevet.

Hvis man fatter 0 fordi man ikke kan slå Google, så skriver jeg mig ind ;-)

Tilmeldt 20. Oct 10
Indlæg ialt: 6
Skrevet kl. 23:26
Hvor mange stjerner giver du? :

Wi:

johnnyj:

Roscoe:

Tja...been there done that. Jeg tror ikke det kan lade sig gøre for alm. mennesker eller sågar alm. store virksomheder. Du skal have et kæmpe budget.

Jeg og en kammerat samt en ekstern hyret programmør arbejdede i 1½ år på et lignende projekt og kom aldrig tæt på at være i mål.

Det kræver så enorm stor kapacitet, at lave en linkdatabase, hente indhold, parse indhold og så igen rangere skidtet. Når vi var færdige med én af processerne var vi allerede milevidt bagud. Der kommer så mange nye sider til hvert minut, at det er umuligt, at følge med.

Pointen er jo, at for at lave en konkurrent skal du ikke starte med hele webben, du skal starte snaeveret og fokuseret. 

Som jeg beskrev i en tidligere kommentar har jeg lavet en scanner der paa 10 timer kan finde 40.000 danske domaener, koerende paa min lille baerbare. Det du beskriver lyder sgu som om i bare er daarlige programmoerer eller fatter 0. 

 

Ikke endvidere flinkt skrevet.

Hvis man fatter 0 fordi man ikke kan slå Google, så skriver jeg mig ind ;-)

Nej undskyld, maase lidt for haardt skrevet. Men svaerere er det altsaa heller ikke.

Uanset hvad man beskaeftiger sig med at goere en success handler det om kvalitet fremfor kvantitet. Og man behoever ikke scanne hele nettet for at lave en soegemaskine der er bedre end google, en der daekker Silkeborg kan vaere bedre lavet!? Det betyder ikke den er bedre for en der sidder i mellemoesten, men det jo bare et spoergsmaal om at den soegemaskine man laver skal laves scalerbar saa naar den foerst er lavet god, saa udvider man konteksten.

Som andre har skrevet er maaske 90% af mulige sider ret ligegyldige for en soegemaskine, eller, de resterende 10% vil kun vaere interessante for 0.01% af soegningerne. 

Og at opbygge en linkdatabase, det fatter jeg slet ikke meningen i. Noget interessant kunne vaere at opbygge et telefon nummer index. Det let at scanne sider for telefonnumre, og de kan indekseres i en tabel ret simpelt og derved give hurtige soegeresultater.

Eller navne liste. 

Min pointe er, det handler jo ikke om links, men om de data der findes og hvordan de kategoriseres. 

Fra København
Tilmeldt 22. Jan 09
Indlæg ialt: 1760
Fra  Buehøjgård Møbler Skrevet kl. 23:47
Hvor mange stjerner giver du? :

johnnyj:
Nej undskyld, maase lidt for haardt skrevet. Men svaerere er det altsaa heller ikke.

Du undervurderer opgaven i allerhøjeste grad. Alle der har beskæftiget sig med dette på professionelt seriøst business plan ved at det slet ikke er så let.

Lad os tage udgangspunkt i et telefon nummer index som du nævner:
Det kan måske forekomme nemt når man med sine første spæde programmeringslinier hurtigt kan scanne et eller tusindvis af websites for data og kategorisere det. Men så kommer alt det svære arbejde:

vedligehold af data, opdatering af data, udvidelse af data.
- Hvad sker der når fx eniro.dk du scanner ændrer deres html/javascript?
- Hvad sker der når din rutine har scannet hele CVR.dk og tror at det var telefonnumre, fordi de var 8-cifret?
- Hvordan håndterer du når du har samme telefonnummer 10 gange fra forskellige websites), men med forskellige tilknyttede persondata?
- Etc. etc. etc.

Undtagelserne i programmeringen og rensning+strukturering af data er den helt store udfordring her, og det er bestemt ikke let. Jo dybere man graver og jo bedre en service man vil levere, jo sværere forstår man at det er.

Bare spørg en hvilken som helst derude som har forsøgt at stille en professionel service til rådighed og leve af det... (jeg selv inklusiv)

Fra København
Tilmeldt 22. Jan 09
Indlæg ialt: 1760
Fra  Buehøjgård Møbler Skrevet kl. 23:54
Hvor mange stjerner giver du? :

Jonas Jacobsen:
Der skal stadigvæk være en crawler og indeksering. Den skal bare KUN crawle de sider, der bliver godkendt. Forestil dig google, der kun søger på sites, der først er blevet manuelt udvalgt.

Det er lige præcis det google gør med Google News, bl.a. ?

Så hedder det sig godt nok at det er til nyheder og den slags, men der findes alt slags indhold (for alle tekster kan i princippet være en nyhed eller artikel) og det indeholder såvidt jeg ved kun sites som er godkendt af Google.

Tilmeldt 20. Oct 10
Indlæg ialt: 6
Skrevet kl. 23:57
Hvor mange stjerner giver du? :

Lars Meyer:

johnnyj:
Nej undskyld, maase lidt for haardt skrevet. Men svaerere er det altsaa heller ikke.

Du undervurderer opgaven i allerhøjeste grad. Alle der har beskæftiget sig med dette på professionelt seriøst business plan ved at det slet ikke er så let.

Lad os tage udgangspunkt i et telefon nummer index som du nævner:
Det kan måske forekomme nemt når man med sine første spæde programmeringslinier hurtigt kan scanne et eller tusindvis af websites for data og kategorisere det. Men så kommer alt det svære arbejde:

vedligehold af data, opdatering af data, udvidelse af data.
- Hvad sker der når fx eniro.dk du scanner ændrer deres html/javascript?
- Hvad sker der når din rutine har scannet hele CVR.dk og tror at det var telefonnumre, fordi de var 8-cifret?
- Hvordan håndterer du når du har samme telefonnummer 10 gange fra forskellige websites), men med forskellige tilknyttede persondata?
- Etc. etc. etc.

Undtagelserne i programmeringen og rensning+strukturering af data er den helt store udfordring her, og det er bestemt ikke let. Jo dybere man graver og jo bedre en service man vil levere, jo sværere forstår man at det er.

Bare spørg en hvilken som helst derude som har forsøgt at stille en professionel service til rådighed og leve af det... (jeg selv inklusiv)

Jeg mener ikke jeg undervurderer den tekniske udfordring. 

Et cvrnummer er vel lige saa godt hit paa en soegning paa et 8 cifret nummer som et telefonnummer, saa jeg ser ikke noget problem i det. Kald det en "nummer" tabel snarere end telefonnummer tabel (jeg naevnte blot telefon numre fordi det er noget jeg selv har soegt paa). 

Anyway det er meningsloest at diskutere. Som idealistisk programmoer mener jeg slet ikke det er umuligt at tage kampen op med google, og at hoere nogen sige de har brugt flere aar paa det uden resultat, det forstaar jeg slet ikke. 

 

Tilmeldt 20. Apr 07
Indlæg ialt: 16014
30% af profil udfyldt
Skrevet kl. 23:58
Hvor mange stjerner giver du? :
Gennemsnit 1,0 stjerner givet af 1 person

Det er meget simpelt - du kan lave den i programmerings sproget "PHP"

Du skal indsætte følgende kode på en hjemmeside:

"<?

echo 'search-engine better than google';

?>"

Hvis du mangler kapital til opstart/registrering af hjemmeside, vil jeg gerne investere i dig. Du skal bare sende mig en PM med dit dankortnummer, udløbsdato og cvc kode.

Side 8 ud af 10 (94 indlæg)