Hov. Du er ikke logget ind.
DU SKAL VÆRE LOGGET IND, FOR AT INTERAGERE PÅ DENNE SIDE

Hvad er betingelserne for at man kan crawle et site og hvad koster en crawler?

Side 2 ud af 2 (19 indlæg)
Tilmeldt 23. Jan 09
Indlæg ialt: 30
Skrevet kl. 16:15
Hvor mange stjerner giver du? :

Det er heller ikke sikkert at disse sites du nævner crawler websiderne for at få fat i informationerne. Jeg vil tro at butikkerne submitter deres datafeed som så vil blive crawlet eller analyseret. I en datafeed skal man typisk angive priser, product navn, landing page url, billede url, forhandler url, osv. Så det kommer lidt an på hvad du vil lave, hvis det er priserne du vil ha fat i, så er en web crawler ikke den bedste løsning du har.

Fra Horsens
Tilmeldt 7. May 10
Indlæg ialt: 1022
Fra  SONNURMEDIA Skrevet kl. 16:22
Hvor mange stjerner giver du? :

Nu står diverse sider, som officielle partnere af lejebolig. Mon så ikke de har adgang til deres data igennem et API

Stifter af SONNURMEDIA  - Alt indenfor webudvikling 

Fra Fredericia
Tilmeldt 21. Dec 08
Indlæg ialt: 679
Fra  Asia Property Innovation Co. Ltd. Skrevet kl. 16:33
Hvor mange stjerner giver du? :

Det er muligt at de 2 danske eksempler trækker data via et leverandør-API. Det skal jeg ik kloge mig på, men så lad mig spørge på en anden måde:
Hvordan trækker man data ud af ca 180 forskellige hjemmesider og placerer disse data i en database som jeg kan tilgå? Data skal ikke præsenteres på web.

Tilmeldt 23. Jan 09
Indlæg ialt: 30
Skrevet kl. 16:57
Hvor mange stjerner giver du? :

Som de andre allerede har svaret, kræver hvert site en specifik crawling mønster, som robotten skal følge. Hvis du bare skal ha hele indhold smidt ind i en database, så er det jo nemt nok, men hvis robotten skal kunne parse de forskellige data ud og lægge dem pænt ind i database, så kræver det mega meget arbejde inklusive manual sortering og tilpasning som skal udføres manuelt af dig eller dine medarbejdere og til den tid alt det arbejde er udført, så er 50 sites ud af de 180 updateret med nye tags. Jeg siger ikke at det er umuligt, men du skal bare være forberedt på den enorme arbejdsbyrden. 

Jeg har lavet adskillige crawler før og der findes ikke en perfekt løsning, en anden ting er hvis en site er bygget op med javascript eller flash osv. så vil siden være mere eller mindre blank for en crawler.

Fra Københavnsområdet
Tilmeldt 16. Mar 11
Indlæg ialt: 712
Skrevet kl. 16:58
Hvor mange stjerner giver du? :

Jørgen Linnet:
Hvordan trækker man data ud af ca 180 forskellige hjemmesider og placerer disse data i en database som jeg kan tilgå? Data skal ikke præsenteres på web.

I korte træk:

Hvis du ikke kan udtrække data via en API, er du nødt til at benytte en crawler, som du kan konfigurere til at lede efter specifikke HTML-mønstre (f.eks. <div id="cost">[dette indhold skal udtrækkes fra siden]</div> og <div id="amount">[et helt andet mønster på en anden side]</div>).

Dernæst skal du igang med lidt af et detektivarbejde, da du er nødt til at gennemgå samtlige hjemmesider - som du vil udtrække data fra - for at finde hvert enkelt mønster, så du kan lægge mønsteret i en database sammen med URL'en, som crawleren skal finde mønsteret via.

Der er en række andre detaljer, du også skal tage højde for, men det bliver ret hurtigt en teknisk og tidskrævende omgang, hvis jeg skal forklare det her.

Fremgangsmetoden er omstændig, men hvis data er vigtige for dig, kan det være besværet værd. Alternativt kan du søge efter virksomheder, som tilbyder "data mining".

Fra Odense
Tilmeldt 1. Sep 06
Indlæg ialt: 426
Fra  Sturmglas Skrevet kl. 17:22
Hvor mange stjerner giver du? :

Jørgen Linnet:
Jeg mener bare, snakker vi kr. 10.000 mere end vi snakker kr. 100.000? 

1 site er nok mere 10.000kr end 100.000. Jeg har haft et US firma til det en gang, det gik fint og lå i 4-5000kr.

Men giver Niels ret når du skal crawle flere! 

Fra Yogyakarta
Tilmeldt 16. May 09
Indlæg ialt: 2842
Fra  WebCoders.dk Skrevet kl. 05:22
Hvor mange stjerner giver du? :

Jørgen Linnet:
Hvordan trækker man data ud af ca 180 forskellige hjemmesider og placerer disse data i en database som jeg kan tilgå? Data skal ikke præsenteres på web.

Det er svært at svare på uden flere informationer. Hvis de 180 sider har et datafeed eller en API så kan disse bruges. Hvis de alle har et datafeed er det nemt, selvom feeds kan være forskelligt opbygget, så der skal stadig bruges en masse timer på at tilpasse importen til hvert enkelt feed.

Hvis du skal have en til at programmere op imod 180 forskellige API´er kunne jeg ikke forestille mig 100.000 var nok til projektet.

Det bliver endnu dyrere hvis siderne hverken har et datafeed eller en API. Et problem er også at ændrer nogen af siderne i deres side løbende, ja så skal du betale en udvikler for at tilpasse din crawler. Det er sjældent man ændrer en API eller et XML-output, så der vil nok være færre løbende udgifter til sådan en løsning.

Du skal i øvrigt ikke kun spørge til udviklingsomkostningerne, det er også vigtigt du husker at der nok kommer løbende udgifter til at vedligeholde import fra 180 forskellige datakilder.

Med mindre API´er eller XML´er er ens kan jeg ikke se hvordan man overhovedet kan gøre det for under 100.000, hvis vi taler 180 forskellige datakilder.

Tilmeldt 21. Nov 12
Indlæg ialt: 31
Skrevet kl. 07:58
Hvor mange stjerner giver du? :
Gennemsnit 1,0 stjerner givet af 2 person

Hej

jeg vil regne med ca. 700,- pr robot

Fra Aarhus
Tilmeldt 10. May 06
Indlæg ialt: 687
Fra  BreakBuddy Skrevet kl. 09:24
Hvor mange stjerner giver du? :

Det er som nævnt meget afhængigt hvilke typer data du skal bruge, og hvis du løbende skal "lytte på" sider er der også andet end blot at crawle. 

Det er ret udbredt at større webshops står og lytter på konkurrenternes priser, så de løbende kan tilpasse sig indenfor nogle algoritmer. Jeg vil som Niels siger, starte simpelt. Finde ud af hvad er basic information få lavet et script til dette, når du er fortrolig med dette så sørg for at have en udvikler der har hjernen til at kunne tænke lidt kreativt og god til matematik. Så er du godt på vej.

Side 2 ud af 2 (19 indlæg)