Er der nogen herinde der ved hvordan jeg for hente daglig informationer ned fra en hjemmeside, jeg har læst lidt om crawlers og scrapers men er der nogen der ved hvad der nemmest og gratis at bruge, og det bliver nød til at pr. Automatik, og det så bliver gemt i en XML fil eller andet jeg så kan hente dataen fra hver dag.
Er der nogen herinde der ved hvordan jeg for hente daglig informationer ned fra en hjemmeside,
Normalt er det en webscraper som tager indholdet på hjemmesiden og piller de dele ud som du skal bruge. Men du skal tænke på at laver ejerne indholdet om så skal webscraperen rettes.
Det bedste du kan gøre er at spørge om dem der har hjemmesidem om de har nogle webservices du kan hente fra.
Jeg har programmeret i over 27 år. Jeg har kodet i C, C++, Java, Delphi, Perl, JavaScript, C#, F#, VB.NET, ASP, Myresnak :D, Comal80 osv....
Du kan fx benytte Scrapy som basis for en scraper du selv udvikler. Den kan også logge ind på et site med denne scraper, og på den måde hente content som du normalt ikke kan scrape.
Hvis du finder en "færdig" løsning, må du gerne poste den her.
Ja jeg ved den mulighed er der, men hvis jeg ikke har den mulighed, enten skal jeg selv manuelt ind og skrive værdier af eller have det således at en scrapers eller hvad de hedder henter det pr. Automatik, og det er de sidste jeg helst ser. Så hvis der er nogle der har kendskab til programmer eller lign. Vil jeg meget gerne høre om det.
Ja har læst om scrapy men håber lidt på, der noget mere brugervenligt software, så jeg ikke selv skal kode det men "bare" fortælle den at den skal hente fra den og den side inden for de og de HTML tags osv.
Ta' f.eks. et kig på JSOUP ( http://jsoup.org/ ) som godt nok er til Java, men ret nemt at gafle fra HTML sourcen via noget der ligner JQuery selectors og andet godt..
Så skal du evt. bare bygge en simpel crawler oven på alt efter hvor avanceret du ønsker det..
/Lars Borup
it-arbejde.dk - specialister i middleware og server-side softwareudvikling, J2EE konsulent og Django.