Partner med algoritme kvalifikationer søges!

Tilmeldt 20. Apr 07

Indlæg ialt: 16014

Slettet bruger Skrevet 09-10-2017 kl. 16:33

Hvor mange stjerner giver du? :

Hej! Måske er DU ham jeg leder efter!
Jeg er kommet på en fed idé, noget som Google selv kunne have fundet på og noget som vi ikke tænkte vi behøvede,
fordi ingen nogensinde har lavet det før.

Hør godt efter:

I vores senmodernistiske samfund som vi lever i idag, er vi blevet hurtigere til udvikling af ny teknologi, end vi nogensinde har været. Bare de sidste 100 år, er vi nået længere end hvad vi kunne på 1500 år. Vi udvikler os konstant, og der bliver lavet nye tiltag, studier og videnskabelige fremskridt på alle punkter af vores dagsorden - og dette er noget vi allesammen har en vis underforståelse for. Vi bevæger os fremad med hastige skridt og dybt nede går vi allesammen og venter på den nye revolutionerende opfindelse eller opdagelse.

Hvad hvis der fandtes en gigantisk arkivdatabase, lidt ligesom WikiPedia - udover at det ikke er fortiden, og hvad der ér sket, som er i fokus. Det er nutiden og fremtiden der befinder sig her! En kæmpe opensource side, som er tilgængelig for alle. Hundredevis af forskellige kategorier, med endnu flere underkategorier.

- RUMMET - CANCER - KØRETØJER - ARTIFICIAL INTELLIGENCE
- RAKETTEKNOLOGI - LUNGEKRÆFT - EL BILER - SEX ROBOTTER
- MARS - LEVERKRÆFT - HYBRID BILER - COMPUTER INTELLIGENS
- MÅNEN - BUGHULEKRÆFT - CHAUFFØRLØSE BILER

Dette ville bare være et minimalt udpluk, for at give en idé. Under hver af disse underkategorier, klikker du ind og frem kommer en lang liste fyldt med nyhedsartikler, studier, forsøg etc. med links til de respektive hjemmeside - alt dette arrangeret efter dato. Derved har du mulighed for at se de nyeste nyheder øverst, og således holde dig opdateret på lige netop det felt som du er interesseret i! Du kan holde styre på progress for alting, og ønsker du endda og fordybe dig i historien på dette område, kan du endda blive ved at scrolle ned og finde helt gamle artikler/forsøg!

Som sagt, skriver jeg gerne min idé ud her, og jeg er ikke bange for at dele den. Jeg er velvidende om at dette er et gigantisk projekt, men det er noget jeg brænder for - og jeg håber at finde en med samme tankegang.
Som sagt, kunne det meget vel minde om WikiPedia, da en algoritme (her kommer du ind i billedet!) skal bruges Google Search som main component - og udfra Google skal der findes en masse søgeresultater som opfylder netop de specielle kriterier. Link'sne bliver herefter sorteret og database-iseret for så at blive tilgængelig for alle på vores hjemmeside. (Det er jo tilgængeligt alligevel.)
Måske opfølge med en app for at genere endnu flere brugere, så man altid har styr på hvad der foregår omkring en på mobilen.

Pointen ville være at lave det non-profit, og måske tippe Google om at vi har en unik ting de ikke har tænkt på, som kunne gå ind under deres kæmpestore rige incorporation.

Jeg byder dig velkommen til (you decide the name):

WorldProgress.com
GoogleNews.com
Whatsnew.com

Mvh. P

PS: Feel free to leave any input or suggestions, og skriv hvis jeg fanger din interesse.

Fra Marielyst

Tilmeldt 30. Apr 17

Indlæg ialt: 83

Mick Rasmussen Fra Partylys.dk Skrevet 09-10-2017 kl. 16:49

Hvor mange stjerner giver du? :

Dit første (største) problem er at Google ikke tillader scraping af søgeresultater. Du kan selvfølgelig bruge deres API, men skal du udføre flere tusinde daglige søgninger, kommer den årlige regning til at blive meget høj.

Partylys.dk

Tilmeldt 20. Apr 07

Indlæg ialt: 16014

Slettet bruger Skrevet 09-10-2017 kl. 18:12

Hvor mange stjerner giver du? :

Er der en anden måde at arbejde rundt om dette?
Evt. ved et gigantisk scrape ved startup, og dernæst brugerindsendelser? Ligesom Wiki.

Fra Yogyakarta

Tilmeldt 16. May 09

Indlæg ialt: 2842

Thomas Frost Fra WebCoders.dk Skrevet 09-10-2017 kl. 19:45

Hvor mange stjerner giver du? :

PascalKordon:

Er der en anden måde at arbejde rundt om dette?
Evt. ved et gigantisk scrape ved startup, og dernæst brugerindsendelser? Ligesom Wiki.

Du kan slet ikke lave et gigantisk gratis scrape af Google i den størrelse du ønsker. Det er faktisk ret få resultater du kan få før de begynder med capcha. Alle kendte proxies kender Google allerede, så det er ikke en løsning at bruge diverse proxies for at omgå deres spærring.

For at tage et eksempel fra en af deres services, så tjekkede jeg for nyligt ca. 60 URL´er i deres AMP validerings-tool, og allerede efter ca. halvdelen kom den første capcha, hvor jeg skulle vælge billeder med butiksfacader osv. Og der kom et par stykker mere løbende.

Dette til trods for jeg brugte min arbejdscomputer hvor jeg er logget ind med min google konto som sikkert er ældre end flere brugere herinde, og hvor Google kan se på mit surf-mønster m.m. at jeg er en alm. bruger.

Hvis din service bygger på gratis scrape Google i så stort omfang du beskriver, tror jeg det er bedst at glemme ideen.

Fra Hellerup

Tilmeldt 11. Apr 06

Indlæg ialt: 3722

Lundsby Fra CloudSprout Skrevet 09-10-2017 kl. 23:22

Hvor mange stjerner giver du? :

Thomas Frost:
Du kan slet ikke lave et gigantisk gratis scrape af Google i den størrelse du ønsker. Det er faktisk ret få resultater du kan få før de begynder med capcha. Alle kendte proxies kender Google allerede, så det er ikke en løsning at bruge diverse proxies for at omgå deres spærring.

Kan man ikke "bare" lave dynamiske maskiner hos f.eks. Azure eller Amazon, så findes der vel ingen måde hvorpå de kan kende ip-addressen.

Jeg har selv leget en del med at scrape tjenester med beskyttelse, det er sjovt og udfordrende. En ting jeg lærte var at hvis man bruger Selenium så har de langt svære ved at opdage en end hvis man laver rå http kald. Men tilgengæld så tager det også noget længere tid.

Selvom det måske rent teknisk kan lade sig gøre, så skal man stadig overveje om det er noget man vil. Man risikere at Google sende en hær af advokater efter en. Specielt hvis man får nogen som helst form for succes.

Fra Yogyakarta

Tilmeldt 16. May 09

Indlæg ialt: 2842

Thomas Frost Fra WebCoders.dk Skrevet 10-10-2017 kl. 09:34

Hvor mange stjerner giver du? :

Lundsby:
Kan man ikke "bare" lave dynamiske maskiner hos f.eks. Azure eller Amazon, så findes der vel ingen måde hvorpå de kan kende ip-addressen.

Det gør der faktisk i mange tilfælde. For der er masser af mennesker som prøver at scrape Google på den måde, i større eller mindre projekter, og så snart du er på en ip der tidligere har været bot-lignende aktivitet på tidligere , er Google endnu hurtigere til at sætte den irriterende capha på (den med 9-12 billeder hvor man skal vælge vejskilte, butiksfacader, bjerge osv. ). Så snart du bruger tjenester hvor der er potentiel mulighed for at scrape Google, så er der ret sikkert andre der har fundet på det og gjort det, og dermed falder værdien, da ip´erne allerede er flagged på den ene eller anden måde. Sandsynligheden for at den ip du får tildelt allerede er forsøgt brugt til sracping er i hvert fald til stede.

Udover det skal man huske at Googles anti scraping system ser på hvor godt de kender brugeren der søger. Altså når jeg sidder på min egen arbejds-PC hvor jeg har et normalt søgemønster, er logget ind med min trustede Google konto, og har Cookies fra Google liggende, så skal der meget mere til at slå capcha til, end hvis man bruger en "ren" dynamisk Amazon maskine, uden at være logget ind, uden nogen positiv historik, uden nogle cookies og noget "normalt" forbrugsmønster, og hvor ip´ens eneste søgehistorik muligvis er andre tidligere forsøg på scraping.

Efter min erfaring er Google bare bedre til at beskytte sig imod (gratis) scraping end nogen andre. Jeg er faktisk ikke sikker på vi nogensinde har haft problemer med at scrape nogen andre end Google, altså når vi taler om større mængder data.

I langt de fleste tilfælde er det nok bare at have en ordentlig bunke proxier til rådighed (et betalt netværk af proxier er klart det bedste), og så ellers sørge for at holde sig under et vist antal forespørgsler pr. ip pr. minut alt efter hvem man scraper. Men det er ved at være lang tid siden det virkede ved Google.

Problemet i denne opgave er at det drejer sig om så potentielt mange mia forespørgsler, for at projektet hænger sammen, alternativet er nemlig at købe x-antal capcha indtastninger fra f.eks. indiske udbydere, som du kobler op på din scraper, og hver gang der kommer en capcha, så sidder der en inder og taster den manuelt ind, og så kan man køre lidt igen. Det giver dog ikke mening til denne opgave, men til nogle opgaver er det bestemt en løsning. Det virkede f.eks. fremragende dengang SE-Nuke var populært :-)