Partner med algoritme kvalifikationer søges! - Amino.dk
på Amino
Bliv gratis medlem på Amino

Nye ekspertblog-indlæg
om  Alt det andet..

Læs flere ekspertindlæg
 

Top karmaliste (30 dage)

De flinkeste Amino’er der hjælper mest med "Generel iværksætterdebat "

 

Partner med algoritme kvalifikationer søges!

Side 1 ud af 1 (6 indlæg)
Amino-karma 26
Tilmeldt 28. jun 13
Indlæg ialt: 6


Skrevet 09-10-2017 kl. 16:33

Hej! Måske er DU ham jeg leder efter!
Jeg er kommet på en fed idé, noget som Google selv kunne have fundet på og noget som vi ikke tænkte vi behøvede,
fordi ingen nogensinde har lavet  det før.

Hør godt efter:

I vores senmodernistiske samfund som vi lever i idag, er vi blevet hurtigere til udvikling af ny teknologi, end vi nogensinde har været. Bare de sidste 100 år, er vi nået længere end hvad vi kunne på 1500 år. Vi udvikler os konstant, og der bliver lavet nye tiltag, studier og videnskabelige fremskridt på alle punkter af vores dagsorden - og dette er noget vi allesammen har en vis underforståelse for. Vi bevæger os fremad med hastige skridt og dybt nede går vi allesammen og venter på den nye revolutionerende opfindelse eller opdagelse.

Hvad hvis der fandtes en gigantisk arkivdatabase, lidt ligesom WikiPedia - udover at det ikke er fortiden, og hvad der ér sket, som er i fokus. Det er nutiden og fremtiden der befinder sig her! En kæmpe opensource side, som er tilgængelig for alle. Hundredevis af forskellige kategorier, med endnu flere underkategorier.

- RUMMET                   - CANCER              - KØRETØJER               - ARTIFICIAL INTELLIGENCE     
 - RAKETTEKNOLOGI     - LUNGEKRÆFT        - EL BILER                  - SEX ROBOTTER
   - MARS                      - LEVERKRÆFT          - HYBRID BILER          - COMPUTER INTELLIGENS
    - MÅNEN                    - BUGHULEKRÆFT      - CHAUFFØRLØSE BILER
 
Dette ville bare være et minimalt udpluk, for at give en idé. Under hver af disse underkategorier, klikker du ind og frem kommer en lang liste fyldt med nyhedsartikler, studier, forsøg etc. med links til de respektive hjemmeside - alt dette arrangeret efter dato. Derved har du mulighed for at se de nyeste nyheder øverst, og således holde dig opdateret på lige netop det felt som du er interesseret i! Du kan holde styre på progress for alting, og ønsker du endda og fordybe dig i historien på dette område, kan du endda blive ved at scrolle ned og finde helt gamle artikler/forsøg!

Som sagt, skriver jeg gerne min idé ud her, og jeg er ikke bange for at dele den. Jeg er velvidende om at dette er et gigantisk projekt, men det er noget jeg brænder for - og jeg håber at finde en med samme tankegang.
Som sagt, kunne det meget vel minde om WikiPedia, da en algoritme (her kommer du ind i billedet!) skal bruges Google Search som main component - og udfra Google skal der findes en masse søgeresultater som opfylder netop de specielle kriterier. Link'sne bliver herefter sorteret og database-iseret for så at blive tilgængelig for alle på vores hjemmeside. (Det er jo tilgængeligt alligevel.)
Måske opfølge med en app for at genere endnu flere brugere, så man altid har styr på hvad der foregår omkring en på mobilen.

Pointen ville være at lave det non-profit, og måske tippe Google om at vi har en unik ting de ikke har tænkt på, som kunne gå ind under deres kæmpestore rige incorporation. 

Jeg byder dig velkommen til (you decide the name):

WorldProgress.com
GoogleNews.com
Whatsnew.com

Mvh. P

PS: Feel free to leave any input or suggestions, og skriv hvis jeg fanger din interesse.

Amino-karma 248
Fra Marielyst
Tilmeldt 30. apr 17
Indlæg ialt: 69

Mick Rasmussen
Fra Partylys.dk
Skrevet 09-10-2017 kl. 16:49

Dit første (største) problem er at Google ikke tillader scraping af søgeresultater. Du kan selvfølgelig bruge deres API, men skal du udføre flere tusinde daglige søgninger, kommer den årlige regning til at blive meget høj.

Amino-karma 26
Tilmeldt 28. jun 13
Indlæg ialt: 6

PascalKordon
Skrevet 09-10-2017 kl. 18:12

Er der en anden måde at arbejde rundt om dette? 
Evt. ved et gigantisk scrape ved startup, og dernæst brugerindsendelser? Ligesom Wiki.

Amino-karma 24.364
Fra Yogyakarta
Tilmeldt 16. maj 09
Indlæg ialt: 2.806
Amino Plus
Thomas Frost
Fra WebCoders.dk
Skrevet 09-10-2017 kl. 19:45

PascalKordon:

Er der en anden måde at arbejde rundt om dette? 
Evt. ved et gigantisk scrape ved startup, og dernæst brugerindsendelser? Ligesom Wiki.

Du kan slet ikke lave et gigantisk gratis scrape af Google i den størrelse du ønsker. Det er faktisk ret få resultater du kan få før de begynder med capcha. Alle kendte proxies kender Google allerede, så det er ikke en løsning at bruge diverse proxies for at omgå deres spærring.

For at tage et eksempel fra en af deres services, så tjekkede jeg for nyligt ca. 60 URL´er i deres AMP validerings-tool, og allerede efter ca. halvdelen kom den første capcha, hvor jeg skulle vælge billeder med butiksfacader osv. Og der kom et par stykker mere løbende.

Dette til trods for jeg brugte min arbejdscomputer hvor jeg er logget ind med min google konto som sikkert er ældre end flere brugere herinde, og hvor Google kan se på mit surf-mønster m.m. at jeg er en alm. bruger.

Hvis din service bygger på gratis scrape Google i så stort omfang du beskriver, tror jeg det er bedst at glemme ideen.

WordPress eksperter
Referencer bl.a. booomerang.dk & visitsamsoe.dk
Amino-karma 21.272
Fra Hellerup
Tilmeldt 11. apr 06
Indlæg ialt: 3.721

Lundsby
Fra CloudSprout
Skrevet 09-10-2017 kl. 23:22

Thomas Frost:
Du kan slet ikke lave et gigantisk gratis scrape af Google i den størrelse du ønsker. Det er faktisk ret få resultater du kan få før de begynder med capcha. Alle kendte proxies kender Google allerede, så det er ikke en løsning at bruge diverse proxies for at omgå deres spærring.

Kan man ikke "bare" lave dynamiske maskiner hos f.eks. Azure eller Amazon, så findes der vel ingen måde hvorpå de kan kende ip-addressen.

Jeg har selv leget en del med at scrape tjenester med beskyttelse, det er sjovt og udfordrende. En ting jeg lærte var at hvis man bruger Selenium så har de langt svære ved at opdage en end hvis man laver rå http kald. Men tilgengæld så tager det også noget længere tid.

Selvom det måske rent teknisk kan lade sig gøre, så skal man stadig overveje om det er noget man vil. Man risikere at Google sende en hær af advokater efter en. Specielt hvis man får nogen som helst form for succes.

Amino-karma 24.364
Fra Yogyakarta
Tilmeldt 16. maj 09
Indlæg ialt: 2.806
Amino Plus
Thomas Frost
Fra WebCoders.dk
Skrevet 10-10-2017 kl. 09:34

Lundsby:
Kan man ikke "bare" lave dynamiske maskiner hos f.eks. Azure eller Amazon, så findes der vel ingen måde hvorpå de kan kende ip-addressen.

Det gør der faktisk i mange tilfælde. For der er masser af mennesker som prøver at scrape Google på den måde, i større eller mindre projekter, og så snart du er på en ip der tidligere har været bot-lignende aktivitet på tidligere , er Google endnu hurtigere til at sætte den irriterende capha på (den med 9-12 billeder hvor man skal vælge vejskilte, butiksfacader, bjerge osv. ). Så snart du bruger tjenester hvor der er potentiel mulighed for at scrape Google, så er der ret sikkert andre der har fundet på det og gjort det, og dermed falder værdien, da ip´erne allerede er flagged på den ene eller anden måde. Sandsynligheden for at den ip du får tildelt allerede er forsøgt brugt til sracping er i hvert fald til stede. 

Udover det skal man huske at Googles anti scraping system ser på hvor godt de kender brugeren der søger. Altså når jeg sidder på min egen arbejds-PC hvor jeg har et normalt søgemønster, er logget ind med min trustede Google konto, og har Cookies fra Google liggende, så skal der meget mere til at slå capcha til, end hvis man bruger en "ren" dynamisk Amazon maskine, uden at være logget ind, uden nogen positiv historik, uden nogle cookies og noget "normalt" forbrugsmønster, og hvor ip´ens eneste søgehistorik muligvis er andre tidligere forsøg på scraping.

Efter min erfaring er Google bare bedre til at beskytte sig imod (gratis) scraping end nogen andre. Jeg er faktisk ikke sikker på vi nogensinde har haft problemer med at scrape nogen andre end Google, altså når vi taler om større mængder data.

I langt de fleste tilfælde er det nok bare at have en ordentlig bunke proxier til rådighed (et betalt netværk af proxier er klart det bedste), og så ellers sørge for at holde sig under et vist antal forespørgsler pr. ip pr. minut alt efter hvem man scraper. Men det er ved at være lang tid siden det virkede ved Google.

Problemet i denne opgave er at det drejer sig om så potentielt mange mia forespørgsler, for at projektet hænger sammen, alternativet er nemlig at købe x-antal capcha indtastninger fra f.eks. indiske udbydere, som du kobler op på din scraper, og hver gang der kommer en capcha, så sidder der en inder og taster den manuelt ind, og så kan man køre lidt igen. Det giver dog ikke mening til denne opgave, men til nogle opgaver er det bestemt en løsning. Det virkede f.eks. fremragende dengang SE-Nuke var populært :-)

WordPress eksperter
Referencer bl.a. booomerang.dk & visitsamsoe.dk
Side 1 ud af 1 (6 indlæg)

RSS-feed
 
Alt det andet er venligst sponseret af:

Besøg vores andre hjemmesider :
lll