PHP.EE FOORUM   
Nimi:   Pass:   Mäleta mind! 
   Teemad | php.ee esilehele | registreeri | Märgi kõik teemad loetuks | #php.ee Skype vestlus | RSS
UUS TEEMA  OTSI  Lehekülgi: 1
Crawler Bot
Postitaja: Roboto 2015-01-15 14:33:24
On keegi kohanud mõnd head ja mugavat valmis robotit, mis töötaks windowsis või siis PHP süsteemis.

Eesmärk oleks anda talle ette, mingi aadress ja siis parameetrid mis tuleks läbi otsida ja salvestada.

Näiteks kui võtta postimees.ee, siis saaks määrata pealehe aadressi nt. postimees.ee ja lingid mille class=xxxx läbi klikkida

kikitud lehelt salvestada divide sisu mille class="xxx" ja pildid, mille class="yyy" jne

Näide on illustreeriv ja ilmselt primitiivsem, kui mõni võimekas vahend suudab :) aga noh midagi sellist oleks soov leida ja ei oska isegi googlest otsida millegi järgi.
RE: Crawler Bot
Postitaja: dfhfhj 2015-01-15 14:43:03
näiteks http://scraping.pro/software-for-web-scraping/

google otsing
https://www.google.ee/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8&client=ubuntu#q=program%20to%20scrape%20website
RE: Crawler Bot
Postitaja: RLa 2015-01-16 02:42:03
Olen teinud sellised asju PhantomJS baasil.
RE: Crawler Bot
Postitaja: blaa 2015-01-18 12:39:35
ühe konkreetse lehe töötlemiseks ära hakka mingit süsteemi arendama

$str = file_get_contents('http://postimees.ee/')
preg_match_all('/class="foo" href="(.*)"/mUs', $str, $m, );

foreach ($m[1] as $v)
{
$str2 = file_get_contents('http://postimees.ee/'.$v[1]);
preg_match_all('/class="bar" href="(.*)"/mUs', $str2, $divs);
....
}
RE: Crawler Bot
Postitaja: blaa 2015-01-20 15:36:57
Anna veel nõu sellistele. Mingi ahv Eestist hakkaski mul veebi alla sikutama. Oleks siis viisakas ja küsiks, ma annaks niisama dumpi võibolla, aga ei, ikka on vaja veeb umbe lasta. Kümme päringut mitmest serverist ühe sekundi sees ja veel valetada ka, et on googlebot. Ega ma eile sündinud ei ole, et googlet ära ei tunne.


Kas on kellelgi mingi väga light skript, mida selliste vastu kasutusele võtta?
Peab vist ip järgi vaatama, et keegi ahneks ei läheks ja mingi sleepi vahele panema või 404 andma.
RE: Crawler Bot
Postitaja: rtfm 2015-01-20 22:41:04
pane varnish vahele

Leheküljed: 1

©2002-2013 Martin Rebane & PHP.ee kaasautorid
  0.0784659385681