Primul tau scraper

Postat de Florin in Black Hat. Nici un comentariu »

Ca black hatter trebuie neaparat sa automatizezi cat mai multe din actiunile de optimizare. Una dintre aceste actiuni este “colectarea de continut”. Desi ai putea sa dai copy & paste la cateva sute sau chiar mii de pagini, nu as recomanda asta.

Atentie: copierea si postarea continutului de orice fel asupra caruia nu ai drepturi se numeste incalcarea copyright-ului, aceasta practica fiind ilegala!

Ca sa ne scutim de mai multa treaba folosim libraria de functii Simple HTML DOM. Functiile acestea ne vor ajuta sa extragem elementele dorite cu doar cateva linii de cod.


include('simplehtmldom/simple_html_dom.php');
$html = file_get_html('http://www.greentwinkie.com/');

foreach($html->find('div[class=node]') as $node) {
echo $node;
}

Ok, nu e chiar avansat dar nici nu o sa va dau chiar tot codul acum, trebuie sa va descurcati singuri.

Desigur, un scraper bun filtreaza codul html si javascript si lasa doar ce ne intereseaza, precum paragrafe, break-uri, si alte elemente de stil care nu sunt “nocive”. In plus, daca vrem sa integram textul in cms-uri existente ar fi bine sa avem titlurile si partea de continut in bucati diferite.

Cu putin PHP si MySQL poti ajunge destul de departe in optimizare, fie ca e blackhat sau whitehat.

Later edit: am incercat cateva plugin-uri pentru code highlighting si d-abia al treilea a mers.