Primul tau scraper

Postat de Florin in Black Hat. 3 Comentarii »

Ca black hatter trebuie neaparat sa automatizezi cat mai multe din actiunile de optimizare. Una dintre aceste actiuni este “colectarea de continut”. Desi ai putea sa dai copy & paste la cateva sute sau chiar mii de pagini, nu as recomanda asta.

Atentie: copierea si postarea continutului de orice fel asupra caruia nu ai drepturi se numeste incalcarea copyright-ului, aceasta practica fiind ilegala!

Ca sa ne scutim de mai multa treaba folosim libraria de functii Simple HTML DOM. Functiile acestea ne vor ajuta sa extragem elementele dorite cu doar cateva linii de cod.


include('simplehtmldom/simple_html_dom.php');
$html = file_get_html('http://www.greentwinkie.com/');

foreach($html->find('div[class=node]') as $node) {
echo $node;
}

Ok, nu e chiar avansat dar nici nu o sa va dau chiar tot codul acum, trebuie sa va descurcati singuri.

Desigur, un scraper bun filtreaza codul html si javascript si lasa doar ce ne intereseaza, precum paragrafe, break-uri, si alte elemente de stil care nu sunt “nocive”. In plus, daca vrem sa integram textul in cms-uri existente ar fi bine sa avem titlurile si partea de continut in bucati diferite.

Cu putin PHP si MySQL poti ajunge destul de departe in optimizare, fie ca e blackhat sau whitehat.

Later edit: am incercat cateva plugin-uri pentru code highlighting si d-abia al treilea a mers.

3 Comentarii la “Primul tau scraper”

  1. cretu remus Says:

    Personal prefer CURL pe php si regexpurile pt curatat contentul 🙂

  2. Florin Says:

    Si eu merg pe CURL, dar pentru curatat folosesc o combinatie de regexp pentru comentarii si blocurile de text mai mari de genul adsense si striptags pentru tag-uri (de obicei las neatinse br,p,ul,li… astea inofensive care lasa textului o aparenta cat de cat).

  3. Horia Says:

    Personal cred ca pythonul ofera cele mai simple solutii pentru scrapingul de orice fel, de la continut pana la imagini si fisiere. Vine la pachet cu urlib, iar combinandul cu libraria Beautifoulsoup, sau jusText pentru curatarea continutului si o baza de date mongodb pentru stocare, ai instant cu doar vro 10 20 linii de cod un scraper performant si scalabil si extraordinar de simplu de folosit.

Lasa un comentariu: