Primul tau scraper

Postat de Florin in Black Hat. 2 Comentarii »

Ca black hatter trebuie neaparat sa automatizezi cat mai multe din actiunile de optimizare. Una dintre aceste actiuni este “colectarea de continut”. Desi ai putea sa dai copy & paste la cateva sute sau chiar mii de pagini, nu as recomanda asta.

Atentie: copierea si postarea continutului de orice fel asupra caruia nu ai drepturi se numeste incalcarea copyright-ului, aceasta practica fiind ilegala!

Ca sa ne scutim de mai multa treaba folosim libraria de functii Simple HTML DOM. Functiile acestea ne vor ajuta sa extragem elementele dorite cu doar cateva linii de cod.

1
2
3
4
5
6
7
8
include('simplehtmldom/simple_html_dom.php');
$url = file_get_html('http://www.greentwinkie.com/');

$html = file_get_html($url);

foreach($html->find('div[class=node]') as $node) {
    echo $node;
}

Ok, nu e chiar avansat dar nici nu o sa va dau chiar tot codul acum, trebuie sa va descurcati singuri.

Desigur, un scraper bun filtreaza codul html si javascript si lasa doar ce ne intereseaza, precum paragrafe, break-uri, si alte elemente de stil care nu sunt “nocive”. In plus, daca vrem sa integram textul in cms-uri existente ar fi bine sa avem titlurile si partea de continut in bucati diferite.

Cu putin PHP si MySQL poti ajunge destul de departe in optimizare, fie ca e blackhat sau whitehat.

Later edit: am incercat cateva plugin-uri pentru code highlighting si d-abia al treilea a mers.

2 Comentarii la “Primul tau scraper”

  1. cretu remus Says:

    Personal prefer CURL pe php si regexpurile pt curatat contentul :)

  2. Florin Says:

    Si eu merg pe CURL, dar pentru curatat folosesc o combinatie de regexp pentru comentarii si blocurile de text mai mari de genul adsense si striptags pentru tag-uri (de obicei las neatinse br,p,ul,li… astea inofensive care lasa textului o aparenta cat de cat).

Lasa un comentariu: