Primul tau scraper
Ca black hatter trebuie neaparat sa automatizezi cat mai multe din actiunile de optimizare. Una dintre aceste actiuni este “colectarea de continut”. Desi ai putea sa dai copy & paste la cateva sute sau chiar mii de pagini, nu as recomanda asta.
Atentie: copierea si postarea continutului de orice fel asupra caruia nu ai drepturi se numeste incalcarea copyright-ului, aceasta practica fiind ilegala!
Ca sa ne scutim de mai multa treaba folosim libraria de functii Simple HTML DOM. Functiile acestea ne vor ajuta sa extragem elementele dorite cu doar cateva linii de cod.
1 2 3 4 5 6 7 8 | include('simplehtmldom/simple_html_dom.php'); $url = file_get_html('http://www.greentwinkie.com/'); $html = file_get_html($url); foreach($html->find('div[class=node]') as $node) { echo $node; } |
Ok, nu e chiar avansat dar nici nu o sa va dau chiar tot codul acum, trebuie sa va descurcati singuri.
Desigur, un scraper bun filtreaza codul html si javascript si lasa doar ce ne intereseaza, precum paragrafe, break-uri, si alte elemente de stil care nu sunt “nocive”. In plus, daca vrem sa integram textul in cms-uri existente ar fi bine sa avem titlurile si partea de continut in bucati diferite.
Cu putin PHP si MySQL poti ajunge destul de departe in optimizare, fie ca e blackhat sau whitehat.
Later edit: am incercat cateva plugin-uri pentru code highlighting si d-abia al treilea a mers.


May 25th, 2009 at 10:25 am
Personal prefer CURL pe php si regexpurile pt curatat contentul :)
August 5th, 2009 at 4:30 pm
Si eu merg pe CURL, dar pentru curatat folosesc o combinatie de regexp pentru comentarii si blocurile de text mai mari de genul adsense si striptags pentru tag-uri (de obicei las neatinse br,p,ul,li… astea inofensive care lasa textului o aparenta cat de cat).