Primul tau scraper

Postat de Florin in Black Hat. 2 Comentarii »

Ca black hatter trebuie neaparat sa automatizezi cat mai multe din actiunile de optimizare. Una dintre aceste actiuni este “colectarea de continut”. Desi ai putea sa dai copy & paste la cateva sute sau chiar mii de pagini, nu as recomanda asta.

Atentie: copierea si postarea continutului de orice fel asupra caruia nu ai drepturi se numeste incalcarea copyright-ului, aceasta practica fiind ilegala!

Ca sa ne scutim de mai multa treaba folosim libraria de functii Simple HTML DOM. Functiile acestea ne vor ajuta sa extragem elementele dorite cu doar cateva linii de cod.

1
2
3
4
5
6
7
8
include('simplehtmldom/simple_html_dom.php');
$url = file_get_html('http://www.greentwinkie.com/');

$html = file_get_html($url);

foreach($html->find('div[class=node]') as $node) {
    echo $node;
}

Ok, nu e chiar avansat dar nici nu o sa va dau chiar tot codul acum, trebuie sa va descurcati singuri.

Desigur, un scraper bun filtreaza codul html si javascript si lasa doar ce ne intereseaza, precum paragrafe, break-uri, si alte elemente de stil care nu sunt “nocive”. In plus, daca vrem sa integram textul in cms-uri existente ar fi bine sa avem titlurile si partea de continut in bucati diferite.

Cu putin PHP si MySQL poti ajunge destul de departe in optimizare, fie ca e blackhat sau whitehat.

Later edit: am incercat cateva plugin-uri pentru code highlighting si d-abia al treilea a mers.

Required reading (bloguri blackhat)

Postat de Florin in Black Hat. Nici un comentariu »

Dupa cum o sa vedeti in perioada urmatoare o sa incerc sa postez mai mult despre aspectul blackhat al optimizarii. Chiar daca nu sunteti deloc de acord cu aceste metode este bine sa stiti ce se intampla.

Si acum cateva site-uri pe care s-ar putea sa le stiti (sau nu) pana incep sa postez si eu cateva idei de-ale mele:

BlueHatSeo.com – informatii de clasa intai, probabil cel mai tare blog pe domeniu. Posturile despre imperiul seo ar trebui sa fie citite de orice blackhat newbie. Daca vreti sa stati totusi pe partea mai cuminte sunt cel putin doua posturi care o sa va ajute sa mariti traficul.

Blog.5ubliminal.com – asta e noua adresa a blogului de la TellinYa.com. Din punct de vedere al articolelor rivalizeaza cu BlueHatSeo, dar ofera si niste soft si scripturi gratuite destul de bune, ceea ce s-ar putea sa il faca chiar un pic mai valoros ca resursa de BH. Dintre bijuterii: cum sa controlezi Wordpress de la distanta, o mica lectie de scraping si cum sa iti faci un link farm destept.

SlightlyShadySEO.com – blogul lui XMCP. Unul dintre singurele bloguri care are constant informatii bune despre blackhat, chiar ma uimeste uneori de unde le scoate pe toate :) : primul setup de blackhat, automarea sistemului de optimizare, ghid rapid pentru nise si Imperiul Google sunt doar unele dintre multele articole de calitate.

Fantomaster.com – unul dintre cei mai batrani blackhatter-i, iar experienta se vede :).

SeoBlackHat.com – din pacate nu a mai postat ceva “valoros” in ultimul timp, dar a fost unul dintre primele bloguri de optimizare BH asa ca trebuie mentionat.

DigeratiMarketing.co.uk – nu posteaza prea des dar de obicei are informatii bune. Daca nu stiti sa codati s-ar putea sa va fie de ajutor toolbox-ul de scripturi iar postul despre seo warfare este destul de bun din punctul meu de vedere.

BlackHat360.com – nu prea are activitate dar cele 3 posturi de pana acum sunt foarte interesante; optimizatorii whitehat ar trebui sa arunce si ei un ochi aici.

DarkSeoProgramming.com – dupa cum spune si numele site-ului, aici veti gasi mai mult cod decat altceva. Adevarul este ca de aici am invatat sa fac primul scraper.

Blackhatseo-blog.com – blogul lui busin3ss, creatorul YACG si BlogFarmExplosion.

ContentGeneration.org – articole de foarte buna calitate, cititi-le pe toate.

Acestea sunt doar cateva dintre blogurile pe care le citesc, dar va puteti face o imagine destul de buna despre ceea ce este blackhat-ul. Foarte multi cred ca optimizarea BH este mai usoara, dar dimpotriva – trebuie sa cititi mult mai mult si cerintele tehnice sunt mult mai prohibitive. Fara cel putin un limbaj de programare nu va puteti descurca, asta pe langa ore intregi de citit si testat in fiecare zi.

Off topic: cat de curand o sa incerc sa integrez comentariile si trackback-urile in tema. Comunitatea de optimizare si online marketing este mult mai mare decat acum 2 ani, poate chiar 3, cand am inceput blogul si desigur vreau sa aflu parerea voastra!

La ce sunt bune directoarele web?

Postat de Florin in Black Hat, Optimizare. 1 Comentariu »

Krumel si Remus au scris despre inscrierea in directoarele web. Sunt de acord cu ei – merita sa iti inscrii site-ul in directoare, mai ales ca pentru domeniile cu competitie mica poti sa ajungi pe primele locuri doar cu asta.

Totusi, mintea mea lucreaza un pic mai altfel :) – daca domeniul in care activezi este ceva mai competitiv s-ar putea sa fii nevoit sa folosesti metode mai neortodoxe. In cazul acesta directoarele au un rol destul de important: ele imping in jos link-urile mai putin curate.

Desigur, daca site-ul respectiv este investigat mai mult de cateva minute aparentele nu vor rezista. Totusi, nu strica un mic “buffer”.

Technorati Tags: , ,