Semalt: 3 kroky k zoškrabovaniu webovej stránky PHP

Zoškrabanie webu, nazývané aj získavanie webových údajov alebo ich zber, je proces získavania údajov z webovej stránky alebo blogu. Tieto informácie sa potom používajú na nastavenie metaznačiek, meta popisov, kľúčových slov a odkazov na stránky, čím sa zvyšuje jej celkový výkon vo výsledkoch vyhľadávacieho nástroja.

Na zoškrabovanie údajov sa používajú dve hlavné techniky:

  • Analýza dokumentov - zahŕňa dokument XML alebo HTML, ktorý sa skonvertuje na súbory DOM (Object Object Model). PHP nám poskytuje skvelé rozšírenie DOM.
  • Regulárne výrazy - Je to spôsob zoškrabovania údajov z webových dokumentov vo forme regulárnych výrazov.

Problém so škrabacími údajmi na webovej stránke tretej strany súvisí s jej autorskými právami, pretože nemáte povolenie na použitie týchto údajov. Ale s PHP môžete ľahko zoškrabať údaje bez problémov spojených s autorskými právami alebo nízkou kvalitou. Ako programátor PHP možno budete potrebovať údaje z rôznych webových stránok na účely kódovania. Tu sme vysvetlili, ako efektívne získavať údaje z iných stránok, ale predtým by ste mali mať na pamäti, že na konci získate buď súbory index.php alebo scrape.js.

Kroky 1: Vytvorenie formulára na zadanie adresy URL webových stránok:

Najprv by ste mali vytvoriť formulár v index.php kliknutím na tlačidlo Odoslať a zadaním adresy URL webových stránok na zoškrabanie údajov.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Zadajte webovú adresu webovej stránky na zoškrabanie údajov

<input type = "input" name = "website_url" id = "website_url">

<input type = "submit" name = "submit" value = "Submit">

</ Form>

Kroky 2: Vytvorenie funkcie PHP na získanie údajov o webových stránkach:

Druhým krokom je vytvorenie scrapov funkcií PHP v súbore scrape.php, pretože pomôže získať údaje a použiť knižnicu URL. Umožní vám tiež bez problémov komunikovať a komunikovať s rôznymi servermi a protokolmi.

function scrapeSiteData ($ website_url) {

if (! function_exists ('curl_init'))) {

die ('cURL nie je nainštalovaný. Nainštalujte a skúste to znova.');

}

$ curl = curl_init ();

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ output = curl_exec ($ curl);

curl_close ($ curl);

návrat $ výstup;

}

Tu vidíme, či bol PHP cURL nainštalovaný správne alebo nie. V oblasti funkcií sa musia použiť tri hlavné cURL a curl_init () pomôže inicializovať relácie, curl_exec () to vykoná a curl_close () pomôže ukončiť spojenie. Premenné ako CURLOPT_URL sa používajú na nastavenie webových adries webových stránok, ktoré musíme zoškrabať. Druhý CURLOPT_RETURNTRANSFER pomôže uložiť zoškriabané stránky v premennej forme namiesto jej predvolenej formy, ktorá nakoniec zobrazí celú webovú stránku.

Kroky 3: zoškrabanie konkrétnych údajov z webovej stránky:

Je čas spracovať funkčnosť súboru PHP a zoškrabať konkrétnu časť webovej stránky. Ak nechcete všetky údaje z konkrétnej adresy URL, mali by ste ich upraviť pomocou premenných CURLOPT_RETURNTRANSFER a zvýrazniť sekcie, ktoré chcete zoškrabať.

if (isset ($ _ POST [ 'submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Najnovšie príspevky');

$ end_point = strpos ($ html, '', $ start_point);

$ length = $ end_point- $ start_point;

$ html = subst ($ html, $ start_point, $ length);

echo $ html;

}

Odporúčame vám, aby ste si pred použitím niektorého z týchto kódov alebo zoškrabaním konkrétneho blogu alebo webovej stránky na osobné účely rozvinuli základné znalosti PHP a regulárnych výrazov.