Back to Question Center
0

Semalt: 3 Nzọụkwụ Iji PHP Web Page Scraping

1 answers:

Nchịkọta weebụ, nke a na-akpọ nchịkọta data weebụ ma ọ bụ nchịkọta weebụ, bụ usoro nke wepu data site na weebụsaịtị ma ọ bụ blog. A na-eji ozi a iji dozie mkpado atọ, nkọwa meta, isiokwu na njikọta na saịtị, rụọ ọrụ ya n'ozuzu ya na nsonaazụ ọchụchọ.

  • Nkọwa akwụkwọ - Ọ na-agụnye akwụkwọ XML ma ọ bụ HTML nke a gbanwere na DOM (Model Model Model). ) faịlụ. PHP na-enye anyị nnukwu mgbasa ozi DOM - guenstige reinigungsfirma.
  • Nkwupụta mgbe nile - Ọ bụ ụzọ isi nyocha data sitere na akwụkwọ weebụ dị n'ụdị okwu mgbe niile.

Ihe iseokwu nke nchịkọta weebụ nke ndị ọzọ na-ejikọta ya na nwebisiinka n'ihi na ịnweghị ikikere iji data a. Ma na PHP, ịnwere ike iwepu data n'enweghị nsogbu ndị ejikọtara na nwebisiinka ma ọ bụ dị ala dị ala. Dịka onye mmemme PHP, ịnwere ike ịnweta data si na weebụsaịtị dị iche iche maka nzube nzuzo. N'ebe a, anyị akọwawala esi enweta data site na saịtị ndị ọzọ nke ọma, mana tupu nke a, ị ga-eburu n'uche na n'ikpeazụ ị ga-enweta faịlụ index.php ma ọ bụ faịlụ scrape.js.

Nzọụkwụ 1: Mepụta Mpempe akwụkwọ iji banye na URL Weebụ:

Nke mbụ, ị kwesịrị ịmepụta ụdị dị na index.php site na ịpị bọtịnụ nyefere ma tinye na URL weebụsaịtị maka nchịkọta data.



Bịanye weebụsaịtị URL Iji Wepụ Data



Nzọụkwụ2: Mepụta PHP Ọrụ I Chọta Data Webs:

Nzọụkwụ nke abụọ bụ imepụta Ọrụ PHP na-efopụ na faịlụ scrape.php dịka ọ ga-enye aka inweta data ma jiri URL agụ akwụkwọ. Ọ ga-emekwa ka ị jikọọ ma kwurịta okwu na sava dị iche iche na ogbugba ndu n'enweghị nsogbu ọ bụla..

ọrụ scrapeSiteData ($ website_url) {

ma ọ bụrụ na (!) Function_exists ('curl_init')) {

nwụọ ('cURL adịghị arụnyere. ');

}

$ curl = curl_init

;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, eziokwu);

$ mmepụta = curl_exec ($ curl);

curl_close ($ curl);

weghachi $ mmepụta;

}

N'ebe a, anyị nwere ike ịhụ ma etinyere PHP cURL n'ụzọ ziri ezi ma ọ bụ. A ghaghị iji ogwe isi atọ nwere ọrụ na mpaghara ọrụ na curl_init

ga-enyere aka ịmalite mmemme ahụ, curl_exec

ga-eme ya na curl_close

ga-enyere aka mechie njikọ ahụ. A na-eji mgbanwe dị iche iche dị ka CURLOPT_URL mee ka ebe nrụọrụ weebụ Weebụ dị mkpa iji kpochapụ. Nke abụọ CURLOPT_RETURNTRANSFER ga-enye aka ịchekwaa akwụkwọ ndị a kpochapụrụ na ụdị mgbanwe ahụ kama ọdịdị ya, nke ga-emesị gosipụta ibe weebụ niile.

Nzọụkwụ 3: Nkọwapụta Data Nkọwapụta sitere na Websaịtị:

Ọ bụ oge iji rụọ ọrụ nke faịlụ PHP gị ma kpochapụ akụkụ ụfọdụ nke ibe weebụ gị. Ọ bụrụ na ịchọọghị data niile site na URL kpọmkwem, ị ga-dezie iji mgbanwe CURLOPT_RETURNTRANSFER ma mee ka akụkụ ndị ịchọrọ ịchọta.

ma ọ bụrụ na - (set ($ _ POST ['submit'])) (

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Kacha ọhụrụ na posts');

$ end_point = nsogbu ($ html, '', $ start_point);

$ ogologo = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ n'ogologo);

ikwughachi $ html;

}

Anyị na-atụ aro ị ịzụlite ihe ọmụma dị omimi nke PHP na okwu niile mgbe ị na-eji nke ọ bụla n'ime koodu ndị a ma ọ bụ kpochapụ otu blog ma ọ bụ weebụsaịtị maka nzube onwe onye.

December 8, 2017