
本篇文章為大家展示了如何在PHP中利用CURL對網頁進行抓取,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。

PHP 利用 Curl Functions 可以完成各種傳送文件操作,比如模擬瀏覽器發(fā)送GET,POST請求等等,受限于php語言本身不支持多線程,所以開發(fā)爬蟲程序效率并不高,這時候往往需 要借助Curl Multi Functions 它可以實現(xiàn)并發(fā)多線程的訪問多個url地址。既然 Curl Multi Function如此強大,能否用 Curl Multi Functions 來寫并發(fā)多線程下載文件呢,當然可以,下面給出我的代碼:
代碼1:將獲得的代碼直接寫入某個文件
$url) {
$conn[$i] = curl_init($url);
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
curl_setopt($conn[$i], CURLOPT_HEADER ,0);
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt($conn[$i], CURLOPT_FILE,$st); // 設置將爬取的代碼寫入文件
curl_multi_add_handle ($mh,$conn[$i]);
} // 初始化
do {
curl_multi_exec($mh,$active);
} while ($active); // 執(zhí)行
foreach ($urls as $i => $url) {
curl_multi_remove_handle($mh,$conn[$i]);
curl_close($conn[$i]);
} // 結束清理
curl_multi_close($mh);
fclose($st);
?>代碼2:將獲得的代碼先放入變量,再寫入某個文件
$url) {
$conn[$i] = curl_init($url);
curl_setopt($conn[$i], CURLOPT_USERAGENT, "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)");
curl_setopt($conn[$i], CURLOPT_HEADER ,0);
curl_setopt($conn[$i], CURLOPT_CONNECTTIMEOUT,60);
curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,true); // 設置不將爬取代碼寫到瀏覽器,而是轉化為字符串
curl_multi_add_handle ($mh,$conn[$i]);
}
do {
curl_multi_exec($mh,$active);
} while ($active);
foreach ($urls as $i => $url) {
$data = curl_multi_getcontent($conn[$i]); // 獲得爬取的代碼字符串
fwrite($st,$data); // 將字符串寫入文件。當然,也可以不寫入文件,比如存入數(shù)據庫
} // 獲得數(shù)據變量,并寫入文件
foreach ($urls as $i => $url) {
curl_multi_remove_handle($mh,$conn[$i]);
curl_close($conn[$i]);
}
curl_multi_close($mh);
fclose($st);
?>上述內容就是如何在PHP中利用CURL對網頁進行抓取,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。