使用curl从网页中获取内容

First of all have a look at here,

www.zedge.net/txts/4519/

this page has so many text messages , I want my script to open each of the message and download it, but i am having some problem,

This is my simple script to open the page,

<?php
 $ch = curl_init();
 curl_setopt($ch, CURLOPT_URL, "http://www.zedge.net/txts/4519");
 $contents = curl_exec ($ch);
 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
 curl_close ($ch);
?>

The page download fine but how would i open every text message page inside this page one by one and save its content in a text file, I know how to save the content of a webpage in a text file using curl but in this case there are so many different pages inside the page i've downloaded how to open them one by one seperately ?

I've this idea but don't know if it will work,

Downlaod this page,

www.zedge.net/txts/4519

look for the all the links of text messages page inside the page and save each link into one text file (one in each line), then run another curl session , open the text file read each link one by one , open it copy the content from the particular DIV and then save it in a new file.

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
drtj40036 2012-02-26 13:24
关注
The algorithm is pretty straight forward:

download www.zedge.net/txts/4519 with curl

parse it with DOM (or alternative) for links

either store them all into text file/database or process them on the fly with "subrequest"

// Load main page $ch = curl_init(); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_URL, "http://www.zedge.net/txts/4519"); $contents = curl_exec ($ch); $dom = new DOMDocument(); $dom->loadHTML( $contents); // Filter all the links $xPath = new DOMXPath( $dom); $items = $xPath->query( '//a[class=myLink]'); foreach( $items as $link){ $url = $link->getAttribute('href'); if( strncmp( $url, 'http', 4) != 0){ // Prepend http:// or something } // Open sub request curl_setopt($ch, CURLOPT_URL, "http://www.zedge.net/txts/4519"); $subContent = curl_exec( $ch); }

See documentation and examples for xPath::query, note that DOMNodeList implements Traversable and therefor you can use foreach.

Tips:

Use curl opt COOKIE_JAR_FILE

Use sleep(...) not to flood server

Set php time and memory limit
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

php curl获取网页内容(IPV6下超时)的解决办法
2020-10-27 02:36

当我们在使用PHP的cURL库来获取网页内容时，如果遇到IPv6环境下超时的问题，这通常是由于cURL在开启IPv6支持的情况下，会优先尝试解析IPv6地址。如果目标网站的域名并没有配置IPv6地址，cURL会等待IPv6解析失败之后...
PHP中使用CURL获取页面title例子
2020-10-24 22:16

本文将介绍如何利用PHP中的CURL功能，获取一个网页中的标签内容。除了使用CURL外，还将用到正则表达式（regex）来解析和提取所需数据。首先，我们要了解CURL在PHP中的基本用法。CURL可以用来做很多事情，比如发送...
PHP中使用CURL模拟登录并获取数据实例
2020-10-25 17:24

使用cURL可以有效地抓取网页内容，并且可以处理cookie，从而进行有效的模拟登录。在PHP中开启cURL扩展非常简单，通常在php.ini文件中将extension=curl;前的分号去掉即可。当遇到登录需要时，我们可以使用POST方法...
php获取网页内容方法总结
2020-10-30 03:53

PHP中的cURL模块提供了一个面向对象和过程化的接口来使用cURL库。使用cURL可以实现更多自定义的功能，例如设置超时时间、自定义HTTP头、处理cookies等。使用cURL获取网页内容的示例代码如下： ```php $url = "***...
php使用curl获取header检测开启GZip压缩的方法
2020-10-18 05:21

总的来说，了解如何在PHP中使用cURL获取和检查HTTP头部信息，对于进行网站性能优化、诊断问题或自动化测试都是非常有用的技能。通过本文介绍的方法，你现在应该能够轻松地检测出任何网站是否启用了GZip压缩。
PHP中使用curl入门教程
2020-10-23 23:50

在本文中，我们将详细介绍PHP中curl的基本使用方法，包括curl的概念、安装过程、以及在PHP中使用curl的四个基本步骤，并且通过一个简单的代码示例来展示如何利用curl来抓取网页内容。首先，我们需要对curl有一个...
php中抓取网页内容的实例详解
2020-10-19 07:37

本文将详细介绍两种在PHP中抓取网页内容的实例方法：使用`file_get_contents`函数和使用cURL库。 ### 方法一：使用`file_get_contents` `file_get_contents`是PHP内建的一个函数，用于读取文件或URL的内容。在抓取...
php curl 无法获取网页内容,php curl获取网页内容(IPV6下超时)的解决办法
2021-04-21 19:55

一大口汤的博客原因：在程序中我对curl获取内容都作了较为严格的超时限制，所以就会造成无法获取内容的问题。解决方法：设置默认访问为ipv4。php的curl设置方法如下：代码如下:/*** IPV6下curl超时问题*/$ch = curl_init();curl_...
curl不使用文件存取cookie php使用curl获取cookie示例
2020-10-26 08:46

标题和描述中提到的知识点是关于在PHP中使用curl库来获取和使用cookie而不将cookie保存到文件中。这种做法通常用于处理需要登录认证后才能访问的网页，其中服务器通过设置Set-Cookie响应头来向客户端发送cookie，...
PHP编程使用Curl方法获取目标网页内容插件.rar
2019-07-14 05:14

设计插件的目的是当需要读取网页内容时，可以用本插件取代file_get_contents()函数。它接受网页的URL地址和准备模仿的浏览器用户代理字符串。若调用成功，返回这个网页的内容，若调用失败，返回FALSE...
PHP中使用cURL操作网络资源1
2022-08-08 22:44

cURL是客户端URL库的缩写，它允许开发者在PHP中发送各种HTTP请求，包括GET、POST、PUT等。在这个案例中，我们将利用cURL实现以下功能： 1. 网页爬虫：抓取指定网页的内容并进行处理。 2. WebService调用：通过...
php应用curl扩展抓取网页类.zip
2019-07-11 13:43

在PHP中，cURL通过`curl_init()`函数启动一个会话，`curl_setopt()`设置各种选项，最后`curl_exec()`执行请求并获取响应。这个特定的PHP类库，名为"PHP cURL Webpage Scraper Class"（假设），可能包含以下主要...
php curl抓取网页的介绍和推广及使用CURL抓取淘宝页面集成方法
2020-10-23 05:52

在PHP中添加curl扩展一般有两个步骤：首先需要在编译PHP时加入CURL支持，使用--with-curl参数；其次，需要在php.ini配置文件中开启php_curl.dll扩展。安装完成之后，就可以使用PHP curl提供的系列函数了。 PHP curl...
PHP 获取远程网页内容的代码(fopen,curl已测)
2020-10-28 12:54

在互联网应用中，获取远程网页内容是一项基础且重要的操作，这在编写爬虫程序、数据采集、动态内容加载等多种场景中广泛使用。PHP作为一门广泛使用的服务器端脚本语言，提供了多种方法来实现这一功能。本文将详细...
PHP读取网页文件内容的实现代码(fopen,curl等)
2020-10-28 12:21

完成设置后执行curl_exec，获取网页内容，并在最后关闭curl会话。编码转换是处理网页内容时经常需要进行的操作。由于不同网站可能使用不同的编码，直接读取后可能会导致乱码。在本文中，使用了iconv函数来进行编码...
PHPCurl使用详解.doc
2022-01-12 18:19

PHPcURL是一个用于在PHP中实现HTTP和其他协议通信的库，它通过cURL库提供了一个接口，使得开发者能够轻松地处理文件传输、网页抓取、数据提交等多种网络操作。cURL支持众多协议，如FTP、FTPS、HTTP、HTTPS、SCP、...
没有解决我的问题, 去提问

使用curl从网页中获取内容

2条回答 默认 最新

2条回答默认最新