爬虫方面的问题，返回不了网页里的信息。

response返回不了东西，运行结果只有一个None，我打印了一下data,
发现啥都没有。因为这个网站是外网，返回不到结果是不是与这个因素有关呢
还希望大佬能跑一下，解答一下我的问题。

from lxml import html
import requests

etree = html.etree
class News(object):

def __init__(self):

    self.url ='https://www.chinatimes.com/newspapers/260118'
    self.headers ={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"

    }

def get_data(self,url):
    response =requests.get(url,headers=self.headers)
    return response.content

def parse_data(self, data):
    # 创建 element对象
    data = data.decode()
    html = etree.HTML(data)
    el_list = html.xpath('/html/body/div[2]/div/div[2]/div/section/ul/li/div/div/div/h3/a/font')

    data_list = []

    for el in el_list:
        temp = {}
        temp['title'] = el.xpath('')[0]
        temp['link'] = 'https://www.chinatimes.com' + el.xpath("./@href")[0]
        data_list.append(temp)
     try:
        # 获取 下一页的url
        next_url = 'https://www.chinatimes.com' + html.xpath('/html/body/div[2]/div/div[2]/div/section/nav/ul/li[7]/a/@href')[0]

    except:
        next_url = None
    return data_list, next_url



def save_data(self, data_list):
    for data in data_list:
        print(data)

def run(self):
    # url

    next_url = self.url
    while True:

        data = self.get_data(next_url)       
        data_list, next_url = self.parse_data(data)
        self.save_data(data_list)
        print(next_url)

        if next_url == None:
            break

if name == '__main__':
news =News()
news.run()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
jxlyin 2019-08-01 16:46
关注
url = 'https://www.chinatimes.com/newspapers/260118'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
response = requests.get(url, headers=headers)

print(response.content)

返回正常

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python爬虫技术抓取简历信息
2025-06-26 13:24

Python爬虫技术在数据抓取领域扮演着重要的角色，尤其是在当今这个信息高速发展的社会中，我们经常会遇到需要从网络上自动化获取数据的情况。对于学生和职场人士来说，获取简历模板是一项常见的需求。使用Python爬虫...
网页爬虫_爬虫python_dancepca_python网页爬虫_爬虫_funnyzfy_
2021-10-01 17:32

在Python中，实现网页爬虫是非常常见的，因为Python提供了丰富的库和工具，使得爬虫开发变得简单易行。在这个主题中，我们将深入探讨Python中的网页爬虫技术，以及如何使用相关的库和工具进行爬虫开发。首先，我们...
python爬虫基础知识
2025-08-14 15:39

Python爬虫基础知识涵盖了HTTP请求处理、网页解析、数据提取和存储等多个方面。掌握这些基础知识，对于想要进入数据抓取领域的开发者来说至关重要。在实际应用中，还需要不断地实践和探索，以解决各种复杂多变的抓取...
python爬虫基础知识、爬虫实例、
2025-08-15 15:24

除了基础的爬虫知识和实践，Python爬虫开发还应考虑法律和道德问题。在使用爬虫技术时，必须遵守相关法律法规，尊重网站的版权和用户隐私。例如，在抓取网站数据前，应检查网站是否公开允许爬虫抓取；在使用抓取的...
Python整站下载基本代码（Python爬虫入门）
2025-10-24 10:29

在数据抓取和网站内容下载方面，Python提供了一系列强大的工具和库，如requests和BeautifulSoup，使得从互联网上抓取数据变得十分方便。 requests库是Python的一个非常流行的第三方库，它是一个HTTP库，用来发送...
基于Python的网络爬虫的毕业设计
2022-02-20 11:41

【标题】"基于Python的网络爬虫的毕业设计"涵盖了几个关键知识点，这些知识点对于理解和构建网络爬虫至关重要。...通过这个项目，你将深入理解网络爬虫的工作原理，提高Python编程技能，并锻炼解决实际问题的能力。
Python爬虫爬取壁纸
2024-11-22 17:28

Python爬虫的工作原理主要是通过模拟人类的上网行为，向网页发送请求，然后解析返回的数据，提取出所需的信息。在爬取壁纸的过程中，Python爬虫可以自动化地访问壁纸网站，获取页面中包含的壁纸链接，然后下载这些...
python爬虫-爬取豆瓣音乐
2023-05-30 23:18

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取网页数据成为数据分析、研究和应用的基础。本教程将聚焦于如何使用Python来爬取豆瓣音乐的相关信息，这涵盖了网页结构分析、HTTP请求、解析...
python 爬虫基础知识
2024-09-21 17:50

Python爬虫基础知识涉及了网络爬取技术的原理、实现方法以及应用范围等方面的内容。网络爬虫，或称网络蜘蛛，是一个自动提取网页内容的程序，它广泛用于互联网上各种数据的收集和整理。掌握Python爬虫技术，可以为...
音乐歌曲爬虫Python源码
2025-01-16 10:55

从编程技术的角度来看，该音乐歌曲爬虫Python源码的开发涉及到Python语言的多个方面，如网络请求、数据解析、数据存储等。它可能使用了如requests库来发送网络请求，BeautifulSoup或lxml库来解析返回的网页内容，...
没有解决我的问题, 去提问

爬虫方面的问题，返回不了网页里的信息。

3条回答 默认 最新

3条回答默认最新