爬虫方面的问题,返回不了网页里的信息。

response返回不了东西,运行结果只有一个None,我打印了一下data,
发现啥都 没有。因为这个网站是外网,返回不到结果是不是与这个因素有关呢
还希望大佬 能跑一下,解答一下我的问题。

from lxml import html
import requests

etree = html.etree
class News(object):

def __init__(self):

    self.url ='https://www.chinatimes.com/newspapers/260118'
    self.headers ={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"

    }

def get_data(self,url):
    response =requests.get(url,headers=self.headers)
    return response.content

def parse_data(self, data):
    # 创建 element对象
    data = data.decode()
    html = etree.HTML(data)
    el_list = html.xpath('/html/body/div[2]/div/div[2]/div/section/ul/li/div/div/div/h3/a/font')

    data_list = []

    for el in el_list:
        temp = {}
        temp['title'] = el.xpath('')[0]
        temp['link'] = 'https://www.chinatimes.com' + el.xpath("./@href")[0]
        data_list.append(temp)
     try:
        # 获取 下一页的url
        next_url = 'https://www.chinatimes.com' + html.xpath('/html/body/div[2]/div/div[2]/div/section/nav/ul/li[7]/a/@href')[0]

    except:
        next_url = None
    return data_list, next_url



def save_data(self, data_list):
    for data in data_list:
        print(data)

def run(self):
    # url

    next_url = self.url
    while True:

        data = self.get_data(next_url)       
        data_list, next_url = self.parse_data(data)
        self.save_data(data_list)
        print(next_url)

        if next_url == None:
            break

if name == '__main__':
news =News()
news.run()

3个回答

url = 'https://www.chinatimes.com/newspapers/260118'
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"}
response = requests.get(url, headers=headers)

print(response.content)

返回正常
图片说明

fiddler抓包调试下,这个网站是台湾地区的,并且有跳转(似乎是文章不存在)。首先确保能访问,其次确保你跟着跳转到新地址了。

动机不纯
你看台湾网站想干嘛

qq_21240643
晨曦星语 看个台湾网站就动机不纯了?
3 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!

相似问题

5
在做爬虫时cookie问题,地址重定向获取不到cookie
3
python爬虫抓取亚马逊商品名,一段时间后大量返回503错误?
1
Java爬虫如何实现在需要点击的网页中获取需要的内容
1
网络爬虫无法翻页的问题?
2
关于爬虫爬取动态网页的问题
2
在编写静态网页爬虫,检查元素时发现在标签里面href所指的链接不全怎么办呀,怎么获得完整的url?
2
爬虫爬取1688返回response成功但是内容为空?
2
python爬虫中用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位?谢谢~
0
公司网页管理系统的数据想存到自己的数据库里管理,获取数据的方式是爬虫技术吗?
1
初学爬虫,requests抓取不到网页
0
python3爬虫登陆需要验证码时的相关问题
1
爬虫中对于数据的处理(去除一个链接)
1
python爬虫爬取网页信息问题
2
python3中async/await 爬虫与scrapy爬虫的疑惑
2
请问可以把爬虫数据不经过数据库直接显示到html去吗?最近在学django框架
2
爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?
1
Python爬虫,进去一个网页之后,想要跳转到这个网页的子网页爬取,但是必须通过主网页点击才能进去。
1
python爬虫:soup.select()抓取信息路径表达问题
3
Python做的爬虫怎么放到微信小程序上面去?
2
beautifulsoup爬虫问题