Python爬虫爬取不到内容

使用python爬取有关地铁的评价，程序运行后文档却是空的。

import time 
import csv
import codecs
import requests
from pyquery import PyQuery as pq

#请求头
headers = {
    'user-agent' :
    'referer' : 
    'cookie' :
}

#Request URL
base_url = 
include = 
# 获得页面
def get_page(offset):
    page_url = 'include=' + include + '&limit=5&' + 'offset=' + str(offset) + '&platform=desktop&sort_by=default'
    url = base_url + page_url
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:    #请求成功
            #print("success")
            return response.json()
    except requests.ConnectionError as e:
        print('Error', e.args)
        
# 时间戳转化为年-月-日 时-分-秒
def TimeStampToTime(timestamp):
    timeStruct = time.localtime(timestamp)
    return time.strftime('%Y-%m-%d %H:%M:%S', timeStruct)

# 解析网页
def parse_page(json):
    if json:
        items = json.get('data')
        for item in items:  # items: 一条报文中的所有回答 
            zhihu = {}
            zhihu['作者'] = item.get('author').get('name')
            zhihu['user_token'] = item.get('author').get('url_token')
            zhihu['回答'] = pq(item.get('content')).text()
            zhihu['创建时间'] = TimeStampToTime(item.get('updated_time'))
            zhihu['赞同数'] = item.get('voteup_count')
            zhihu['评论数'] = item.get('comment_count')
            yield zhihu
            
if __name__ == '__main__':
    i = 0  
    f = codecs.open('test.csv', 'w+', 'utf_8_sig')
    f_txt = open('test.txt', 'w+', encoding='utf_8')
    fieldnames = ['作者', 'user_token', '回答', '创建时间', '赞同数', '评论数']
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()

    while True:
        js = get_page(i*5)  # 根据报文首个回答对应的索引值获取页面
        results = parse_page(js)
        for res in results:
            writer.writerow(res)
            for detail in res.values():
                f_txt.write(str(detail) + '\n')
            f_txt.write('\n' + '*' * 50 + '\n')  # 分隔符
        if js != None and js.get('paging').get('is_end'):
            print('finish!')
            break
        i += 1
    
    f.close()
    f_txt.close()

避免以隐私内容省去了headers和url

是getpage函数有问题还是网页解析有问题，应该如何改进？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
索利亚噶通 2022-05-08 15:18
关注
应该是没有解析网页的缘故吧，照理来说response返回的应该是一个网页，包括html代码的那种；你连xpath路径或者其他定位方式都没写，不能直接获取到数据

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
python爬虫爬取网页图片
2022-12-22 18:05

chenruhan_QAQ_的博客 python爬虫爬取网页上的图片
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
python爬虫爬取电影数据并做可视化
2023-09-18 13:26

BUG再也不见的博客对爬取的数据进行可视化
python爬虫爬取图片下载本地 python 爬虫
2021-10-29 22:05

回答 2 已采纳文件路径不能有斜杠
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
python爬虫爬取百度文库 python 有问必答
2021-05-09 14:36

回答 4 已采纳 Network中找不到试试在doc里面能不能找到
Python指南：六步教你如何使用python爬虫爬取数据
2024-09-19 10:02

WANGWUSAN66的博客找到网页上的Network部分。然后，我们浏览Name这部分，找到我们想要爬取的文件，鼠标右键，选择copy，复制...如上图所示，我们在找到想要爬取的页面部分的网页代码后，将鼠标放置于代码上，右键，copy到selector部分。
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
python网络爬虫爬取整个网页
2018-11-19 10:27

下面我们将深入探讨Python爬虫的相关知识点。 1. **requests库**：在Python中，requests库是最常用的一个HTTP客户端库，用于发送HTTP请求。通过requests.get()方法，我们可以向指定URL发起GET请求，获取网页的HTML...
python 爬虫爬取天气
2022-08-16 13:36

Katherine1029的博客 python 爬虫
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月8日

悬赏问题

¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库
¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
¥15 请问怎么才能复现这样的图呀

Python爬虫爬取不到内容

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新