python爬虫没有结果返回

使用Python爬虫，代码没有问题，我是用的pycharm，朋友用的Vscode，她可以运行但是我运行不了，结果返回是空的，也不报错，以下是代码

import requests
import re
import pandas as pd
from lxml import etree
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

url = 'https://www.jjwxc.net/topten.php?orderstr=7&t=0'
headers = {
    'cookie': '__yjs_duid=1_695ffee74a69dc5584c310ec8801cdd11673344566448; testcookie=yes; '
              'Hm_lvt_bc3b748c21fe5cf393d26c12b2c38d99=1673344567; timeOffset_o=-1159.10009765625; '
              'smidV2=202301101756406f750a4c79547b98806fb79f3c774d7a00acd69b212a2e0b0; '
              'JJEVER={"fenzhan":"yq","isKindle":"","background":"","font_size":""}; '
              'JJSESS={"referer":"/book2/7322952"}; '
              'Hm_lpvt_bc3b748c21fe5cf393d26c12b2c38d99=1673358311',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
text = response.content.decode('gbk')  # 获取网页源码，以文本形式显示
soup = BeautifulSoup(text, 'lxml')


def get_data_all(td):
    # 排名
    pm = td[0].text
    # 作者名
    zz = td[1].text.replace('\xa0', '').replace('\n', '')
    # 书名
    sm = td[2].text.replace('\n', '').replace('\xa0', '')
    # 类型
    lx = td[3].text.replace('\n', '').replace('\xa0', '').replace('\r', '').replace(' ', '')
    # 风格
    fg = td[4].text
    # 字数
    zs = td[6].text.replace('\n', '').replace('\xa0', '')
    # 积分
    jf = td[7].text.replace('\n', '').replace('\xa0', '').replace('\r', '')
    # 发布时间
    fbsj = td[8].text
    return [pm, zz, sm, lx, fg, zs, jf, fbsj]


def get_data(url):
    headers = {
        'cookie': '__yjs_duid=1_695ffee74a69dc5584c310ec8801cdd11673344566448; testcookie=yes; '
                  'Hm_lvt_bc3b748c21fe5cf393d26c12b2c38d99=1673344567; timeOffset_o=-1159.10009765625; '
                  'smidV2=202301101756406f750a4c79547b98806fb79f3c774d7a00acd69b212a2e0b0; '
                  'JJEVER={"fenzhan":"yq","isKindle":"","background":"","font_size":""}; '
                  'JJSESS={"referer":"/book2/7322952"}; Hm_lpvt_bc3b748c21fe5cf393d26c12b2c38d99=1673358311',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    text = response.content.decode('gbk')  # 获取网页源码，以文本形式显
    # 构造bs对象
    soup = BeautifulSoup(text, 'lxml')
    # 查找详细信息所在的tr节点
    tr = soup.find_all('tr', attrs={'bgcolor': '#eefaee'})
    list_all = []
    # 循环查找到的tr节点，并把获取到的信息依次存进空列表list_all
    for i in range(len(tr)):
        td = tr[i].find_all('td')
        add = get_data_all(td)  # 获取信息信息
        list_all.append(add)  # 存进列表
    # 存进小表格
    df = pd.DataFrame(list_all, columns=['排名', '作者名', '书名', '类型', '风格', '字数', '积分', '发布时间'])
    return df


df_all = get_data(url=url)
# 导出数据
df_all.to_csv(r'data.csv', index=False, encoding='utf_8_sig')

有人提议这可能是库的版本问题，附图

请问如何解决呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

7*24 工作者 2023-03-10 16:07

关注


import requests
from lxml import etree
import pandas as pd

url = 'https://www.jjwxc.net/topten.php?orderstr=7&t=0'

def get_data(url):
    headers = {
        'cookie': '__yjs_duid=1_695ffee74a69dc5584c310ec8801cdd11673344566448; testcookie=yes; '
                  'Hm_lvt_bc3b748c21fe5cf393d26c12b2c38d99=1673344567; timeOffset_o=-1159.10009765625; '
                  'smidV2=202301101756406f750a4c79547b98806fb79f3c774d7a00acd69b212a2e0b0; '
                  'JJEVER={"fenzhan":"yq","isKindle":"","background":"","font_size":""}; '
                  'JJSESS={"referer":"/book2/7322952"}; Hm_lpvt_bc3b748c21fe5cf393d26c12b2c38d99=1673358311',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                      'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    text = response.content.decode('gbk')  # 获取网页源码，以文本形式显
    # 构造bs对象
    html = etree.HTML(text)
    trs = html.xpath('//table[3]/tbody/tr')

    list_all = []
    # # 循环查找到的tr节点，并把获取到的信息依次存进空列表list_all
    for tr in trs[1:]:
        td_content = tr.xpath('./td//text()')
        item = []
        if len(td_content) == 15:
            item.append( td_content[0].strip() )   #排名
            item.append( td_content[2].strip() )   #作者名
            item.append( td_content[5].strip() )   #书名
            item.append( td_content[7].strip() )   #类型
            item.append( td_content[8].strip() )   #风格
            item.append( td_content[12].strip() )   #字数
            item.append( td_content[13].strip() )   #积分
            item.append( td_content[14].strip() )   #发布时间
            list_all.append(item)
        elif len(td_content) == 13:
            item.append( td_content[0].strip() )   #排名
            item.append( td_content[2].strip() )   #作者名
            item.append( td_content[5].strip() )   #书名
            item.append( td_content[7].strip() )   #类型
            item.append( td_content[8].strip() )   #风格
            item.append( td_content[10].strip() )   #字数
            item.append( td_content[11].strip() )   #积分
            item.append( td_content[12].strip() )   #发布时间
            list_all.append(item)

    # 存进小表格
    df = pd.DataFrame(list_all, columns=['排名', '作者名', '书名', '类型', '风格', '字数', '积分', '发布时间'])
    return df


df_all = get_data(url=url)
# 导出数据
df_all.to_csv(r'data.csv', index=False, encoding='utf_8_sig')

执行后的输出效果：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
Python商城爬虫和商品抢购的经典案例
2024-03-01 21:41

Python商城爬虫是指使用Python编程语言实现的用于爬取电商网站上商品信息的工具。通过商城爬虫，可以自动获取电商平台上的商品列表、商品详情、价格、评价等相关信息。商城爬虫通常使用网络爬虫技术来模拟浏览器...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫运行无结果 python 爬虫
2021-10-13 19:02

回答 1 已采纳你这个目前只写了一个类，并没有调用，肯定是没有结果的
Python爬虫爬取图片返回none python
2021-11-25 13:50

回答 1 已采纳好巧，，我也爬过这个网站；估计是你的参数没设置对，你再看看
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
Python爬虫常用库的安装及其环境配置
2020-12-31 06:34

Python常用库的安装 urllib、re 这两个库是Python的内置库，直接使用方法import导入即可。在python中输入如下代码： ...返回结果为HTTPResponse的对象：正则表达式模块 import re 该库为python自带的库，直接运行不
Python爬虫系列总结
2023-04-09 11:43

qformat的博客 Python是一种简单易学、功能强大的编程语言，特别适用于爬虫开发。本篇教程将分享Python爬虫进阶方面的知识，帮助大家更好地掌握Python爬虫技术。Python爬虫技术已经越来越成熟，使用Python爬虫可以轻松地获取需要的...
Python视频爬虫实现下载头条视频功能示例
2020-12-23 17:44

本文实例讲述了Python视频爬虫实现下载头条视频功能。分享给大家供大家参考，具体如下：一、需求分析抓取头条短视频思路：分析网页源码，查找解析出视频资源url（查看源代码，搜mp4）对该url发起请求，返回二...
python 爬虫代码
2023-03-09 21:49

qq_繁华的博客 python 爬虫代码
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

悬赏问题

¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法

python爬虫没有结果返回

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新