python 爬取表格获取不到数据

我使用python爬取网页表格数据的时候使用 request.get获取不到页面内容。
爬取网址为：http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/
这是Elements
图片说明

import os
import requests
from lxml import etree
url='http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/'
#url1='http://data.10jqka.com.cn/rank/cxg/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
res = requests.get(url, headers=headers)
res_elements = etree.HTML(res.text)
table = res_elements.xpath('/html/body/table')
print(table)
table = etree.tostring(table[0], encoding='utf-8').decode()
df = pd.read_html(table, encoding='utf-8', header=0)[0]
results = list(df.T.to_dict().values())  # 转换成列表嵌套字典的格式
df.to_csv("std.csv", index=False)

res.text 里的数据为（不包含列表数据）

'<html><body>\n    <script type="text/javascript" src="//s.thsi.cn/js/chameleon/chameleon.min.1582008.js"></script> <script src="//s.thsi.cn/js/chameleon/chameleon.min.1582008.js" type="text/javascript"></script>\n    <script language="javascript" type="text/javascript">\n    window.location.href="http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/";\n    </script>\n    </body></html>\n'

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

7*24 工作者 2020-02-18 10:24

关注

爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器

# -*- coding：utf-8 -*-
import os
import requests
from lxml import etree
import pandas as pd
url='http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/'

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36',
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    "Host":"data.10jqka.com.cn",
}
res = requests.get(url, headers=headers)

parser = etree.HTMLParser(encoding='utf-8')    #指定html解析器
res_elements = etree.HTML(res.text,parser=parser)
table = res_elements.xpath('/html/body/table')
print(table)
table = etree.tostring(table[0], encoding='utf-8').decode()
df = pd.read_html(table, encoding='utf-8', header=0)[0]
results = list(df.T.to_dict().values())  # 转换成列表嵌套字典的格式
df.to_csv("std.csv", index=False)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
为什么用python 爬取数据到excel中300多行只剩下一行？ python vscode 开发语言有问必答
2021-08-01 12:32

回答 4 已采纳将写入文件语句放到循环外，加上列名并逐行写入，后面的代码可以这样写： #code with open('data/51job.csv','w') as f: f.write(','.join(
爬取网页表格数据到excel后，excel上没有数据？ python
2023-04-10 02:32

回答 4 已采纳结论：1、你的url是错误的。至少格式上来就错了。（https://liansai.500.com/zuqiu-6296/jifen-17831/2023-04-10&page=1）；2、col2之后
python爬取网页表格数据并写入到excel
2021-10-22 14:12

毛维的博客 python爬取网页表格数据并写入到excel 获取银行网页中外汇数据： http://fx.cmbchina.com/Hq/History.aspx?nbr=%e7%be%8e%e5%85%83&startdate=2009-01-01&enddate=2021-10-22&page=1 代码如下： import...
用python爬取数据出错 python selenium 有问必答爬虫
2022-01-06 18:29

回答 2 已采纳那不很明显吗, 底层少包, 用pip安装 openpyxl
使用selenium爬取数据时，数据没展开提取不到怎么办？ python
2021-03-07 15:54

回答 2 已采纳两个方法一个是找到后端接口，直接请求后端接口另一个是操作selenium点击加载
怎么把爬取下来的数据输出为CSV文化呀？自己弄老是不成功 python
2021-10-11 13:33

回答 2 已采纳 import pandas as pd r = pd.DataFrame(positions, columns=['职位名字', '薪水', '职位诱惑', '职位详情', '工作地址', '公司名
python爬取表格数据匹配_爬取表格类网站数据并保存为excel文件
2020-12-20 19:07

weixin_39566578的博客本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html主要学习的地方:1.分析网站的ajax请求信息2.构造参数3.发起请求后处理获得...
python爬取网页数据的时候，怎么将不完整的代码补全为一个完整格式的网页代码，什么方法函数来着? html python 爬虫
2022-04-17 17:36

回答 1 已采纳字符串拼接不就行了
python读取excel显示空白是为什么， python
2022-03-05 11:56

回答 1 已采纳路径不要加中文呢
Python爬虫requests反还内容与网页内容不相同 python 有问必答
2022-03-08 22:50

回答 2 已采纳 requests.get得到的是源代码，ajax动态加载或者js动态生成的html代码获取不到，需要直接请求接口获取数据或者从源代码中找到js数据源进行解析。截图中右边块的数据接口为下面这个，直接re
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
爬取有结果，但是导出excel文件是空的 python 其他
2021-03-12 02:16

回答 2 已采纳直接答案：在函数 `news_ershoufang` 最后一行返回下数据 `return data_all`修改下excel的列名，一共两列 `df.columns = ['城市', '房屋户型'
Python爬取多网页表格数据（非table）
2022-07-29 10:36

m0_62101908的博客 Python爬取多网页表格数据（非table）
python爬取网页表格到excel,python爬取网页上的表格
2023-12-24 04:47

Leospanb87的博客以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了不学c语言可以直接学python吗。到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据...
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

码龄粉丝数原力等级 --

python 爬取表格获取不到数据

4条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

python 爬取表格 获取不到数据

4条回答 默认 最新

悬赏问题

python 爬取表格获取不到数据

4条回答默认最新