python 爬取表格获取不到数据

我使用python爬取网页表格数据的时候使用 request.get获取不到页面内容。
爬取网址为：http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/
这是Elements
图片说明

import os
import requests
from lxml import etree
url='http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/'
#url1='http://data.10jqka.com.cn/rank/cxg/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'}
res = requests.get(url, headers=headers)
res_elements = etree.HTML(res.text)
table = res_elements.xpath('/html/body/table')
print(table)
table = etree.tostring(table[0], encoding='utf-8').decode()
df = pd.read_html(table, encoding='utf-8', header=0)[0]
results = list(df.T.to_dict().values())  # 转换成列表嵌套字典的格式
df.to_csv("std.csv", index=False)

res.text 里的数据为（不包含列表数据）

'<html><body>\n    <script type="text/javascript" src="//s.thsi.cn/js/chameleon/chameleon.min.1582008.js"></script> <script src="//s.thsi.cn/js/chameleon/chameleon.min.1582008.js" type="text/javascript"></script>\n    <script language="javascript" type="text/javascript">\n    window.location.href="http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/";\n    </script>\n    </body></html>\n'

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

7*24 工作者 2020-02-18 02:24

关注

爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器

# -*- coding：utf-8 -*-
import os
import requests
from lxml import etree
import pandas as pd
url='http://data.10jqka.com.cn/rank/cxg/board/4/field/stockcode/order/desc/page/2/ajax/1/free/1/'

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36',
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
    "Host":"data.10jqka.com.cn",
}
res = requests.get(url, headers=headers)

parser = etree.HTMLParser(encoding='utf-8')    #指定html解析器
res_elements = etree.HTML(res.text,parser=parser)
table = res_elements.xpath('/html/body/table')
print(table)
table = etree.tostring(table[0], encoding='utf-8').decode()
df = pd.read_html(table, encoding='utf-8', header=0)[0]
results = list(df.T.to_dict().values())  # 转换成列表嵌套字典的格式
df.to_csv("std.csv", index=False)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

编辑

预览

报告相同问题？

关注问题

python爬取网页表格数据并写入到excel
2021-10-22 06:12

毛维的博客 python爬取网页表格数据并写入到excel 获取银行网页中外汇数据： http://fx.cmbchina.com/Hq/History.aspx?nbr=%e7%be%8e%e5%85%83&startdate=2009-01-01&enddate=2021-10-22&page=1 代码如下： import...
nba数据资源，python爬取的数据
2024-11-10 07:10

使用Python爬取NBA数据，不仅能帮助我们更好地分析比赛，评估球员表现，还能够用于开发各种篮球相关的应用程序和工具。首先，要利用Python爬取NBA数据，需要对Python编程有一定的了解，包括基础语法、数据处理库...
Python爬取多网页表格数据（非table）
2022-07-29 02:36

m0_62101908的博客 Python爬取多网页表格数据（非table）
python爬取招聘网信息并保存为csv文件
2023-04-02 11:11

在这个场景中，我们将学习如何使用Python来爬取招聘网站上的职位信息，并将其存储为CSV文件。以猎聘网为例，我们将介绍以下关键知识点： 1. **Parsel库**： Parsel是基于XPath和CSS选择器的Python库，用于从HTML或...
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 03:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
python怎么爬取网页数据,python爬取网页数据步骤
2024-06-23 22:32

ab524100的博客以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据内容请搜索脚本之家以前的...
使用Python爬取BOSS直聘职位数据并保存到Excel
2024-12-30 07:26

中國移动丶移不动的博客本项目的功能是爬取BOSS直聘指定条件的职位数据，并将数据保存到Excel文件。配置浏览器驱动：使用Selenium模拟用户操作。加载网页：动态加载职位列表。解析职位信息：提取职位的名称、薪资、技能要求等。保存数据：...
超强干货之---Python-数据爬取（爬虫）
2024-07-12 09:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
python 爬取网页请求，并生成表格（简单demo）
2023-07-21 03:26

Unique·Blue的博客使用python语言爬取网络请求（requests），并手动处理数据，生成表格(openpyx)
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

python 爬取表格获取不到数据

4条回答默认最新

码龄粉丝数原力等级 --

python 爬取表格 获取不到数据

4条回答 默认 最新

python 爬取表格获取不到数据

4条回答默认最新