公共资源交易网内容提取不出来

import requests
import json
import jsonpath
from lxml import etree
import csv
from concurrent.futures import ThreadPoolExecutor
#import pandas as pd
#from xlwt import *
#import time

#def download_wuhu_page(url):
url='http://ggzy.huangshan.gov.cn/EWB-FRONT/rest/webbuilderserverforHeFZTB/getinfolistnew'

dic={
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0",
"Authorization": "Bearer c72f427e19182317f66b7bd0080e4a64"
}
dat={
"categorynum":"004",
"xiaqucode":"",
"title":"",
"startdate":"",
"enddate":"",
"siteguid":"7eb5f7f1-9041-43ad-8e13-8fcb82ea831a",
"pageSize":10,
"pageIndex":14
}

resp=requests.post(url,headers=dic,json=dat)
print(resp.text)
html=etree.HTML(resp.text)
divs=html.xpath("//table/tbody")
for div in divs:
area=""
name=div.xpath(".//div/text()")
date=div.xpath(".//td[4]/text()")
wz=div.xpath(".//td[2]/a/@onclick")

print(name)
print(wz)
print(date)
#txt=[(area,name[i],date[i],"http://whsggzy.wuhu.gov.cn"+wz[i]) for i in range(len(name)) if len(wz)>=len(date)>=len(name)]
#csvwriter.writerows(txt)

#print(url,"提取完毕")

print('全部下载完毕。')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mint.Coder 2022-04-15 19:52
关注
很可能你就没爬到数据哦

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
用visual studio code运行Python结果显示不出来 python 有问必答
2022-03-20 22:07

回答 3 已采纳你最后一行 gee() 要放在函数外面把最后一行 gee() 前面的空格都删除gee()要与第一行def对齐如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!
python提取excel中的特定数据 python
2022-04-09 00:12

回答 2 已采纳 import pandas as pd df=pd.read_excel('abc.xlsx') df=df.filter(regex='销售数据',axis=1) df.to_excel('bcd.
python爬虫练习案例.zip
2024-01-19 16:29

汇总一些简单的js逆向案例，看准网，网易云评论、房天下，粉笔网，企名片，天翼云，巨潮资讯，tokencap，新榜资讯，公共资源交易，欧科云链，得物等爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。...
用Python循环提取每个月的数据 python 有问必答
2022-06-24 06:08

回答 6 已采纳假如是如2020-01-01这样日期数据，可使用pandas提取。样例数据： date,open,close,high,low,volume 2021-01-04,4.31,4.42,4.45,4.3
python在正则表达式中如何提取a标签中的内容？ python
2019-07-16 09:49

回答 3 已采纳用正则，然后获取对应组。 ```python #encoding=utf-8 import re data = '记事本' regex = '(.*?)' print(re.match(r
python tkinter中text插入图片显示不出来为什么 python 有问必答
2021-07-05 01:31

回答 2 已采纳目前您题目中所提出的问题是不要把 PhotoImage(file="D:/测试用图/a0.gif") 创建的图片对象只用函数内的局部变量存放。因为函数执行完，局部变量会被系统清除，连带着图片对象也会一
Python资源大全
2018-12-25 14:04

云空的博客 Python资源 Python 3.7.4 文档:https://docs.python.org/zh-cn/3.7/ 快速安装模块：pip3 install PyQt5 -i https://pypi.tuna.tsinghua.edu.cn/simple python开源项目及示例代码：...
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
python+requests正则怎么提取打印的内容 python 正则表达式
2019-12-24 14:06

回答 1 已采纳 ``` (?<=\"sid\"\:\").*?(?=\") ```
Python re.findall怎么提取两个含符号的字符段中间的内容 python
2021-03-19 23:18

回答 6 已采纳 import re txt =''' <td class="abcde:0:no_22" style="white;"><center>需要提取的内容1</cente
Python反爬JS逆向解析(八)---某公共服务平台cookie反爬
2020-03-25 17:38

郑德帅的博客声明:文章仅源自个人兴趣爱好，不涉及他用，侵权联系删。版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文...1.某公共资源交易平台网站网站链接： https://ggzyfw.fujian.gov.c...
python 提取excel的某几列的数据 list python
2021-02-08 08:52

回答 3 已采纳 import pandas as pd file_name = r"new.xlsx" df = pd.read_excel(file_name) columns = ["a","c","e"]
python 资源
2019-05-11 09:11

一坨向日葵的博客内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。伯乐在线已在 GitHub 上发起「Python 资源大全中文版」的整理。欢迎...
Python 资源大全中文版
2018-07-24 16:55

edwardljh的博客管理 Python 版本和环境的工具 p：非常简单的交互式 python 版本管理工具。官网 pyenv：简单的 Python 版本管理工具。官网 Vex：可以在虚拟环境中执行命令。官网 virtualenv：创建独立 Python 环境的工具。官网 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月15日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

公共资源交易网内容提取不出来

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新