python 如何爬取url翻页不变的网址

http://mzj.beijing.gov.cn/wssbweb/wssb/dc/searchOrgList.do?action=searchOrgList

我需要爬取这个网站每一家公司的详细信息，我的思路是通过这个主页面爬取所有详情页面的网址，然后再打开详情页面（公司详细信息页面）爬取需要的数据。我现在面临的问题是，这个网址翻页时网址没有发生变化，在网上查了很多方法都没有用，总是重复爬取第一页内容。

求各位大神赐教！！

这是我的代码：

import requests
import os
import re
ww='http://mzj.beijing.gov.cn'
web=[]
def get_page(url,page_num):
pageList =[]
for i in range(1,page_num +1):
formdata ={'type':'index' ,
'paged': i}##从网上找的方法，也用了requests.post,也试过把paged改成current_page都无效
try:
r = requests.post(url,data =formdata)
r.raise_for_status()
r.encoding = r.apparent_encoding
p = re.compile('<a href="(.*?)"\starget')
tempList = re.findall(p,r.text)
for each in tempList:
site=ww+each
pageList.append(site)
tempList = []
except:
print('链接失败')
return pageList
url='http://mzj.beijing.gov.cn/wssbweb/wssb/dc/searchOrgList.do?action=searchOrgList'
web=get_page(url,763)
len(web)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小乙shine 2019-07-07 20:05
关注
我一般遇到这种情况会有两个思路：
1.爬取主页面所有详情页的网址存入数据库，等全部存入后，然后第二步，逐个打开这些详情页进行爬取。
当然，这可能需要对主页拿到的详情网址进行处理，因为拿到的可能是一些相对路径，需要把他们转换为标准的url,再存入数据库

2.用selenium自动化测试框架写爬虫，就不必这样做，打开主页后，操作浏览器机器人，打开一个详情页，取完信息后存起来，再返回上一页，这种方法很麻烦，需要对selenium非常了解，

建议选第一个，不但可以做断点续爬，而且可以做多线程爬虫，就是给几个爬虫分配不动的任务，让他们一起爬

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬取翻页url不变的网页 python
2023-01-01 15:08

回答 1 已采纳很简单，加入一个： form_data={ 'page':2 } dd=requests.post(url,headers=headers,data=form_data)#用po
python爬取跳页url不变的网页表格数据 python
2019-07-16 16:25

回答 4 已采纳数据量不大的话用selenium 自动化，或者抓包分析接口
Python爬取存储出错 python 学习方法改行学IT
2022-10-18 00:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
Python Selenium爬虫，爬取翻页URL不变的网站
2023-11-05 17:52

BBQpotato的博客，而是回到了起始页，由于url不变可能是后退过程中丢失了缓存值，因此二次爬取页面内容时，是进入网址内爬取的。关于driver.back() 爬取第一页时，进入内容再driver.back()，会回到第一页（左）上。遇到的问题 ...
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
python爬虫--如何爬取翻页url不变的网站
2020-10-22 23:15

卖山楂啦prss的博客转载自：https://blog.csdn.net/c350577169/article/details/80410133 之前打算爬取一个图片资源网站，但是在翻页时发现它的url并没有改变，无法简单的通过request.get()访问其他页面。据搜索资料，了解到这些网站是...
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
python爬取网页内容_python - 如何爬取URL不变的网站内容
2020-11-23 16:28

weixin_39546661的博客可以用这种方法：打开浏览器调试模式点击下一页，查看对应的网络请求的Response，这个响应通常就是下一页的URL 查看该请求的请求头和请求参数，分析找出规律使用python模拟HTTP请求来批量获得URL 爬取信息，...
python爬取音乐 python
2023-01-11 17:11

回答 2 已采纳可以先从post data中查看url请求时提交的参数，根据参数名在js源码中检索，大致梳理一下代码执行的流程，在可疑处附近打上断点
python爬虫 - 翻页url不变网页的爬虫探究
2020-08-04 20:21

西瓜之神�的博客 python爬虫-翻页url不变网页的爬虫探究 url随着翻页改变的爬虫已经有非常多教程啦，这里主要记录一下我对翻页url不变网页的探究过程。学术菜鸡第一次写CSDN，请大家多多包容～如果对你有一点点帮助，请帮我点个赞...
使用python selenium实现url不变的情况下，翻页爬取页面数据
2023-03-06 15:35

网络安全小时光的博客使用python selenium实现url不变，翻页爬取页面数据
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
请详细说明问题背景 12月13日

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记

python 如何爬取url翻页不变的网址

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新