在python爬虫中使用for循环填入网页id并嵌套函数爬取信息时，无法正确爬取

使用了三个网页ID：38635、38636、38627来测试，输出dic的结果为三个同样的字典（都对应38635）,

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
url='https://db.yaozh.com/hmap?grade=%E5%85%A8%E9%83%A8&p={}&pageSize=30&province=%E5%B9%BF%E4%B8%9C%E7%9C%81&type=%E5%85%A8%E9%83%A8'
info_url_model='https://db.yaozh.com{}'


for x in ['/hmap/38625.html', '/hmap/38626.html', '/hmap/38627.html']:  #test
        info_url=info_url_model.format(x)      #填入医院urlID    
        detail = requests.get(info_url, headers=headers)  # 取得内容页面内容
        detail.encodint = 'utf-8'
        soup2 = BeautifulSoup(detail.text, 'html.parser')  
        a = soup2.select('.toFindImg')
        for b in soup2.find_all(lambda tag: tag.name == 'span' and tag.get('class') == ['toFindImg']):
            item_list.append(b.text)
            for i in range(len(item_list)):                           #去掉空格
                item_list[i] = item_list[i].replace(' ', '')          #去掉空格
                item_list[i] = item_list[i].replace('\n', '')       #去掉换行符
            dic = dict(zip(item_name, item_list))  # 生成字典
        print(dic)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
pqq48006106 2018-07-13 00:21
关注
可以试试java的爬虫框架gecco

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫如何用for循环翻页 python 有问必答
2021-07-04 16:59

回答 2 已采纳重点还是从网页上分析翻页的网址构造情况，即baseurl及请求的url要写准确,另外可能需要补充一些请求参数。
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生
2019-07-03 17:22

逸少凌仙的博客一些经典的Python爬虫和网络编程面试题... 1 1、动态加载又对及时性要求很高怎么处理？... 1 2、分布式爬虫主要解决什么问题？... 1 3、什么是 URL？... 1 4、python 爬虫有哪些常用技术？... 1 5、简单说一下...
Python爬虫# 将url携带的参数写成循环代入，如何将每次不同参数爬取到的结果依次保存到同一张excel python 有问必答爬虫
2022-01-30 21:37

回答 2 已采纳你题目的解答代码如下： import requests from lxml import etree import xlwt urls = ('9787501586387', '9787501586
python爬虫中如果有两个相同的class标签，而爬取目标为第二个，如何解决 python 爬虫
2022-08-09 16:58

回答 3 已采纳 soup.find_all('div',class_='box_con')[1]这样呢
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
手把手将近 6 万讲解 Python 常用第三方库、网络编程、网络爬虫详细基础教程
2021-12-23 16:26

唤醒手腕的博客唤醒手腕 Python 爬虫学习笔记，喜欢的同学们可以收藏下，谢谢支持。字符串的分割字符串前后空格的处理，或者特殊字符的处理字符串格式化自定义函数 python文件通常有两种使用方法：第一是作为脚本直接执行。第二...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python基础笔记，超详细，包含面向对象基础，爬虫实战【持续更新中...】
2023-04-01 23:40

夜的旋粒_的博客本笔记中的函数和方法同义本笔记概念及代码由newbing搜集整理得出本笔记适合有一定其他编程语言基础的同学，因为笔记中省略了部分基础概念（比如整型，浮点型等基本数据类型的介绍）如果有错误，欢迎在评论区指出，...
python爬虫动态网页爬取报错 python 爬虫
2022-11-22 23:06

回答 2 已采纳 news 数据获取错误 import requests import json url = 'https://www.ptpress.com.cn/newsInfo/getCurrentAffairs
python爬虫beautifulsoup实例-Python爬虫学习（二）使用Beautiful Soup库
2020-11-01 13:26

weixin_37988176的博客（一）使用Beautiful Soup库（默认将HTML转换为utf-8编码）1，安装Beautiful Soup库：pip install beautifulsoup...from _socket importtimeoutfrom bs4 importBeautifulSoup #使用Beautiful Soup库需要导包#from ai...
python is beautiful_Python爬虫学习（二）使用Beautiful Soup库
2020-11-23 19:26

weixin_39641236的博客（一）使用Beautiful Soup库（默认将HTML转换为utf-8编码）1，安装Beautiful Soup库：pip install beautifulsoup...from _socket importtimeoutfrom bs4 importBeautifulSoup #使用Beautiful Soup库需要导包#from ai...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器