在python爬虫中使用for循环填入网页id并嵌套函数爬取信息时，无法正确爬取

使用了三个网页ID：38635、38636、38627来测试，输出dic的结果为三个同样的字典（都对应38635）,

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
url='https://db.yaozh.com/hmap?grade=%E5%85%A8%E9%83%A8&p={}&pageSize=30&province=%E5%B9%BF%E4%B8%9C%E7%9C%81&type=%E5%85%A8%E9%83%A8'
info_url_model='https://db.yaozh.com{}'


for x in ['/hmap/38625.html', '/hmap/38626.html', '/hmap/38627.html']:  #test
        info_url=info_url_model.format(x)      #填入医院urlID    
        detail = requests.get(info_url, headers=headers)  # 取得内容页面内容
        detail.encodint = 'utf-8'
        soup2 = BeautifulSoup(detail.text, 'html.parser')  
        a = soup2.select('.toFindImg')
        for b in soup2.find_all(lambda tag: tag.name == 'span' and tag.get('class') == ['toFindImg']):
            item_list.append(b.text)
            for i in range(len(item_list)):                           #去掉空格
                item_list[i] = item_list[i].replace(' ', '')          #去掉空格
                item_list[i] = item_list[i].replace('\n', '')       #去掉换行符
            dic = dict(zip(item_name, item_list))  # 生成字典
        print(dic)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
pqq48006106 2018-07-13 00:21
关注
可以试试java的爬虫框架gecco

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫如何用for循环翻页 python 有问必答
2021-07-04 16:59

回答 2 已采纳重点还是从网页上分析翻页的网址构造情况，即baseurl及请求的url要写准确,另外可能需要补充一些请求参数。
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
最全python爬虫面试笔试题及答案汇总，三万多字，持续更新，适合新手，应届生
2019-07-03 17:22

逸少凌仙的博客一些经典的Python爬虫和网络编程面试题... 1 1、动态加载又对及时性要求很高怎么处理？... 1 2、分布式爬虫主要解决什么问题？... 1 3、什么是 URL？... 1 4、python 爬虫有哪些常用技术？... 1 5、简单说一下...
Python爬虫# 将url携带的参数写成循环代入，如何将每次不同参数爬取到的结果依次保存到同一张excel python 有问必答爬虫
2022-01-30 21:37

回答 2 已采纳你题目的解答代码如下： import requests from lxml import etree import xlwt urls = ('9787501586387', '9787501586
python爬虫中如果有两个相同的class标签，而爬取目标为第二个，如何解决 python 爬虫
2022-08-09 16:58

回答 3 已采纳 soup.find_all('div',class_='box_con')[1]这样呢
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
手把手将近 6 万讲解 Python 常用第三方库、网络编程、网络爬虫详细基础教程
2021-12-23 16:26

唤醒手腕的博客唤醒手腕 Python 爬虫学习笔记，喜欢的同学们可以收藏下，谢谢支持。字符串的分割字符串前后空格的处理，或者特殊字符的处理字符串格式化自定义函数 python文件通常有两种使用方法：第一是作为脚本直接执行。第二...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python基础笔记，超详细，包含面向对象基础，爬虫实战【持续更新中...】
2023-04-01 23:40

夜的旋粒_的博客本笔记中的函数和方法同义本笔记概念及代码由newbing搜集整理得出本笔记适合有一定其他编程语言基础的同学，因为笔记中省略了部分基础概念（比如整型，浮点型等基本数据类型的介绍）如果有错误，欢迎在评论区指出，...
python爬虫动态网页爬取报错 python 爬虫
2022-11-22 23:06

回答 2 已采纳 news 数据获取错误 import requests import json url = 'https://www.ptpress.com.cn/newsInfo/getCurrentAffairs
python爬虫beautifulsoup实例-Python爬虫学习（二）使用Beautiful Soup库
2020-11-01 13:26

weixin_37988176的博客（一）使用Beautiful Soup库（默认将HTML转换为utf-8编码）1，安装Beautiful Soup库：pip install beautifulsoup...from _socket importtimeoutfrom bs4 importBeautifulSoup #使用Beautiful Soup库需要导包#from ai...
python is beautiful_Python爬虫学习（二）使用Beautiful Soup库
2020-11-23 19:26

weixin_39641236的博客（一）使用Beautiful Soup库（默认将HTML转换为utf-8编码）1，安装Beautiful Soup库：pip install beautifulsoup...from _socket importtimeoutfrom bs4 importBeautifulSoup #使用Beautiful Soup库需要导包#from ai...
没有解决我的问题, 去提问

悬赏问题

¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮

在python爬虫中使用for循环填入网页id并嵌套函数爬取信息时，无法正确爬取

5条回答 默认 最新

悬赏问题

5条回答默认最新