python+selenium爬取政府政策的疑问

#python小白关于selenium问题的疑问
原代码是@艽野尘梦better 这位作者的，主要内容是从北京市政府官网爬取政策文本，使用spyder，引入webdriver。
#问题描述：
selenium实现了自动打开浏览器，模拟搜索标题为“人才引进”的信息，并且从第一页爬到了最后一页，问题出在一直没有结果，也没有导出的csv文件，下文附上图以及代码：

from selenium import webdriver
import time
import pandas as pd
from selenium.webdriver.common.by import By

browser=webdriver.Firefox()
browser.get('https://www.beijing.gov.cn/so/s?siteCode=1100000088&tab=zcfg&qt=%E4%B8%93%E7%B2%BE%E7%89%B9%E6%96%B0')
time.sleep(5)

lable=browser.find_elements(By.CSS_SELECTOR,'.position-con.item-choose')#查找全文和标题的检索项
print(lable[0].text,lable[1].text)
js= 'arguments[0].setAttribute(arguments[1],arguments[2])'
browser.execute_script(js,lable[0],'class','position-con item-choose')#修改全文标签的class
browser.execute_script(js,lable[1],'class','position-con item-choose item-choose-on')#修改标题标签的class


time.sleep(2)
data=pd.DataFrame([],columns=['类型','链接','标题','文号','发文机构','主题分类','发布日期'])
page=1
while page:
    if page !=1:
        page.click()
        time.sleep(1)
    poli=browser.find_elements(By.CLASS_NAME,'search-result')
    for elements in poli:#一个elements是一个记录
        p_type=elements.find_element(By.CLASS_NAME,"result-header-lable").text#find_element_by_class_name("result-header-lable").text#政策类型
        link=elements.find_element(By.TAG_NAME,"a").get_attribute('href')#find_element_by_tag_name("a").get_attribute('href')#链接
        title=elements.find_element(By.TAG_NAME,"a").text#find_element_by_tag_name("a").text#标题
        table=elements.find_elements(By.CLASS_NAME,"row-content")#文号、发文机构、主题分类、发布日期
        content=[p_type,link,title]
        for item in table:
            content.append(item.text)
        while len(content)<7:
            content.append(0)
        content=pd.DataFrame([content],columns=['类型','链接','标题','文号','发文机构','主题分类','发布日期'])
        data=pd.concat([data,content])
    page=browser.find_element(By.CLASS_NAME,'next')
data.to_csv('专精特新.csv',index=False,encoding='utf_8_sig')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjh4312 2023-05-30 20:08
关注
完全没有必要用selenium的，速度慢。这个网站有给你返回json结构完整数据

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python+selenium 断言怎么判断 python selenium
2021-07-15 16:19

回答 2 已采纳就是判断下弹出框中的某些元素存不存在是吧？参考下：https://www.cnblogs.com/yoyoketang/p/6493005.html
python+selenium 如何循环点击列表中的按钮 python selenium
2021-11-11 16:19

回答 1 已采纳 find_elements，通过找元素组可以实现，如： aa = driver.find_elements_by_xpath('//table/tbody/tr') for a in aa:
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
Python+selenium 职位信息爬取
2023-05-09 16:22

首先，Python是一种高级编程语言，以其简洁、易读的语法和丰富的库支持而闻名。在数据处理和网络爬虫领域，Python拥有众多优秀库，如requests用于HTTP请求，BeautifulSoup或lxml用于HTML解析，以及我们这里提到的...
python+selenium+js 模拟点击问题 python selenium 数据挖掘有问必答
2021-04-13 08:54

回答 3 已采纳在browserdriver.execute_script('$arguments[0]).click()',btn) 的[0]后面多了个括号。改成：browserdriver.execute_scr
Python + Selenium 截图问题 python selenium
2023-04-19 12:15

回答 2 已采纳您可以使用 execute_script 方法来模拟滚动操作，将页面滚动到下一屏数据的位置，然后再进行截图。循环执行这个过程，直至页面所有数据都被截取到为止。下面是一个简单的示例代码： from se
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
python+selenium爬取京东数据
2020-02-26 11:13

JerryLiu1998的博客 #环境&工具 python3.7 selenium Google Chrome
python+selenium问题求解答 python selenium
2022-08-18 10:13

回答 2 已采纳 assertEqual 是unittest.TestCase类的方法，因此您只能在从该类继承的对象上使用它,检查一下单元测试文档
python+selenium运行时报错 python selenium
2022-08-14 00:03

回答 6 已采纳是不是你定位节点错了，selenium找不到相应节点，我运行起来没反应导入from selenium.webdriver.chrome.service import Service可解决报错
python3+selenium如何获取页面的加载时间或者时间戳 python selenium 测试工具
2022-05-23 09:55

回答 1 已采纳 from datetime import datetime ##获取页面加载时间 a = datetime.now() url='http://192.168.1.199/' x=webdrive
Python+selenium 爬取动态网页,解决获取不到网页源代码
2020-03-31 10:09

没有胡子的猫的博客爬取人邮出版社图书信息为例: # 使用python搜多图书信息 import time from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver....
python +selenium 如何判断选择了哪个按钮 python selenium
2021-10-21 18:00

回答 1 已采纳可以看到被选择了的a标签，会有不同的class。因此可以通过 css选择器选择class不一样的a标签，即代表被选中了。当得到了相关的标签可以使用text()方法获取a标签的文字，在通过正则或者字
Python-selenium爬取.xmind（思维导图）
2024-05-21 16:45

它提供了一组API和工具，可以与多种编程语言一起使用，如Java、Python、C#等，用于模拟用户在浏览器中的行为，如点击、填写表单、提交数据等。Selenium可以运行在各种浏览器上，包括Chrome、Firefox、Safari等，它还...
Python+selenium+Xpath爬取百度学术文章摘要
2019-11-22 17:44

Growing_Snake的博客由于研究需要，想要用Glove训练一些自己的领域语料，可是没有现成的语料，所以想着找一些相关文献的摘要作为语料，但总不能自己去找吧~带着万分的不情愿，硬着头皮爬一下百度学术吧（观察发现这...1. selenium简介 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月30日

悬赏问题

¥15 soildworks装配体的尺寸问题
¥100 有偿寻云闪付SDK转URL技术
¥30 基于信创PC发布的QT应用如何跨用户启动后输入中文
¥20 非root手机，如何精准控制手机流量消耗的大小，如20M
¥15 远程安装一下vasp
¥15 自己做的代码上传图片时，报错
¥15 Lingo线性规划模型怎么搭建
¥15 关于#python#的问题，请各位专家解答！区间型正向化
¥15 unity从3D升级到urp管线，打包ab包后，材质全部变紫色
¥50 comsol温度场仿真无法模拟微米级激光光斑

python+selenium爬取政府政策的疑问

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新