爬虫for循环中访问网址使用Xpath报错

最下方的薪资一栏也不知道为啥Xpath语法老是报错说我写的不对，可是我反复检查了好像也没啥问题


'''
网站https://www.shixiseng.com/interns?page=1&type=intern&keyword=%E9%A1%B9%E7%9B%AE%E7%BB%8F%E7%90%86&area&months&days°ree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend
薪资、所在地、单位名称、所属行业、公司规模、福利标签、备注信息、企业性质的内容
'''
import requests
from lxml import etree
import pprint
import re
import urllib.request
import csv
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'}
url = 'https://www.shixiseng.com/interns?page=1&type=intern&keyword=%E9%A1%B9%E7%9B%AE%E7%BB%8F%E7%90%86&area&months&days°ree&official&enterprise&salary=-0&publishTime&sortType&city=%E5%85%A8%E5%9B%BD&internExtend'
data = requests.get(url, headers=headers).text
# 拿到网页源码
# print(data)
ele = etree.HTML(data)
div = ele.xpath('//div[@searchtype="intern"]')
# div = ele.xpath('/html/body/div[1]/div/div/div[2]/div[2]/div[1]/div[1]/div[1]/div[1]/div[1]')
# print(div,len(div))
# 获得薪资、所在地、单位名称、所属行业、公司规模、福利标签、备注信息、企业性质
# lst = []

for move in div:
    # 所在地
    location = move.xpath('./div[1]/div[1]/p[2]/span[1]/text()')
    print(location)

    # 单位名称
    company = move.xpath('./div[1]/div[2]/p[1]/a[1]/@title')
    print(company)

    # 所属行业
    industry = move.xpath('./div[1]/div[2]/p[2]/span[1]/text()')
    print(industry)

    # 福利标签
    welfare = move.xpath('./div[2]/div[1]/span/text()')
    print(welfare)

    # 备注信息
    notes = move.xpath('./div[2]/div[2]/span/text()')
    print(notes)

    # 薪资
    href_list = move.xpath('./div[1]/div[1]/p[1]/a[1]/@href')
    # print(href)
    for href in href_list:
        data_href = requests.get(href, headers=headers).text
        # print(data_href)
        ele_href = etree.HTML(data_href)
        # print(ele_href)
        salary = ele_href.xpath('//div[@class="job_msg"]/span[1]/text()"]')
        print(salary)

        # # 企业性质
        # nature = ele_href.xpath('/html/body/div[1]/div/div/div[2]/div[1]/div[2]/div[2]/div[2]/div[2]/div[3]/div[2]/text()')
        # print(nature)

        # # 公司规模
        # scale = ele_href.xpath('/html/body/div[1]/div/div/div[2]/div[1]/div[2]/div[2]/div[2]/div[2]/div[3]/div[3]/text()')
        # print(scale)
    # break

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2023-04-18 00:11
关注
浏览器的开发者工具，可以自动产生 xpath，你可以用它产生了，复制过来

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫实战入门：豆瓣电影Top250(保你会，不会来打我)
2024-03-15 07:49

爱喝兽奶的荒天帝的博客点击进入数据包之后，首先要查看我们需要的数据是否都在这个数据包里面，如果我们需要的数据在...应为字典里面要有所有电影的数据信息，为了方便，我们直接在循环内部定义一个字典，每一部电影的数据都放在一个字典中。
Python网络爬虫使用教程
2023-06-13 16:50

TTTALK的博客 python爬虫资源抓取--urllib/requests/requests-html、正则表达式、数据解析-Beautiful Soup/lxml/selectolax、自动化爬虫--selenium、爬虫框架--Scrapy/pyspider、模拟登录与验证码识别、autoscraper
Python 模拟登录网页，或者编写爬虫时模拟登录的详细总结
2025-01-07 17:25

zhangfeng1133的博客模拟登录后可以保持登录状态，以便进行后续的爬取操作，如访问登录后的页面、获取用户数据等.- **更新和维护**：网站的登录机制和页面结构可能会发生变化，定期检查和更新爬虫代码，以适应网站的更新和变化，确保...
使用scrapy框架爬虫实战
2022-04-27 16:40

Python_QB的博客使用scrapy框架爬虫实战前言创建爬虫项目功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右...
python爬虫小结（-xpath解析）：（1）
2021-11-17 20:00

xiao52x的博客 for i in range(2, 4): # 一定要在循环内，否则一直为"https://pic.netbian.com/4kmeinv/index_2.html" # 关于为什么后面是/4kmeinv/index_{0}.html 代码后讲解 url = ...
爬虫--xpath解析入门2
2024-06-22 16:34

qq_57346203的博客把parser解析器放到tree =...文件名+网页类型+解析器（指定编码）for循环中./即从当前文件下往下查找，类似于当前文件是在li，在li标签中继续寻找，相对查找,a[@href='tanke']就是查a标签href属性为tanke的内容是什么。
爬虫Selenium 使用简单的方式抓取复杂的页面信息！
2020-08-17 15:48

爬遍天下无敌手的博客 Selenium 是操作浏览器进行自动化，例如自动化访问网站，点击按钮，进行信息采集，对比直接使用bs4 抓取信息，Selenium的抓取速度是有很大缺陷，但是如果抓取页面不多，页面复杂时，使用Selenium是个不错的选择。...
六万字带你一次性速通python爬虫基础
2022-03-04 21:56

跳探戈的小龙虾的博客网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。...
Python爬虫入门教程03：二手房数据爬取
2021-01-23 21:40

嗨学编程的博客本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。前文内容 Python爬虫入门教程01：豆瓣Top电影爬取 Python爬虫入门教程02：小说爬取 PS：如有需要 Python学习...
Python爬虫第一课：了解爬虫与浏览器原理
2022-10-15 15:05

DangerousPerson的博客浏览器工作原理爬虫工作原理爬虫的四个步骤requests库。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月17日

爬虫for循环中访问网址使用Xpath报错

2条回答 默认 最新

问题事件

2条回答默认最新