完善代码将用xpath获取的数据保存到csv中

需求：1：数据保存csv中格式正确

2# 福利信息每项用 # 分隔）保存到D://新闻列表.csv文件中。

# 岗位信息，地区，工作，经验，学历，福利。
import requests


def gethtml(url):
    header = {
        'User - Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'

    }
    res = requests.get(url, headers=header)
    return res.text
    # print(res.text)


from lxml import etree


def getParse(url):
    tree = gethtml(url)
    html = etree.HTML(tree)
    d_i = html.xpath('//*[@id="area"]/div[4]//div')
    for i in d_i:
        # 福利信息每项用  # 分隔）保存到D://新闻列表.csv文件中。
        # print(i)
        information = i.xpath('./div[1]/a/img/@alt')
        gw=[]

        for j in information:
            # print(j)
            gz = i.xpath("./div[2]/div[1]/a/text()")
            diqu = i.xpath("normalize-space(./div[2]/div[1]/span/text())")
            qian = i.xpath("./div[2]/p/span[1]/text()")
            jinyan = i.xpath("./div[2]/p/span[2]/text()")
            xl = i.xpath("./div[2]/p/span[2]/span/text()")
            fuli = i.xpath("./div[2]/ul//li/text()")
            # fuli = i.xpath("./div[2]/ul//li/text()").replace(',','#') TODO 实现不了
            print(j, diqu, gz, qian, jinyan, fuli)
            dit = {
                '岗位信息': j,
                '地区': diqu,
                '工作': gz,
                '经验,学历': jinyan,
                '福利': fuli
            }
            import csv
            f = open("./新闻列表.csv", 'a', encoding='utf-8', newline='')
            csv_writer = csv.DictWriter(f, fieldnames=['岗位信息', '地区', '工作', '经验,学历', '福利'])
            csv_writer.writeheader()
            csv_writer.writerow(dit)



getParse("http://www.pjob.net/china.htm")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

qq_46161207 2023-02-18 17:43

关注

以下是修改后的代码，将岗位信息、地区、工作、经验和学历以及福利信息保存到CSV文件中。注意，使用CSVWriter写入数据时应在程序启动时只写入一次表头。


import requests
import csv

def gethtml(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
    }
    res = requests.get(url, headers=header)
    return res.text


from lxml import etree

def getParse(url):
    tree = gethtml(url)
    html = etree.HTML(tree)
    d_i = html.xpath('//*[@id="area"]/div[4]//div')
    with open("D://新闻列表.csv", 'w', encoding='utf-8', newline='') as f:
        csv_writer = csv.writer(f)
        csv_writer.writerow(['岗位信息', '地区', '工作', '经验,学历', '福利'])
    for i in d_i:
        information = i.xpath('./div[1]/a/img/@alt')
        gw=[]
        for j in information:
            gz = i.xpath("./div[2]/div[1]/a/text()")
            diqu = i.xpath("normalize-space(./div[2]/div[1]/span/text())")
            qian = i.xpath("./div[2]/p/span[1]/text()")
            jinyan = i.xpath("./div[2]/p/span[2]/text()")
            xl = i.xpath("./div[2]/p/span[2]/span/text()")
            fuli = i.xpath("./div[2]/ul//li/text()")
            dit = {
                '岗位信息': j,
                '地区': diqu,
                '工作': gz,
                '经验,学历': jinyan,
                '福利': '#'.join(fuli)
            }
            with open("D://新闻列表.csv", 'a', encoding='utf-8', newline='') as f:
                csv_writer = csv.DictWriter(f, fieldnames=['岗位信息', '地区', '工作', '经验,学历', '福利'])
                csv_writer.writerow(dit)

getParse("http://www.pjob.net/china.htm")

在上面的代码中，我们将CSV文件的存储路径设置为"D://新闻列表.csv"，可以根据需要自定义存储路径。在程序启动时，我们只写入一次表头。在循环中，将每一行的数据保存到字典中，然后使用CSVWriter将其写入CSV文件。在写入时，我们使用'#'.join(fuli)将福利信息转换为以#号分隔的字符串，并将其写入CSV文件中。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python爬取懂车帝车价[项目代码]
2025-11-17 08:57

经过数据提取之后，爬虫程序将这些信息保存到CSV格式的文件中。CSV文件由于其简洁的格式和广泛的兼容性，非常适合于存储结构化数据，并且能够方便地被Excel等电子表格软件打开和进一步分析。程序的设计中还考虑到了...
11、Web数据提取：XPath、BeautifulSoup与Scrapy的应用
2025-07-16 03:20

play7的博客本文详细介绍了使用XPath、BeautifulSoup和Scrapy进行Web数据提取的技术与方法。涵盖了从基础语法到实际应用的多个方面，包括XPath的节点查询、BeautifulSoup的HTML解析与信息提取、以及Scrapy框架的核心组件与使用...
Python 爬虫实战：XPath 语法快速上手与节点提取
2025-12-17 16:11

python 爬虫工程师的博客本文系统讲解XPath在Python爬虫中的应用，以豆瓣图书Top250为例，详细解析XPath的核心语法、lxml库使用及实战技巧。XPath凭借路径表达式精准定位节点，支持多条件筛选和节点关系操作，解析效率高于BeautifulSoup。...
几行Python代码爬取3000+上市公司的信息
2020-09-19 16:42

9. **数据库存储**：在进一步完善代码时，将数据存储到MySQL数据库中。这需要使用`pymysql`库连接MySQL数据库，`create_engine`和SQLAlchemy库则用于操作数据库。 10. **时间计算**：使用`time`模块记录程序运行...
Python爬虫实践：深入探索代码托管平台的自动化数据采集
2026-01-03 11:21

Python爬虫项目的博客 python"""代码托管平台枚举""""""许可证信息"""name: str"""贡献者信息""""""代码仓库模型"""# 基础信息id: strname: strowner: str# 描述信息# 统计信息# 代码信息languages: Dict[str, float] = {} # 语言使用比例...
Python车辆尾气检测排放系统数据分析可视化大屏系统p5386sf8
2025-12-26 10:40

qq_3166678367的博客 LSTM算法：LSTM（长短期记忆网络）是一种深度学习算法，特别适合处理序列数据。在酒店评论情感分析中，LSTM能够捕捉文本中的长期依赖关系，精准识别情感倾向，有效提升情感分析的准确性和鲁棒性。Django框架：Django...
Python解释器的工作原理：从源代码到执行
2025-09-10 10:01

2301_76224486的博客从简单的数据收集任务到复杂的分布式爬虫系统，Python都能胜任。初学者建议从Requests和BeautifulSoup开始，掌握基础后再逐步学习Scrapy等高级框架和异步编程技术。最重要的是，始终牢记爬虫开发的伦理和法律边界，...
基于Python的贝壳网银川二手房数据分析与可视化
2024-08-02 10:39

虎哥计算机毕设的博客在本设计中，由于需要居住到二手房网站的原始数据，因此需要开发相应的网络爬虫程序完成对二手房原始数据的采集，图2-1为爬取贝壳网站的二手房数据的原理流程图。图2-1二手房网站爬虫原理流程图2.2线性回归算法线性...
科学技术只是暂时的、短暂的存在，还需要人类在不断的进化和完善中才能最终统一、协调、治理。
2023-08-03 02:21

光子AI的博客 2022年，人类的历史迎来了翻天覆地的变革。人类的科技水平飞速增长、产业革命、地球上的资源枯竭，让地球遭遇重大环境变化，人类面临的环境危机越发严峻...我们从中感受到了对未来的恐惧、畏惧、害怕、恐慌，甚至恐吓。
Python爬虫实战：研究Matplotlib API,构建Douban数据采集和分析系统
2025-08-29 10:13

ylfhpy的博客各年份电影数量折线图显示，上榜电影的年份分布从 20 世纪 30 年代到 2020 年代不等，其中 2000-2010 年间的电影数量最多，特别是 2004 年和 2009 年，各有 14 部电影上榜。整体来看，评分与评价人数之间没有明显的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月18日

完善代码将用xpath获取的数据保存到csv中

3条回答 默认 最新

问题事件

3条回答默认最新