python爬取相同div中的内容

想要爬取新书一列并保存到csv中，用pyquery
它在相同的div中，而且还有空缺值，没有新书的值为空

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-showbo 2022-10-19 13:20

关注

from pyquery import PyQuery as pq 
import requests
import csv
 
url='https://item.kongfz.com/Cxiaoshuo/w{}/'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'}
alldata=[['书名','价格','新书价格','旧书价格','作者','出版社','出版日期','装订']]
for i in range(99,100):#采集第99页，没有新书
    newurl=url.format(i)
    html=requests.get(newurl,headers=headers).text
    doc=pq(html)
    items=doc('#listBox .item').items()
    for item in items:
        book=pq(item.html())
        title=list(book('.title a').items())[0].text()
        attrs=list(book('.zl-isbn-info').items())[0].text().split('/')
        price=attrs[-1].strip()
        pricebox=list(book('.price-info a').items())
        newprice=""
        oldprice=""
        if len(pricebox)>1:#有新书和旧书
            newprice=pricebox[0].text().replace("新书","").strip()
            oldprice=pricebox[1].text().replace("旧书","").strip()
        else:#只有新书或者旧书其中一种
            s=pricebox[0].text()
            if '新书' in s:
                newprice=s.replace("新书","").strip()
            else:
                oldprice=s.replace("旧书","").strip()
        alldata.append([title,price,newprice,oldprice,attrs[0],attrs[1],attrs[2],attrs[3]])
       
#有特殊字符串，需要用utf-8编码，不指定编码会出错，但是Excel打开utf-8编码csv会乱码。需要自己记事本打开另存为ansi编码的csv文件
with open('item.kongfz.com.csv','w',newline='',encoding='utf-8')as f:
    writer = csv.writer(f)
    for data in alldata:
        writer.writerow(data)

展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

Python获取div下内容 python 爬虫
2022-04-14 02:52

回答 1 已采纳一个取巧的方法： # span后面的懒得写了。。正则表达式的前后缀你可以改动一下 list_match = re.findall(r'<span...>(.*?)</span>
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 02:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
小白请教高手，python爬取数据遇到js隐藏div怎么办 javascript python
2018-10-11 17:45

回答 3 已采纳以下是获取点击查看返回内容，测试可以完成爬取 ``` import requests def test(): s=requests.session() headers
python爬取动态拉勾网.zip
2020-08-04 12:10

本项目"python爬取动态拉勾网.zip"旨在教你如何使用Python来抓取动态加载的拉勾网上的工作岗位信息，并对其进行可视化分析。拉勾网是中国知名的互联网招聘平台，其网页内容通常采用Ajax动态加载技术，这为爬取数据...
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 04:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 11:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
Python爬取存储出错 python 学习方法改行学IT
2022-10-17 16:23

回答 1 已采纳是encoding，你拼错了，有帮助的话采纳一下哦！
python爬取内容存入Excel实例
2020-09-19 06:29

### Python爬取内容存入Excel知识点详解 #### 一、项目背景与目标在本案例中，主要介绍如何使用Python爬取豆瓣Top250电影的相关信息，并将这些信息保存到Excel文件中。通过这个实践案例，我们可以学习到Python...
用Python爬取一个网页，向下滚动会不断生成div，想要爬取这些div但爬取下来只有个loading python 爬虫
2022-03-28 14:27

回答 2 已采纳阿这.你这个URL所需要的电影数据不是写在接口里嘛?????打开F12开发者工具.刷新页面.选择XHR.就能看到这个网站数据返回是JSON接口https://api.jackeriss.com/api
python 爬取数据数据缺失 python
2022-11-25 12:06

回答 2 已采纳它这个做了一点点反扒，你需要把标签里面的5取出来，和你的0.9拼在一起。试试下面这个看行不 Moive_score1 = li.xpath('./i/b/text()') Moive_score2 =
python 爬取表格获取不到数据 python
2020-02-17 14:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
用python爬取网页并导出为word文档.docx
2020-05-06 06:58

在Python编程中，爬虫是一种常见的技术，用于自动获取网页内容。MongoDB作为一个非关系型数据库，因其灵活性和高性能在Web应用数据存储方面扮演着重要角色。本篇内容将介绍如何利用Python爬虫抓取网页内容，并将其...
利用Python爬取网页内容
2021-03-17 11:34

不爱吃零食的北鼻的博客一、爬取简单的网页？ 1、打开cmd 2、安装requests模块，输入pip install requests 3、新建一个.py文件，我们以https://www.bqkan.com这个网站为例，以下是爬取斗罗大陆的网页 import requests # 导入requests包 ...
python爬取付费隐藏内容_如何用python 爬取网页中隐藏的div内容？
2020-11-23 06:32

weixin_39927848的博客该函数吧serverurl跟photosrc这个array里头的元素拼接，并把他设置成viewimg的src属性，这就是图片链接。图片链接由前半部分服务器链接和后半部分GET参数构成。...形如：考察 global.js ，不难... 初学编程，多指教！
Python-数据爬取（爬虫）
2024-07-12 09:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，...在大规模数据爬取时，选择合适的存储方式取决于数据的规模、结构和访问需求。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月19日

悬赏问题

¥15 代写uni代码，app唤醒
¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：

python爬取相同div中的内容

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新