Python爬虫爬取网页商品信息，数据为空，代码是哪里有问题

import requests
import re
import csv

def getHTML():
name = input('请输入爬取商品的名字:')
start_url = 'https://gkxy.gyao511.com/goods/search?keyword={}&s='.format(name)
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
}
path = 'F:\mycookie.txt'
with open(path, 'r')as f:
mycookies = f.read()
mycookies = mycookies.split(';')
cookies = {}
for cookie in mycookies:
name, value = cookie.strip().split('=', 1)
cookies[name] = value
pages = input('请输入爬取的商品页数:')
goods = ''
for i in range(int(pages)):
url = start_url + str(i * 20)
r = requests.get(url, headers=header, cookies=cookies, timeout=60)
r.encoding = r.apparent_encoding
goods += r.text
return goods

def findMS(html):
print('=' * 20, '正在爬取商品信息', '=' * 20, '\n')
marketnames = re.findall('"goodsName":"(.*?)"', html)
titles = re.findall('"goodsPrice":"(.*?)"', html)
prices = re.findall('"brandName":"(.*?)"', html)
pays = re.findall('"gcName":"(.*?)"', html)
data = []
try:
for i in range(len(titles)):
data.append([marketnames[i], titles[i], prices[i],pays[i]])
if data == '':
print('=' * 20, '暂无此商品信息', '=' * 20, '\n')
return data
print('=' * 20, '爬取成功', '=' * 20, '\n')
except:
print('异常，爬取中断')
return data

def download(data):
print('=' * 20, '正在保存商品信息', '=' * 20, '\n')
path = 'F:\goods.csv'
try:
f = open(path, "w", newline="")
writer = csv.writer(f)
writer.writerow(['商品名', '商品价格', '生产厂家', '分类'])
writer.writerows(data)
print('=' * 20, '保存成功', '=' * 20, '\n')
except:
print('保存失败')
f.close()

def main():
html = getHTML()
data = findMS(html)
download(data)

if __name__ == "__main__":
main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-07 17:04
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
你可以参考下这篇文章：python爬虫示例爬取网页信息，并且将爬取到的信息存入数据库。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python爬虫爬取网页源代码为空，求问原因&解决方案（向） python 爬虫
2015-08-11 04:55

回答 5 已采纳代码： ``` #!/usr/bin/env python3 #-*- coding=utf-8 -*- import urllib3 if __name__ == '
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
python爬虫爬取网页数据
2022-12-01 07:45

网络安全扬叔的博客 python爬虫爬取网页数据
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
python爬虫爬取京东评论返回空白的求助贴 python
2021-02-17 18:23

回答 3 已采纳在header参数中添加referer默认值，应该是直接访问触发反爬了
python爬虫 爬取网页图片
2022-12-22 18:05

chenruhan_QAQ_的博客 python爬虫爬取网页上的图片
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
基于python的网络爬虫爬取天气数据及可视化分析python大作业，课程设计报告
2022-06-13 17:03

基于python的网络爬虫爬取天气数据及可视化分析 python程序设计报告源代码+csv文件+设计报告 python期末简单大作业（自己写的，重复率低）利用python爬取了网站上的城市天气，并用利用可视化展示，有参考文献有...
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python 爬虫爬取国家统计局行政区数据
2020-03-21 20:58

运行即可生成数据库插入数据 insert into province(name,code,type,parent_code) values (北京市,110000000000,1,000000000000); 最好分线程下载
Python爬虫学习-简单爬取网页数据
2021-08-11 21:57

Polaris_T的博客这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示...
没有解决我的问题, 去提问

悬赏问题

¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100
¥15 关于#hadoop#的问题
¥15 (标签-Python|关键词-socket)
¥15 keil里为什么main.c定义的函数在it.c调用不了
¥50 切换TabTip键盘的输入法
¥15 可否在不同线程中调用封装数据库操作的类

Python爬虫爬取网页商品信息，数据为空，代码是哪里有问题

1条回答 默认 最新

悬赏问题

1条回答默认最新