Python爬取番茄小说网连接数据库存不了数据，json文件也是空的

目标是爬取番茄小说网的作小说名称、作者、路径、状态、简介、发布时间，连接数据库是成功的，但是却不能把数据存入数据库，保存的json格式的文件也是空的，只有方括号，整个程序并没有报错，代码如下：

from lxml import etree
import requests
import json
import threading
from queue import Queue
import time
import pymysql

class Tomato:
    def __init__(self):
        self.headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.81 Safari/537.36"
        }
        self.url_queue = Queue()
        self.html_queue = Queue()
        self.content_queue = Queue()

    def get_url_queue(self):
        url_temp = "https://fanqienovel.com/library/all/page_{}?sort=hottes"
        url_list = [url_temp.format(i) for i in range(1, 9)]
        for url in url_list:
            self.url_queue.put(url)

    def get_html_queue(self):
        while True:
            url = self.url_queue.get()
            html_source_page = requests.get(url, headers=self.headers).text
            self.html_queue.put(html_source_page)
            self.url_queue.task_done()

    def parse_html(self):
        while True:
            content_list = []
            html = self.html_queue.get()
            html_str = etree.HTML(html)
            node_list = html_str.xpath("//div[@class='book-item-text']")

            title_num = 0
            for node in node_list:
                title = node.xpath('./div/a/text()')[0]
                url = node.xpath('./div/a/@href')[0]
                author = node.xpath('./div[@class="book-item-desc"][1]/span/text()')[0]
                status = node.xpath('./div[@class="book-item-desc"][2]/span/text()')[0]
                intro = node.xpath('./div[contains(@class,"book-item-abstract")]/text()')[0]
                time = node.xpath("./div[@class='book-item-footer']/span/text()")[0].replace('@', '').strip()

                # 构建JSON格式的字符串
                item = {
                    "小说名称": title,
                    "小说链接": url,
                    "小说作者": author,
                    "状态":status,
                    "小说简介":intro,
                    '发布时间': time,
                }
                content_list.append(item)
                title_num += 1
            self.content_queue.put(content_list)
            self.saveData(content_list)
            self.html_queue.task_done()

    def save(self):
        while True:
            content_list = self.content_queue.get()
            with open("tomato.json", mode="a+", encoding='utf-8') as f:
                f.write(json.dumps(content_list, ensure_ascii=False, indent=2))
            self.content_queue.task_done()

    def saveData(self, content_list):  # 添加 self 参数
        db = pymysql.connect(host='localhost', user='root', password='root', database='py_tomato')
        cursor = db.cursor()
        for i in range(len(content_list)):
            item = content_list[i]
            article = item.get("小说名称")
            url = item.get("小说链接")
            author = item.get("小说作者")
            status = item.get("状态")
            intro = item.get("小说简介")
            publish_time = item.get("发布时间")
            sql = "insert into heima (article,url,author,status,intro,time) values(%s,%s,%s,%s,%s,%s)"
            try:
                cursor.execute(sql, (article, url, author,status,intro, publish_time))  # 传入正确的参数
                db.commit()
            except Exception as e:
                print("插入数据失败", e)
                db.rollback()
        cursor.close()
        db.close()

    def run(self):
        thread_list = []
        t_url = threading.Thread(target=self.get_url_queue)
        thread_list.append(t_url)
        for page in range(3):
            t_content = threading.Thread(target=self.get_html_queue)
            thread_list.append(t_content)
        for j in range(3):
            t_content = threading.Thread(target=self.parse_html)
            thread_list.append(t_content)
        t_save = threading.Thread(target=self.save)
        thread_list.append(t_save)
        for t in thread_list:
            t.setDaemon(True)
            t.start()
        for q in [self.url_queue, self.html_queue, self.content_queue]:
            q.join()
        print("打印完成")


if __name__ == '__main__':
    tomato = Tomato()
    tomato.run()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-18 11:16
关注
引自免费微信小程序：皆我百晓生

从你提供的代码来看，主要的问题在于saveData方法中对数据库操作的部分，以及save方法中写入JSON文件的逻辑可能没有正确处理多线程环境下的并发写入问题。下面我会逐步分析并提供解决方案。

数据库操作问题

在saveData方法中，你尝试将数据插入到数据库，但可能存在一些小错误导致插入失败，具体如下：

SQL语句中的字段名与表结构不匹配：确保heima表中的字段名与你在SQL语句中使用的字段名一致。例如，如果表中字段名为article_name而非article，则应修改SQL语句中的字段名。

参数类型不匹配：在执行cursor.execute()时，确保传递给SQL语句的参数类型与字段类型相匹配。例如，如果time字段在数据库中被定义为日期时间类型，而你传入的是字符串，这可能导致插入失败。

异常处理：虽然你已经包含了异常处理，但确保异常信息能够提供足够的细节来定位问题。

JSON文件写入问题

在save方法中，你尝试将内容列表写入JSON文件。然而，在多线程环境中，多个线程可能同时尝试写入同一个文件，这会导致数据混乱。解决这个问题的方法是在写入文件前添加互斥锁（mutex）以确保同一时刻只有一个线程可以写入文件。

解决方案

1. 检查数据库字段名

确保数据库表的字段名与你代码中使用的字段名完全一致。如果字段名不同，更新你的SQL语句。

2. 使用互斥锁控制文件写入

为了防止多线程同时写入文件，可以使用threading.Lock来控制文件访问。以下是修改后的save方法示例：

import threading # 创建一个锁对象 file_lock = threading.Lock() def save(self): while True: content_list = self.content_queue.get() # 使用锁保护文件写入操作 with file_lock: with open("tomato.json", mode="a+", encoding='utf-8') as f: f.write(json.dumps(content_list, ensure_ascii=False, indent=2)) self.content_queue.task_done()

3. 更新saveData方法中的SQL语句

确保SQL语句中的字段名与数据库表的实际字段名匹配，并且参数类型正确。如果有必要，调整字段名和参数类型。

4. 检查异常信息

在异常处理部分，打印出更详细的错误信息，以便于调试。例如：

except Exception as e: print(f"插入数据失败: {e}") db.rollback()

通过以上步骤，你应该能够解决数据插入数据库和写入JSON文件的问题。如果还有其他具体错误信息，建议进一步检查错误日志或输出，以便更准确地定位问题所在。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python网络爬虫的小说网站数据分析
2022-09-04 12:26

shejizuopin的博客该程序通过模拟用户行为（随机User-Agent、访问间隔）实现反爬技术，使用BeautifulSoup和正则表达式解析网页，可获取小说标题、作者、出版信息、简介、封面、价格、评论等数据，并存储为结构化格式（CSV/JSON/Excel...
基于python+vue.js+django的爬取番茄小说数据及可视化系统附带文章源码部署视频讲解等
2024-11-21 11:13

wishCoding的博客博主介绍：✌CSDN特邀作者、资深全栈开发程序员，曾在互联网大厂担任高级职位、码云/掘金/华为云/阿里云/InfoQ/StackOverflow/github等平台优质作者、专注于Java、小程序、前端、python等技术领域毕业项目实战，以及...
Python实现fan茄小说内容下载
2023-10-17 15:53

轻松学Python的博客最近跟小说杠上了，都是小说的内容
国内某Python大神自创完整版，系统性学习Python
2020-05-19 13:39

编程星球的博客我觉得完全没有必要，也违背了我最初放这个大纲上来的初衷，我是觉得这个学习大纲还不错，自学按照这个来也能相对系统的学习知识，而不是零散细碎的知识最后无法整合，每个人的基础以及学习进度都不一样，没有必要...
玩转 Cursor AI 编程，基础功能、AI 技巧、进阶玩法
2025-06-12 16:37

Hello123网站的博客大家好，本文是观看 B站 up主“不正经的前端啊”的cursor教程：https://www.bilibili.com/video/BV1ZvEDzKEQb/ 所做出的总结笔记，欢迎大家结合原视频看本笔记。另外，欢迎大家访问 https://www.hello123.com。
爬虫7：多线程与协程
2024-09-06 17:55

大鸣王潮2024的博客我们可以使用线程池：一次性开辟一些线程，我们用户直接给线程池子提交任务，线程任务的调度交给线程池来完成。进程是资源单位，每个进程至少要有一个线程。因为91被封了这里用另一个视频...多线程爬取北京新发地。
浏览器收藏滴备份
2018-03-17 10:04

七块的学习笔记的博客收藏夹在线二维码生成器慕课网 ... 小刀娱乐网-免费资源分享平台,干货共分享-好东西不私藏! Python教程 - 廖雪峰的官方网站思维简图艾瑞禁用js 知乎收藏夹天...
python+springboot+django/flask的在线小说阅读系统亮点章节阅读和上一章，下一章
2025-12-04 11:14

QQ1963288475的博客在线小说阅读平台的开发背景根植于数字阅读浪潮的崛起与用户需求的深刻变革。随着互联网技术的飞速发展，特别是5G、人工智能等新技术的普及，传统纸质阅读逐渐被数字化阅读取代，用户对便捷、个性化、互动性强的阅读...
GRIT Python
2024-11-10 16:03

Ha-Okay-Ha的博客基于Python语言程序设计基础和Python编程从入门到实践语法部分的个人笔记，完全原创，作者大一新生，先前未学习过编程，避免不了出错，还请见谅！若需要源文件，请私信，无偿，用爱发电，但禁止商用，仅供学习，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月18日

Python爬取番茄小说网连接数据库存不了数据，json文件也是空的

2条回答 默认 最新

数据库操作问题

JSON文件写入问题

解决方案

1. 检查数据库字段名

2. 使用互斥锁控制文件写入

3. 更新saveData方法中的SQL语句

4. 检查异常信息

问题事件

2条回答默认最新

3. 更新`saveData`方法中的SQL语句