为什么python爬虫的结果存储不到MySQL中？


# coding:utf-8
import requests
from bs4 import BeautifulSoup
import time
import pymysql

# 爬取数据
def get_information(page=0):
    url = 'https://tieba.baidu.com/f?ie=utf-8&kw=%E5%A4%8D%E6%97%A6%E5%A4%A7%E5%AD%A6' + str(page+1)
    headers={
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
        "Referer": "https://tieba.baidu.com/f?ie=utf-8&kw=%E5%A4%8D%E6%97%A6%E5%A4%A7%E5%AD%A6"
    }
    r = requests.get(url,headers=headers)
    soup = BeautifulSoup(r.content.decode("utf-8"),"html.parser")
    out = soup.find("ul",attrs={"class":"for-list"})
    datas = out.find_all('li')
    datas_list = []
    try:
        for data in datas:
            title = data.find('a', attrs={"class":"truetit"}).text.split()[0]
            artical_link = "https://bbs.hupu.com" + data.find('a', attrs={"class": "truetit"}).attrs['href']
            author = data.find('a', class_="aulink").text
            author_link = data.find('a', class_="aulink").attrs['href']
            create_time = data.find('a', style="color:#808080;cursor: initial; ").text
            lastest_reply = data.find('span', class_='endauthor').text

            datas_list.append({"title":title,"artical_link":artical_link,"author":author,"author_link":author_link,"create_time":create_time,"lastest_reply":lastest_reply})
    except:
        None
    return datas_list

if __name__ == "__main__":
    config = {
          'host':'localhost',
          'port':3306,
          'user':'root',
          'password':'root',
          'charset':'utf8',
          'database':'xinxiz',
    }
    connection = pymysql.connect(**config)  # 创建连接

    try:
        cur = connection.cursor()  # 创建游标
        for page in range(2):
            datas = get_information(page)
            for data in datas:
                cur.execute("INSERT INTO hupu_datas (title, artical_link, author, author_link,create_time, lastest_reply) VALUES(%s,%s,%s,%s,%s,%s)",(data['title'], data['artical_link'], data['author'], data['author_link'], data['create_time'], data['lastest_reply']))
            print("正在爬取第%s页"%(page+1))
            time.sleep(1)
    except:
        connection.rollback()           # 若出错了，则回滚
    finally:
        cur.close()  # 关闭游标
        connection.commit()  # 提交事务
        connection.close()  # 关闭连接

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2022-06-21 21:19
关注
可能你根本没爬取到

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

为什么python爬虫的结果存储不到MySQL中？ mysql python
2022-06-21 19:56

回答 2 已采纳可能你根本没爬取到
Python 爬虫豆瓣250为什么抓取不到英文电影名？ python 有问必答
2021-06-04 08:30

回答 4 已采纳你选的是第一个span标签。 each.a.span.next_sibling.text
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
零基础Python爬虫从入门到精通教程[视频课程].txt打包整理.zip
2022-03-07 10:02

【Python爬虫基础概念】 Python爬虫是一种自动化网络数据抓取技术，它是通过编写特定的Python代码来模拟人类浏览网页的行为，抓取网页上的信息。Python作为一门强大的编程语言，因其简洁明了的语法和丰富的第三方库...
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
python爬虫初学，运行不报错但是没有结果？ python 有问必答
2021-04-01 16:51

回答 4 已采纳代码问题：1.request少写了s。 2. fillUnivList(ulist,html)函数没有return。 3.printUnivList(ulist,num)缺少异常处理。 4
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
爬虫框架是什么？常见的Python爬虫框架有哪些？.pdf
2022-11-03 09:09

在Python编程语言中，有许多成熟的爬虫框架，它们可以帮助开发者快速构建爬虫项目，同时提供了诸如错误处理、数据存储、反反爬策略等一系列功能，大大降低了开发难度。 1. Scrapy：Scrapy是最知名的Python爬虫框架...
如何用Python把PDF、Word、Excel等文件储存到MySQL中呢？难道人家上传文件到网站不是用MySQL来储存的吗 python
2022-03-14 11:07

回答 3 已采纳一般都是存储该文件的路径，你要都存到数据库里，那体量得多大，查询也费劲，回传也麻烦，反正我没见谁都给存数据库里的，来回转换就够费劲的了。你这个问题有很多其他方法可以解决，你看看百度文库，或者存到百度云
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
python如何把list中的字典结构循环存储到MYSQL中？ list python
2019-01-08 16:39

回答 2 已采纳 import mysql.connector #数据库连接 conn=mysql.connect.connector("连接参数") cursor=conn.cursor() for book
夜曲编程Python爬虫总结思维导图
2022-08-17 13:51

【Python爬虫基础】在Python编程领域，爬虫是一种用于自动化...以上知识点构成了Python爬虫的基本体系，通过夜曲编程的爬虫总结思维导图，你可以系统性地学习和理解这个领域，逐步掌握从网页抓取到数据处理的全过程。
python爬虫&hadoop&mysql intellij-idea mysql python
2022-04-17 15:49

回答 1 已采纳分析好的数据在存到mysql里呀
python爬虫爬取csdn文章内容存储为excel文件，后续添加在mysql数据库中.zip
2024-03-29 15:28

本项目“python爬虫爬取csdn文章内容存储为excel文件，后续添加在mysql数据库中”旨在展示如何利用Python来爬取知名IT社区CSDN上的文章内容，并将这些数据整理存入Excel文件，最终进一步导入到MySQL数据库中，以实现...
python爬虫课件+代码.zip
2021-07-25 12:18

Python爬虫技术是一种用于自动化网络数据获取的编程技术，它在大数据分析、网站维护、市场研究等领域具有广泛应用。本课程由“路飞学城樵夫”老师指导，通过实际操作帮助学习者掌握Python爬虫的基本原理和实战技巧。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月21日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

为什么python爬虫的结果存储不到MySQL中？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新