tiaya01 2022-06-21 19:56 采纳率: 85.7%
浏览 59
已结题

为什么python爬虫的结果存储不到MySQL中?

为什么python爬虫的结果存储不到MySQL中?


# coding:utf-8
import requests
from bs4 import BeautifulSoup
import time
import pymysql

# 爬取数据
def get_information(page=0):
    url = 'https://tieba.baidu.com/f?ie=utf-8&kw=%E5%A4%8D%E6%97%A6%E5%A4%A7%E5%AD%A6' + str(page+1)
    headers={
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
        "Referer": "https://tieba.baidu.com/f?ie=utf-8&kw=%E5%A4%8D%E6%97%A6%E5%A4%A7%E5%AD%A6"
    }
    r = requests.get(url,headers=headers)
    soup = BeautifulSoup(r.content.decode("utf-8"),"html.parser")
    out = soup.find("ul",attrs={"class":"for-list"})
    datas = out.find_all('li')
    datas_list = []
    try:
        for data in datas:
            title = data.find('a', attrs={"class":"truetit"}).text.split()[0]
            artical_link = "https://bbs.hupu.com" + data.find('a', attrs={"class": "truetit"}).attrs['href']
            author = data.find('a', class_="aulink").text
            author_link = data.find('a', class_="aulink").attrs['href']
            create_time = data.find('a', style="color:#808080;cursor: initial; ").text
            lastest_reply = data.find('span', class_='endauthor').text

            datas_list.append({"title":title,"artical_link":artical_link,"author":author,"author_link":author_link,"create_time":create_time,"lastest_reply":lastest_reply})
    except:
        None
    return datas_list

if __name__ == "__main__":
    config = {
          'host':'localhost',
          'port':3306,
          'user':'root',
          'password':'root',
          'charset':'utf8',
          'database':'xinxiz',
    }
    connection = pymysql.connect(**config)  # 创建连接

    try:
        cur = connection.cursor()  # 创建游标
        for page in range(2):
            datas = get_information(page)
            for data in datas:
                cur.execute("INSERT INTO hupu_datas (title, artical_link, author, author_link,create_time, lastest_reply) VALUES(%s,%s,%s,%s,%s,%s)",(data['title'], data['artical_link'], data['author'], data['author_link'], data['create_time'], data['lastest_reply']))
            print("正在爬取第%s页"%(page+1))
            time.sleep(1)
    except:
        connection.rollback()           # 若出错了,则回滚
    finally:
        cur.close()  # 关闭游标
        connection.commit()  # 提交事务
        connection.close()  # 关闭连接

  • 写回答

2条回答 默认 最新

  • 「已注销」 2022-06-21 21:19
    关注

    可能你根本没爬取到

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 12月26日
  • 已采纳回答 12月18日
  • 创建了问题 6月21日

悬赏问题

  • ¥15 将安全信息用到以下对象时发生以下错误:c:dumpstack.log.tmp 另一个程序正在使用此文件,因此无法访问
  • ¥15 速度位置规划实现精确定位的问题
  • ¥15 代码问题:df = pd.read_excel('c:\User\18343\Desktop\wpsdata.xlxs')路径读不到
  • ¥15 为什么视频算法现在全是动作识别?
  • ¥15 编写一段matlab代码
  • ¥15 用Python做岩石类别鉴定软件
  • ¥15 关于调取、提交更新数据库记录的问题
  • ¥15 之前删了盘从下vs2022遇见这个问题 搞了一整天了
  • ¥15 从Freecad中宏下载的DesignSPHysics,出现如下问题是什么原因导致的(语言-python)
  • ¥30 notepad++ 自定义代码补全提示