戴帽子的小女孩 2021-10-21 16:59 采纳率: 66.7%
浏览 70
已结题

如何将python爬取下来的数据保存到Mysql


import requests
from lxml import etree
import pymysql
import re
headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
    }
url='https://www.gushiwen.cn/default_2.aspx'

def get_ancient_poetry():
   
    response=requests.get(url,headers=headers)
    content = response.content.decode('utf8')
    html = etree.HTML(content)
    titles=html.xpath('//div[@class="cont"]/p/a/b/text()')  #古诗名
    authors=html.xpath('//p[@class="source"]/a/text()') #作者
    dynastys=html.xpath('//p[@class="source"]/a/text()')  #朝代
    content=html.xpath('//div[@class="contson"]/text()') #古诗内容
    content=''.join(html.xpath('//div[@class="contson"]/text()')).strip()
    pomes = []
    print(content)
  




if __name__ == '__main__':
    get_ancient_poetry()

这里我打印content返回是正常的古诗内容

img

import requests
from lxml import etree
import pymysql
import re
headers={
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
    }
url='https://www.gushiwen.cn/default_2.aspx'

def get_ancient_poetry():
    conn = pymysql.connect(host='localhost', user='root', password='123456', database='boss', port=3306)

    cursor = conn.cursor()
    response=requests.get(url,headers=headers)
    content = response.content.decode('utf8')
    html = etree.HTML(content)
    titles=html.xpath('//div[@class="cont"]/p/a/b/text()')  #古诗名
    authors=html.xpath('//p[@class="source"]/a/text()') #作者
    dynastys=html.xpath('//p[@class="source"]/a/text()')  #朝代
    content=html.xpath('//div[@class="contson"]/text()') #古诗内容
    content=''.join(html.xpath('//div[@class="contson"]/text()')).strip()
    pomes = []
    for value in zip(titles, authors, dynastys, content):
        title, author, dynasty, content = value
        pome = {
            '古诗名': title,
            '作者': author,
            '朝代': dynasty,
            '古诗内容': content
        }
        pomes.append(pome)
    for pome in pomes:
        print(pome)
        print('=' * 40)




if __name__ == '__main__':
    get_ancient_poetry()

这样子写之后在打印发现古诗内容就获取了一个字这是为啥该怎么修改代码

img

而且我还想保存到mysql数据库里面,表已经建好了但是不会能帮忙完善一下代码讲解一下吗

img

  • 写回答

2条回答 默认 最新

  • CSDN专家-HGJ 2021-10-21 17:27
    关注

    根据后面处理数据的要求,content是一个列表,将第21行改成如下即可:
    content=[c.strip() for c in content]
    至于mysql在连接后,使用create table,insert into等语句将数据写入,参考sql及pymysql使用教程。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月29日
  • 已采纳回答 10月21日
  • 创建了问题 10月21日

悬赏问题

  • ¥15 matlab基于pde算法图像修复,为什么只能对示例图像有效
  • ¥100 连续两帧图像高速减法
  • ¥15 组策略中的计算机配置策略无法下发
  • ¥15 如何绘制动力学系统的相图
  • ¥15 对接wps接口实现获取元数据
  • ¥20 给自己本科IT专业毕业的妹m找个实习工作
  • ¥15 用友U8:向一个无法连接的网络尝试了一个套接字操作,如何解决?
  • ¥30 我的代码按理说完成了模型的搭建、训练、验证测试等工作(标签-网络|关键词-变化检测)
  • ¥50 mac mini外接显示器 画质字体模糊
  • ¥15 TLS1.2协议通信解密