python爬取论坛文章问题

需求是：把页面上的内容保存到word中，页面上有文字和图片。现在只实现了文字和图片分开保存，文字在前，图片在后，希望能实现按照页面上的顺序，文字和图片穿插保存。
我想在读取到内容后判断一下是文字还是图片，然后分别执行不同的代码进行保存，尝试了很久也没找到方法。希望能实现按照页面上的顺序保存到本地word中。

import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches,Pt,RGBColor
from docx.oxml.ns import qn

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"}

file = Document()
file.styles['Normal'].font.name = u'宋体'
file.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
file.styles['Normal'].font.size = Pt(12)
file.styles['Normal'].font.color.rgb = RGBColor(0,0,0)
url = 'https://bbs.tiexue.net/post_7023745_1.html'
title = '标题'

strhtml = requests.get(url,headers=headers,timeout=(4,3))
soup = BeautifulSoup(strhtml.text,'html.parser')
data = soup.select('#postContent > p[class="bbsp"]')
pic = soup.select('#postContent > p[class="bbsp"] > a > img')
file.add_paragraph(url)
file.add_paragraph(title)
for item1 in data:
    result1 = {
        'paragraph':item1.get_text()
    }
    file.add_paragraph(result1['paragraph'])

for item2 in pic:
    result2 = {
        'pic':item2.get('src')
    }
    pic = requests.get(result2['pic'],headers=headers,timeout=(4,3))
    with open('pic_tmp.png',"wb")as f:
        f.write(pic.content)
    file.add_picture('pic_tmp.png', width=Inches(6))

docxurl = title+'.docx'
file.save(docxurl)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

CSDN专家-showbo 2022-01-07 16:17

关注

data中已经包含图片信息，遍历的时候判断是图片直接加图片，否则就文字就可以了，代码如下

import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches,Pt,RGBColor
from docx.oxml.ns import qn
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"}
file = Document()
file.styles['Normal'].font.name = u'宋体'
file.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
file.styles['Normal'].font.size = Pt(12)
file.styles['Normal'].font.color.rgb = RGBColor(0,0,0)
url = 'https://bbs.tiexue.net/post_7023745_1.html'
title = '标题'
strhtml = requests.get(url,headers=headers,timeout=(4,3))
soup = BeautifulSoup(strhtml.text,'html.parser')
data = soup.select('#postContent > p[class="bbsp"]')
#pic = soup.select('#postContent > p[class="bbsp"] > a > img')###不需要
file.add_paragraph(url)
file.add_paragraph(title)
for item1 in data:
    if str(item1).find('<img')!=-1:################图片
        item2=item1.select('img')[0]
      
        result2 = {
            'pic':item2.get('src')
        }
        pic = requests.get(result2['pic'],headers=headers,timeout=(4,3))
        with open('pic_tmp.png',"wb")as f:
            f.write(pic.content)
        file.add_picture('pic_tmp.png', width=Inches(6))
    else:################文字
        result1 = {
            'paragraph':item1.get_text()
        }
        file.add_paragraph(result1['paragraph'])
docxurl = title+'.docx'
file.save(docxurl)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

Python爬取今日头条热门文章
2024-01-10 08:41

Python脚本文件，使用Python爬取今日头条指定专栏分类的热门文章，并将文章保存到MySQL数据库中实现今日头条热门文章数据爬取
python爬取微信公众号文章
2024-10-26 20:46

使用公众号写文章时支持搜索其他公众号的文章的方式，来实现爬取指定公众号所有文章的目的。程序原理: 通过selenium登录获取token和cookie，再自动爬取和下载使用前提： 1、申请一个免费的微信公众号，个人订阅...
Python爬取公众号文章[可运行源码]
2025-11-13 07:23

本文详细介绍了如何使用Python脚本爬取微信公众号文章链接。首先解释了爬虫的基本概念，指出搜索引擎本身就是一种爬虫技术。然后重点介绍了定向爬虫，特别是模拟浏览器行为的爬虫，用于专门爬取微信公众号文章。文章...
python 爬取微信文章
2020-12-24 06:39

下文是笔者整理的一份python爬取微信文章的代码，有兴趣的欢迎阅读 #coding:utf-8 author = 'haoning' **#!/usr/bin/env python import time import datetime import requests** import json import sys reload(sys...
Python selenium爬取微信公众号文章代码详解
2020-09-16 10:07

主要介绍了Python selenium爬取微信公众号历史文章代码详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
python爬取各类文档方法归类汇总
2021-01-20 04:56

下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。 1.抓取TXT文档在python3下，常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。 ### Reading TXT ...
Python爬取公众号文章[代码]
2025-11-16 08:24

本文详细介绍了如何使用Python和...文章还提供了完整的代码示例，涵盖了登录、获取Cookie、搜索公众号、爬取文章列表及保存内容等关键步骤。最后，强调了浏览器版本与驱动插件的兼容性问题，并提供了相关参考链接。
python爬取指定微信公众号文章
2020-09-19 20:10

主要为大家详细介绍了python爬取指定微信公众号文章，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月7日

python爬取论坛文章问题

3条回答 默认 最新

问题事件

3条回答默认最新