python抓取内容发布到wordpress失败报错 5C

用python的抓取内容后,想发布到wordpress,但是总是报错,不知道是什么原因,如果手动指定title和content字符串的话是可以发布成功的,请大神赐教,我是新手小白。

import requests
import re
from bs4 import BeautifulSoup
from wordpress_xmlrpc import Client, WordPressPost, WordPressTerm
from wordpress_xmlrpc.methods.posts import GetPosts, NewPost
from wordpress_xmlrpc.methods.users import GetUserInfo
from wordpress_xmlrpc.methods import taxonomies
import csv

url = "https://www.toutiao.com/a6564374201275253251/"
r = requests.get(url).text
r = re.sub('<','<', r)
r = re.sub('>','>', r)
r = re.sub('=','=', r)
r = re.sub('"','"', r)

soup = BeautifulSoup(r,'lxml')

title = soup.title.string
result = re.search(r'<div>.*</div>', r).group()

wp = Client('http://www.pl.com/xmlrpc.php', 'pl', 'BEIJ')

"""
发表博文
"""
post = WordPressPost()
post.title = title
post.content = result
post.post_status = 'publish'

wp.call(NewPost(post))

报错信息::

Traceback (most recent call last):
File "D:\Anaconda\lib\xmlrpc\client.py", line 510, in __dump
f = self.dispatch[type(value)]
KeyError:

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "spider.py", line 38, in
wp.call(NewPost(post))
File "D:\Anaconda\lib\site-packages\wordpress_xmlrpc\base.py", line 37, in call
raw_result = server_method(*args)
File "D:\Anaconda\lib\xmlrpc\client.py", line 1112, in call
return self.__send(self.__name, args)
File "D:\Anaconda\lib\xmlrpc\client.py", line 1446, in request
allow_none=self.
allow_none).encode(self.__encoding, 'xmlcharrefreplace')
File "D:\Anaconda\lib\xmlrpc\client.py", line 971, in dumps
data = m.dumps(params)
File "D:\Anaconda\lib\xmlrpc\client.py", line 502, in dumps
dump(v, write)
File "D:\Anaconda\lib\xmlrpc\client.py", line 524, in __dump
f(self, value, write)
File "D:\Anaconda\lib\xmlrpc\client.py", line 595, in dump_struct
dump(v, write)
File "D:\Anaconda\lib\xmlrpc\client.py", line 520, in __dump
raise TypeError("cannot marshal %s objects" % type(value))
TypeError: cannot marshal objects

0

3个回答

1

图片也能抓取到吗?另外是否过滤了文章内的链接?

0
xieyicn
xieyicn 图片可以抓到,没有内链,
大约一年之前 回复

TypeError: cannot marshal objects . 注意这行, 应该是数据类型错误导致

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Wordpress爬虫插件支持最新版本
Wordpress爬虫插件,国外人做的爬虫插件,可以一键post,可以爬各种网站,各种文章。
wordpress文章自动翻新发布【实用插件】
已验证,真实可用的wordpress插件. 对网站的SEO有很强帮助
wordpress免费万能发布模块
WordPress免登录发布接口,支持Wordpress2.5+版本,最新支持WordPress3.x。 适用于火车头采集器等任意采集器或脚本程序进行日志发布。
火车头采集器Wordpress免登录发布模块,适用于最新版的wordpress 3.4.2
今天准备用火车头更新wordpress的网站,在百度和火车头论坛找了好多遍,没有找到可以使用到wordpress 3.4.2的发布模块,所以只有自己动手了,这个免登陆的发布接口是从亚普采集器上移植过来的,经测试,一切正常 WordPress免登录发布接口,支持Wordpress2.5+版本。最新验证支持Wordpress3.x(测试版本3.4.2) 适用于火车头采集器等任意采集器或脚本程序进行日志发布。 功能: 1. 随机时间安排与预约发布功能: 可以设定发布时间以及启用预约发布功能 2. 自动处理服务器时间与博客时间的时区差异 3. 永久链接的自动翻译设置。根据标题自动翻译为英文并进行seo处理 4. 多标签处理(多个标签可以用火车头默认的tag|||tag2|||tag3的形式) 5. 增加了发文后ping功能 6. 增加了“pending review”的设置 7. 增加了多作者功能,发布参数中指定post_author 8. 增加了自定义域功能,发布参数指定post_meta_list=key1$$value1|||key2$$value2,不同域之间用|||隔开,名称与内容之间用$$隔开。 使用说明:(打开post.php,按照需求修改配置参数,配置完成后上传至网站根目录) $post_author = 1; //作者的id,默认为admin $post_status = "publish"; //"future":预约发布,"publish":立即发布,"pending":待审核 $time_interval = 60; //发布时间间隔,单位为秒 。可是设置随机数值表达式,如如12345 * rand(0,17) $post_next = "next"; //now:发布时间=当前时间+间隔时间值 //next: 发布时间=最后一篇时间+间隔时间值 $post_ping = false; //发布后是否执行ping $translate_slug = false; //是否将中文标题翻译为英文做slug $secretWord = 'tianle.name'; //接口密码,如果不需要密码,则设为$secretWord=false ; 火车头发布模块的设置: 导入wordpress.wpm发布模块到火车头,编辑wordpress.wpm模块,内容发布参数→发布地址后缀,把/post.php?action=save&secret=tianle.name中的tianle.name修改为和你设置的post.php的密码一致,如下图:
wordpress 批量发布插件
可以批量发布文章 定时发布文章, 这个插件非常简单易用
Python文章抓取GUI程序
Python文章抓取,可以自动抓取并保存文章到txt文件,适合的网站有CSDN,简书,各大新闻网站的文章。
一个python代码,可以抓取图书
一个简单的抓取图书网站的书籍的代码,简单的框架,强大的功能
关于NC应用was部署失败的处理
关于NC应用was部署失败的处理 关于NC应用was部署失败的处理 关于NC应用was部署失败的处理
python邮箱抓取脚本
python邮箱抓取脚本,利用正则表达式从文本内容中抓取邮箱。
wordpress采集插件
wordpress采集插件
Wordpress文章发表工具(原创+源码)
自己写的一个wordpress文章winform发表工具,直接操作数据库。需要自己去下载一个MySql.Data.dll 放在Bin目录噢
python使用CrawlSpider整站抓取文章内容
本工程实现了python使用CrawlSpider整站抓取文章内容,具体的内容介绍见博客:https://blog.csdn.net/xiaocy66/article/details/83048237
发布元数据报错 NC错误处理
NC中常见的错误处理 发布元数据报错文档介绍
Python 抓取 图片 下载地址
Python 抓取 图片Python 抓取 图片Python 抓取 图片Python 抓取 图片Python 抓取 图片Python 抓取 图片
百度贴吧贴子抓取脚本
python代码实现的 百度贴吧贴子抓取脚本,生成text文件,以及图片
Python 抓取图片(源码)
Python 抓取百度贴吧里边的图片内容
Jsp抓取页面内容
jsp代码获取页面数据。可在tomcat中进行测试。
最新好用的免费火车头WORDPRESS接口程序--大家有福啦!
你们有福了! 最新好用的免费火车头WORDPRESS接口程序,经过测试好用的! 想来想去还是共享出来了~
python抓取新浪微博数据
python作为人工智能或者大数据的宠儿,我自然要学习,作为一个小白,第一个实现的工能就是爬虫,爬数据,收集数据,我以我爬微博的事情为例子,附上代码,大家一起学习
解决 win7 opencv+python+pyinstaller 打包之后运行失败
解决 win7 opencv+python+pyinstaller 打包之后运行失败 找不到 cv2的
CURL&python;实现geoserver半自动发布服务
压缩包包括使用指南,curl压缩包,代码,都有了,5积分不亏的,博主找了很多资料的。
wordpress付费阅读插件,下载大秦wordpress付费阅读插件
大秦wordpress付费阅读插件特点:1) 支持微信支付,微信扫码支付,微信h5支付,并且自动识别调用; 2) 让你wordpress网站变知识付费商城; 3) 任意wordpress文章都能变成付费阅读,为你赚钱。欢迎使用反馈,使用方法见https://edu.csdn.net/course/detail/8213
WordPress文章发布工具--V1.0个人版
WordPress文章发布工具--V1.0个人版,由宏拓软件工作室以WordPress 4.0版本为基础开发,其他版本请自己测试! WordPress文章发布工具--V1.0个人版为终身免费版,宏拓软件工作室不会以任何理由,要求用户付费! 如果您在使用过程中,遇到什么问题,请及时给我们反馈意见!邮箱:1808836728@qq.com
wp4.9免登陆发布模块
wp4.9免登陆最新发布模块,自动采集自动发布。懒汉站长的最佳工具
WordPress缩略图重新生成插件Generate Thumbnail v1.0.2
WordPress主题很多,所以爱折腾的我们换几次主题是常事,但不同主题调用缩略图的尺寸也不同,此时,这款WordPress缩略图重新生成插件就派上用场了。
抓取百度文库内容
通过python脚本,爬虫抓取百度文库付费内容,自动化脚本
解决geopandas安装报错
安装geopandas如果发生报错,可以下载此文档,解压后,依次安装里面的库即可解决报错,安装方法:win+r输入cmd,使用命令pip install [whl文件路径及文件名] , 注意Fiona要放在最后一个安装,安装完成后即可成功安装geopandas。
抓取搜狐的有效链接和文章内容
利用scracpy框架,抓取搜狐网的链接和文章,并去重和过滤掉不合格的数据存到redis数据库中
python爬虫 抓取页面图片
python爬虫 抓取页面图片python爬虫 抓取页面图片python爬虫 抓取页面图片
rancher平台手动添加WordPress服务
在搭建好docker rancher平台之后,如何手动添加WordPress服务,里面有详细的图解步骤及说明。
WORDPRESS-5.03-ZH-CN中文版
wordpress-5.03-ZH-CN,中文版。官方原版。网站搭建最简洁平台。
wordpress插件 js_composer中文
WordPress的页面拖放编辑器。可以完全控制你的WordPress网站,建立任何布局,只要你敢想 - 而无需编程知识。这个有汉化包,0分下载。
爬取公众号页面内容
使用公众号文章编辑链接的方案, 突破搜狗方案10条的限制 新增公众号内, 百度网盘链接和密码的抓取. (指定method为baidu_pan_links) 新增全部html页面抓取方法 -method whole_page 添加todo.list 与 mask 变量
pythons爬虫_抓取微信公众号 历史文章
pythons爬虫:抓取微信公众号 历史文章
python简单爬虫抓取网页内容实例
一个简单的python示例,实现抓取 嗅事百科 首页内容 ,大家可以自行运行测试
修复svn乱码错误,无法清理的错误
SVN老是清理失败,显示清理乱码。这个是由于svn在上传文件的时候发生中断,导致sqlite出错,解决问题的方式是利用sqlite3对.svn目录下的wc.db文件进行清理。 清理方法是输入下面命令: sqlite3 wc.db select* from work_queue; delete from work_queue; 但是常规的清理方法效率极低,每次都打开终端输入命令很麻烦。我已经把上述的命令做成批处理命令,使用方法要把fixsvn.zip解压到项目的更目录,覆盖原来.svn目录(实际上只是添加三个文件),最后只需要双击fix_svn.bat就能对svn进行修复。
wordpress一款比收费还强大的模板
wordpress一款比付费主题更像是付费主题的WordPress免费主题,Git模板
wordpress模板萨隆网络mnews正式版注意未破解
wordpress模板萨隆网络mnews正式版注意未破解
python抓取1688以及淘宝、天猫详产品详情
本文件是python抓取1688及淘宝详情的基本数据,包含收藏数、成交、价格、评价等页面数据,参数为offer_id,全自动每隔一小时打印保存至本地mysql数据库。本人当前正在使用的源码,技术捉急,代码有些简陋。有问题请加扣扣群:586069157,一起探讨学习。----2018-08-15
wordpress的rss采集助手
可以根据rss来采集wordpress的内容并发布,简单易用
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 python学习内容 python的培训内容