html和代码如下，请各位大神给加一段代码，不知道如何获取//p标签下面的//b标签，这个标签主要就是内容的二级标题，现在就差获取到通知内容里面的二级标题了，比如一、.... 二、....//，

http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202003/t20200326_435127.html

获取能获取到所有b标签里面的内容，但是就是不知道怎么添加到程序里面。就差获取标题里面的二级标题了，主要就是//p标签下面的//b标签的内容，不知如何添加到程序，输出的时候能和原文一样，不错位。

import requests
from lxml import etree

url = 'http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)\
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0\
.2743.116 Safari/537.36',
'Accept-Language': 'zh-CN,zh;q=0.8'
}

response = requests.get(url, headers=headers).text
html = etree.HTML(response)
result1 = html.xpath('//ul[@id="list"]//li//a/@href')

for site in result1:
xurl = "http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/" + site
req = requests.get(xurl, headers=headers)

html2 = etree.HTML(req.content)
result2 = html2.xpath('//p/text()')#获取p标签内容
result3=html2.xpath('//h1/text() ')#通知标题
s=result3+result2
fname = r"C:\Users\Administrator\Desktop\1234.docx"
with open(fname, 'ab') as fp:
for i in s:
fp.write(i.encode('utf-8'))
fp.write(b'\r\n')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-04-15 21:47
关注
import re pattern = re.compile(r'(?<=\<b\>).*?(?=\<\/b\>)',re.M|re.I) result = pattern.findall('你的html') print(result)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求一段动态获取下拉列表的html和js代码，页面是guns框架生成的 bootstrap html5 前端
2018-08-26 01:48

回答 3 已采纳控制器代码 ``` /** * 罗列种类 */ @RequestMapping(value = "/list/type") @ResponseB
css 未载入，因为它的 MIME 类型 "text/html" 不是 "text/css" css css3 html5 vue.js
2020-07-06 20:52

回答 3 已采纳用了vue脚手架，你这个样式是在index.html里面引入的？全局样式直接在app.vue里面import进去
a标签中download属性因链接地址跨域含http://无效
2017-04-11 01:54

回答 2 已采纳我在谷歌 66.0.3359.181（正式版本）（64 位）下发现xxx.docxdownload属性失效, 已经无法下载了, 更不用说重命名
Qt/C++开发经验小技巧合集
2019-06-02 11:15

feiyangqingyun的博客 1：当编译发现大量错误的时候，从第一个看起，一个一个的解决，不要急着去看下一个错误，往往后面的错误都是由于前面的错误引起的，第一个解决后很可能都解决了。 2：定时器是个好东西，学会好使用它，有时候用...
React$Node什么意思，这段代码看不明白？求大神解释 html5 javascript react.js
2019-12-11 14:06

回答 1 已采纳这种语法 const App: () => React$Node = () => { } 就相当于 class App extends React.Component { r
按书上写了一段java捕获异常的代码，不知道问题出在哪里
2016-04-03 08:35

回答 2 已采纳没有错误啊，你不就是测试异常抛出嘛，流程是这样的；首先，rt()方法抛出了异常，然后你在wq()方法中捕获并上抛出，直至main方法中捕获的是Exception，但是wq抛出的Throwable异
求bat批处理向http://localhost每隔1分钟发送一个http请求的代码
2015-05-23 02:33

回答 4 已采纳 ``` @echo off set str="%time:~6,5%" :: 标签，用于goto跳转 :next1 :: 判断str是不是空，如果不是则执行下
http://www.cnblogs.com/dolphin0520/p/3923167.html
2018-05-15 17:17

zhangDXR的博客海子不经历风雨，怎能见彩虹？做一个快乐的程序员。博客园首页新随笔联系订阅管理随笔 - 184 文章 - 0 评论 - 1523Java并发编程：LockJava并发编程：Lock　在上一篇文章中我们讲到了如何使用关键字synchronized来...
js+jsp和js+html的效率问题，请大神们来解答 html5 java javascript
2016-12-22 06:47

回答 6 已采纳 js+html更快，jsp会首先转换成servler程序，然后向浏览器写数据，然后由浏览器解释执行。。至于哪种修改的快因人而异，习惯哪个就用哪个。个人感觉前后端数据交换多的话还是使用js+jsp比
求大神各位给一个华容道类的代码 c++ java
2016-03-21 02:41

回答 4 已采纳 ``` import java.awt.*; import java.awt.event.*; public class MoveExample { public static
一段输出两个list不同之处的代码，求大神解释链表
2015-10-28 06:37

回答 1 已采纳 head是头节点，找到第一个不同的节点时，head指向它，即这个节点就是新产生的链表（2个链表的不同节点组成）的头节点 tail，是用来在链表尾插入新节点的
初步认识Thymeleaf：简单表达式和标签。（一）
2019-02-13 16:59

土耳其的烧烤的博客最后本文如果有哪里写错的，希望各位大神们能够批评指正，谢谢大家！　对于Thymeleaf，网上特别官方的解释无非就是：网站或者独立应用程序的新式的服务端java模板引擎，可以执行HTML，XML，JavaScript，CSS甚至纯...
js验证注册表单信息，怎么写，求大神给段代码。
2015-04-28 07:46

回答 2 已采纳 ``` function checkReallName(patientName) { var patientName = $("#patientName").
身为三本的我就是凭借这些前端面试题拿到百度京东offer的，前端面试题2023及答案
2021-01-18 18:17

晟小明的博客顺便，如果有错误的地方请各位一定要指出，免得误导更多人。接下来的题我会根据重点程度使用⭐来标记，⭐越多标明越重点，满星是5颗星 ok，你准备好了吗？咱们开始吧！ JS 数据类型面试官：JavaSc
初步认识thymeleaf:简单表达式和标签（一）
2018-04-11 14:49

weixin_30834783的博客初步认识Thymeleaf：简单表达式和标签。（一）　本文只适用于不会Java对HTML语言有基础的程序员们，是浏览了各大博客后收集整理，重新编辑的一篇文章，希望能对大家有所帮助。最后本文如果有哪里写错的，...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

html和代码如下，请各位大神给加一段代码，不知道如何获取//p标签下面的//b标签，这个标签主要就是内容的二级标题，现在就差获取到通知内容里面的二级标题了，比如一、.... 二、....//，

1条回答 默认 最新

悬赏问题

1条回答默认最新