import requests
from lxml import etree
import re
def parser():
url = 'http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book'
headers = {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT)'}
html = requests.get(url=url,headers=headers).text
tree = etree.HTML(html)
book_list = tree.xpath('//div[@class="mod-list book-list"]/dl')
print(book_list)
with open('2.txt','w+',encoding='utf-8') as f:
for dl in book_list:
book_name = dl.xpath('./dd/a/text()')[0]
book_author = dl.xpath('./dd/div/text()')[0]
print(book_name,book_author)
f.write(book_name+book_author)
# f.write(+"\n")
if __name__ == '__main__':
parser()
怎么提取下面这段代码中book_author里面的作者名称
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- PythonJavaC++go 2020-10-12 11:08关注
代码那边不是有了吗?
book_author = dl.xpath('./dd/div/text()')[0] author = book_author.split("/")[0].strip()
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 爬虫爬取网站的一些信息
- ¥15 关于vue2中methods使用call修改this指向的问题
- ¥15 idea自动补全键位冲突
- ¥15 请教一下写代码,代码好难
- ¥15 iis10中如何阻止别人网站重定向到我的网站
- ¥15 滑块验证码移动速度不一致问题
- ¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含
- ¥15 麒麟V10桌面版SP1如何配置bonding
- ¥15 Marscode IDE 如何预览新建的 HTML 文件
- ¥15 K8S部署二进制集群过程中calico一直报错