qq_43831985 2020-10-12 09:31 采纳率: 0%
浏览 115
已采纳

怎么提取下面这段代码中book_author里面的作者名称

import requests
from lxml import etree
import re

def parser():
    url = 'http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book'
    headers = {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT)'}
    html = requests.get(url=url,headers=headers).text
    tree = etree.HTML(html)
    book_list = tree.xpath('//div[@class="mod-list book-list"]/dl')
    print(book_list)
    with open('2.txt','w+',encoding='utf-8') as f:
        for dl in book_list:
            book_name = dl.xpath('./dd/a/text()')[0]
            book_author = dl.xpath('./dd/div/text()')[0]
            print(book_name,book_author)
            f.write(book_name+book_author)
            # f.write(+"\n")

if __name__ == '__main__':
    parser()
  • 写回答

2条回答 默认 最新

  • PythonJavaC++go 2020-10-12 11:08
    关注
        代码那边不是有了吗?
    
            book_author = dl.xpath('./dd/div/text()')[0]
            author = book_author.split("/")[0].strip()
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 爬虫爬取网站的一些信息
  • ¥15 关于vue2中methods使用call修改this指向的问题
  • ¥15 idea自动补全键位冲突
  • ¥15 请教一下写代码,代码好难
  • ¥15 iis10中如何阻止别人网站重定向到我的网站
  • ¥15 滑块验证码移动速度不一致问题
  • ¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含
  • ¥15 麒麟V10桌面版SP1如何配置bonding
  • ¥15 Marscode IDE 如何预览新建的 HTML 文件
  • ¥15 K8S部署二进制集群过程中calico一直报错