weixin_34957230
火拉马车
采纳率0%
2018-10-09 12:31 阅读 908

爬虫爬取信息不会选定元素

5

https://book.douban.com/subject/25862578/
想爬去这个网址的(解忧杂货店)的ISBN号,(在作者,出版社等信息的最下面)。
F12看代码:

ISBN: " 9787544270878"

那么应该如何获得"9787544270878"这个号呢?他没在标签里,实在是不知道怎么写。
isbn = tree.xpath('//span[@class="pl"]//span/text()') #这是我的尝试,是错的。

真心求教,懂了这个问题,以后很多就能融会贯通了。谢谢

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

2条回答 默认 最新

  • caozhy 从今以后生命中的每一秒都属于我爱的人 2018-10-09 12:36

    正则表达式提取下

     (?<=ISBN\:\"\s)\d+(?=\")
    
    点赞 1 评论 复制链接分享
  • qq_23133409 小乙shine 2018-10-09 13:44

    我试着成功了,用的BeautifulSoup,我这还有完整代码,要是要就说一声:
    isbn=tree.select("#info")[0].find_all(name="span",text="ISBN:")[0].next_sibling.strip(" ")
    print(isbn) #9787544270878

    点赞 1 评论 复制链接分享

相关推荐