lilys_440 2021-04-28 20:30 采纳率: 100%
浏览 512
已采纳

requests抓取html, 为什么div中的内容没有被抓取

老哥们,新人入坑,在用requests抓取页面中的图片,主要是想批量下载练练手,下面这张是页面源码:

但是我爬取完之后显示id为“cp_img”的div标签内的内容为:

以下是我的测试代码,主要是想抓到那个id为cp_img的div里面的内容:

import requests as rq
from bs4 import BeautifulSoup as bf

if __name__ == "__main__":
    url = 'http://www.1kkk.com/ch66-570484-p2/'
    myheaders = {
        'User-Agent':'Mozilla/5.0',
        'Referer':'http://www.1kkk.com/ch66-570484-p2/'
    }
    res = rq.get(url=url,headers=myheaders)
    res.encoding = 'utf-8'
    con = res.text
    bf1 = bf(con,'lxml')
    with open('file.html','w') as fp:
        fp.write(bf1.prettify())
        fp.close
    imgs = bf1.find_all('div',id='cp_img')
    print(imgs)

也查了很多,有说div折叠的,有说动态加载的,但是当时我用chrome抓到的包里也没有目的图片啊

求解

  • 写回答

4条回答 默认 最新

  • CSDN专家-黄老师 2021-04-28 20:34
    关注

    imgs = bf1.find_all('div',id='cp_img').get_text(),还要调用get_text()这个方法获取,find_all只是找到这个标签对象。

    如果觉得有帮忙,望采纳

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?