weixin_46389074 2021-04-13 21:35 采纳率: 33.3%
浏览 692
已结题

pycharm爬取的内容显示空白

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent

def get_html(url):
    headers = {
        "User-Agent":UserAgent().chrome
    }
    request = Request(url,headers=headers)
    response = urlopen(request)
    print(response.read().decode())
    return  response.read()

def save_html(fliename , html_bytes):

    with open(fliename, "wb")as f:
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    num = input('请输入要下载多少页:')
    base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
    for pn in range(int(num)):
        args = {
            'pn':pn*50,
            'kw':content
        }
        fliename = '第' + str(pn + 1) + "页.html"
        args = urlencode(args)
        print('正在下载'+fliename)
        html_bytes = get_html(base_url.format(args))
        save_html(fliename,html_bytes)

if __name__ == '__main__':
    main()
  • 写回答

2条回答 默认 最新

  • 坚持不懈的大白 前端领域优质创作者 2021-04-14 08:19
    关注

    查看网页源代码可以发现这是动态加载的,通过这样根本爬取不到信息,可以考虑使用selenium模块试试

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月6日
  • 已采纳回答 9月28日

悬赏问题

  • ¥20 求文心中文心理分析系统(TextMind)
  • ¥15 chipyard环境搭建问题
  • ¥15 python,pyopenGL的OBV渲染无法设置透明
  • ¥20 matlab可以把多个二维图合成为三维瀑布图吗
  • ¥15 EEPROM,软件i2c
  • ¥500 求解读该段JS代码,需要知道是用干什么的
  • ¥20 qt4代码实现二进制文件读取显示,以及显示的内容进行搜索
  • ¥15 Labview获取LK-G3001数据
  • ¥15 我知道什么是混合树,但是怎么写代码啊
  • ¥50 开发板linux系统安装dpkg,apt函数库 有偿