weixin_46389074 2021-04-13 21:35 采纳率: 33.3%
浏览 629
已结题

pycharm爬取的内容显示空白

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent

def get_html(url):
    headers = {
        "User-Agent":UserAgent().chrome
    }
    request = Request(url,headers=headers)
    response = urlopen(request)
    print(response.read().decode())
    return  response.read()

def save_html(fliename , html_bytes):

    with open(fliename, "wb")as f:
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    num = input('请输入要下载多少页:')
    base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
    for pn in range(int(num)):
        args = {
            'pn':pn*50,
            'kw':content
        }
        fliename = '第' + str(pn + 1) + "页.html"
        args = urlencode(args)
        print('正在下载'+fliename)
        html_bytes = get_html(base_url.format(args))
        save_html(fliename,html_bytes)

if __name__ == '__main__':
    main()
  • 写回答

2条回答 默认 最新

  • 坚持不懈的大白 前端领域优质创作者 2021-04-14 08:19
    关注

    查看网页源代码可以发现这是动态加载的,通过这样根本爬取不到信息,可以考虑使用selenium模块试试

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
  • 梦想橡皮擦 Python领域优质创作者 2021-04-14 06:28
    关注

    网页上右键查看源码,就可以看到爬取到的数据内容了

    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月6日
  • 已采纳回答 9月28日

悬赏问题

  • ¥15 Tpad api账户 api口令
  • ¥30 ppt进度条制作,vba语言
  • ¥15 stc12c5a60s2单片机测光敏ADC
  • ¥15 生信simpleaffy包下载
  • ¥15 请教一下simulink中S函数相关问题
  • ¥15 在二层网络中,掩码存在包含关系即可通信
  • ¥15 端口转发器解析失败不知道电脑设置了啥
  • ¥15 Latex算法流程图行号自定义
  • ¥15 关于#python#的问题:我在自己的电脑上运行起来总是报错,希望能给我一个详细的教程,(开发工具-github)
  • ¥40 基于51单片机实现球赛计分器功能