weixin_46389074 2021-04-13 21:35 采纳率: 33.3%
浏览 714
已结题

pycharm爬取的内容显示空白

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent

def get_html(url):
    headers = {
        "User-Agent":UserAgent().chrome
    }
    request = Request(url,headers=headers)
    response = urlopen(request)
    print(response.read().decode())
    return  response.read()

def save_html(fliename , html_bytes):

    with open(fliename, "wb")as f:
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    num = input('请输入要下载多少页:')
    base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
    for pn in range(int(num)):
        args = {
            'pn':pn*50,
            'kw':content
        }
        fliename = '第' + str(pn + 1) + "页.html"
        args = urlencode(args)
        print('正在下载'+fliename)
        html_bytes = get_html(base_url.format(args))
        save_html(fliename,html_bytes)

if __name__ == '__main__':
    main()
  • 写回答

2条回答 默认 最新

  • 坚持不懈的大白 前端领域优质创作者 2021-04-14 08:19
    关注

    查看网页源代码可以发现这是动态加载的,通过这样根本爬取不到信息,可以考虑使用selenium模块试试

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月6日
  • 已采纳回答 9月28日

悬赏问题

  • ¥15 Attributeerror:super object has no attribute '__sklearn_tags__'_'
  • ¥15 逆置单链表输出不完整
  • ¥15 宇视vms-B200-A16@R启动不了,如下图所示,在软件工具搜不到,如何解决?(操作系统-linux)
  • ¥500 寻找一名电子工程师完成pcb主板设计(拒绝AI生成式答案)
  • ¥15 关于#mysql#的问题:UNION ALL(相关搜索:sql语句)
  • ¥15 matlab二位可视化能否针对不同数值范围分开分级?
  • ¥15 已经创建了模拟器但是不能用来运行app 怎么办😭自己搞两天了
  • ¥15 关于#极限编程#的问题,请各位专家解答!
  • ¥20 win11账户锁定时间设为0无法登录
  • ¥45 C#学生成绩管理系统