weixin_46389074 2021-04-13 21:35 采纳率: 33.3%
浏览 664
已结题

pycharm爬取的内容显示空白

from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent

def get_html(url):
    headers = {
        "User-Agent":UserAgent().chrome
    }
    request = Request(url,headers=headers)
    response = urlopen(request)
    print(response.read().decode())
    return  response.read()

def save_html(fliename , html_bytes):

    with open(fliename, "wb")as f:
        f.write(html_bytes)


def main():
    content = input('请输入要下载的内容:')
    num = input('请输入要下载多少页:')
    base_url = "https://tieba.baidu.com/f?ie=utf-8&{}"
    for pn in range(int(num)):
        args = {
            'pn':pn*50,
            'kw':content
        }
        fliename = '第' + str(pn + 1) + "页.html"
        args = urlencode(args)
        print('正在下载'+fliename)
        html_bytes = get_html(base_url.format(args))
        save_html(fliename,html_bytes)

if __name__ == '__main__':
    main()
  • 写回答

2条回答 默认 最新

  • 坚持不懈的大白 前端领域优质创作者 2021-04-14 08:19
    关注

    查看网页源代码可以发现这是动态加载的,通过这样根本爬取不到信息,可以考虑使用selenium模块试试

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 10月6日
  • 已采纳回答 9月28日

悬赏问题

  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
  • ¥15 错误 LNK2001 无法解析的外部符号
  • ¥50 安装pyaudiokits失败
  • ¥15 计组这些题应该咋做呀
  • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
  • ¥15 让node服务器有自动加载文件的功能
  • ¥15 jmeter脚本回放有的是对的有的是错的
  • ¥15 r语言蛋白组学相关问题
  • ¥15 Python时间序列如何拟合疏系数模型