天赋宝宝 2022-01-08 13:38 采纳率: 100%
浏览 87
已结题

1月10日更,刚接触爬虫,遇到了一些困难

img


个人不是计算机专业,因为兴趣学了一段时间的网络爬虫,所以写的代码可能比较粗糙,还请老师们多多指教。
这次想拿马云的微博进行爬虫试试手,可是发现微博的下滑是懒加载的,而且下滑一段距离他的刷新也是随机的

img


因为昨天在爬虫时候,每次爬回来的数据只有一小部分而已,而且只是当前视图的内容。就推测他随着下滑刷新,新内容会代替掉就内容,旧内容就没办法没爬到。
现在请教一下各位老师们,代码应该怎么改才好
————————————————————————————
2022年1月10日
现在代码改用通过接口模拟请求的方式

img


可是不知道要怎么解析,接口我打开过是这样

img


用了json解析不了,不知道哪里错了,beautifulsoup解析出来是乱码

img

  • 写回答

3条回答 默认 最新

  • 爱音斯坦牛 全栈领域优质创作者 2022-01-08 13:52
    关注

    selenium是可以通过运行js语句下滑页面的,
    例如

    from selenium import webdriver
     
    driver=webdriver.Chrome()
     
    driver.get('https://blog.csdn.net/maybe_frank/article/details/79374866')
     
    i=100
     
    for i in range(2,90):   #也可以设置一个较大的数,一下到底
        js = "var q=document.documentElement.scrollTop={}".format(i*100)  #javascript语句
        driver.execute_script(js)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 1月23日
  • 已采纳回答 1月15日
  • 修改了问题 1月10日
  • 修改了问题 1月10日
  • 展开全部

悬赏问题

  • ¥15 Fiddler无法对部分小程序抓包
  • ¥60 Python代码 ip首部检验和计算代码 版本协议 首部长度 源地址 目的地址 存活时间
  • ¥18 微机原理汇编的综合实验
  • ¥15 LD衰减图用R语言对其可视化
  • ¥15 Mermaid语法生成的svg在Axure无法编辑
  • ¥15 Windchill二次开发
  • ¥15 怎么把tkinter和其他代码结合起来使功能可以完善
  • ¥15 爬取豆瓣电影相关处理
  • ¥15 手机淘宝抓清除消息接口
  • ¥15 C#无selenium