天赋宝宝 2022-01-08 13:38 采纳率: 100%
浏览 87
已结题

1月10日更,刚接触爬虫,遇到了一些困难

img


个人不是计算机专业,因为兴趣学了一段时间的网络爬虫,所以写的代码可能比较粗糙,还请老师们多多指教。
这次想拿马云的微博进行爬虫试试手,可是发现微博的下滑是懒加载的,而且下滑一段距离他的刷新也是随机的

img


因为昨天在爬虫时候,每次爬回来的数据只有一小部分而已,而且只是当前视图的内容。就推测他随着下滑刷新,新内容会代替掉就内容,旧内容就没办法没爬到。
现在请教一下各位老师们,代码应该怎么改才好
————————————————————————————
2022年1月10日
现在代码改用通过接口模拟请求的方式

img


可是不知道要怎么解析,接口我打开过是这样

img


用了json解析不了,不知道哪里错了,beautifulsoup解析出来是乱码

img

  • 写回答

3条回答 默认 最新

  • 爱音斯坦牛 全栈领域优质创作者 2022-01-08 13:52
    关注

    selenium是可以通过运行js语句下滑页面的,
    例如

    from selenium import webdriver
     
    driver=webdriver.Chrome()
     
    driver.get('https://blog.csdn.net/maybe_frank/article/details/79374866')
     
    i=100
     
    for i in range(2,90):   #也可以设置一个较大的数,一下到底
        js = "var q=document.documentElement.scrollTop={}".format(i*100)  #javascript语句
        driver.execute_script(js)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 1月23日
  • 已采纳回答 1月15日
  • 修改了问题 1月10日
  • 修改了问题 1月10日
  • 展开全部

悬赏问题

  • ¥100 角动量包络面如何用MATLAB绘制
  • ¥15 merge函数占用内存过大
  • ¥15 Revit2020下载问题
  • ¥15 使用EMD去噪处理RML2016数据集时候的原理
  • ¥15 神经网络预测均方误差很小 但是图像上看着差别太大
  • ¥15 单片机无法进入HAL_TIM_PWM_PulseFinishedCallback回调函数
  • ¥15 Oracle中如何从clob类型截取特定字符串后面的字符
  • ¥15 想通过pywinauto自动电机应用程序按钮,但是找不到应用程序按钮信息
  • ¥15 如何在炒股软件中,爬到我想看的日k线
  • ¥15 seatunnel 怎么配置Elasticsearch