把喜欢给你. 2022-01-23 13:09 采纳率: 0%
浏览 25

爬虫用cookie只能爬一半怎么办?

问题遇到的现象和发生背景
def main(ID, pages):
global movie_name
for i in tqdm(range(0, pages)):  # 豆瓣只开放500条评论
    get_content(ID, i)  # 第一个参数是豆瓣电影对应的id序号,第二个参数是想爬取的评论页数
    time.sleep(round(random.uniform(3, 5), 2))
infos = {'name': name_list, 'city': city_list, 'content': content_list, 'score': score_list, 'date': date_list}
data = pd.DataFrame(infos, columns=['name', 'city', 'content', 'score', 'date'])
data.to_csv(movie_name + ".csv")  # 存储名为  电影名.csv

if name == 'main':
main(26266893, 25) # 评论电影的ID号+要爬取的评论页面数

img

我的解答思路和尝试过的方法
  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2022-01-23 14:06
    关注

    从报错信息看应该是在获取movie_name时,用正则匹配时获取值 为None,导致索引越界,可以用try/except或用if 不为空,取值索引[0]否则为“”,这样筛选一下。

    评论 编辑记录

报告相同问题?

问题事件

  • 创建了问题 1月23日

悬赏问题

  • ¥15 stata安慰剂检验作图但是真实值不出现在图上
  • ¥15 c程序不知道为什么得不到结果
  • ¥40 复杂的限制性的商函数处理
  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题