爬虫代码报错不知如何处理


!pip install selenium
import csv
import codecs
from selenium import webdriver
import time
import pandas as pd
import copy
browser = webdriver.Chrome(executable_path = './chromedriver')
page_url = "https://so.eastmoney.com/web/s?keyword="
browser.get(page_url)
time.sleep(3)

search = browser.find_element_by_xpath('//input[@id="search_key"]')  
search.send_keys("字节跳动")
browser.find_element_by_xpath('//input[@type="submit"]').click()  
time.sleep(3)

news_urls = []
news_list1 = browser.find_elements_by_xpath('//div[@class="news_item_url"]')

for nl in news_list1:##coding: utf-8   
    url = nl.find_element_by_xpath('.//a').get_attribute('href')
    time.sleep(3)
    news_urls.append(url)    

for idx in range(2,25):
    browser.find_element_by_xpath('//a[@title="下一页"]').click()
    time.sleep(4)
    print("第", idx, "页：")
    news_list1 = browser.find_elements_by_xpath('//div[@class="news_item_t"]')
    for nl in news_list1:##coding: utf-8
        url = nl.find_element_by_xpath('.//a').get_attribute('href')
        news_urls.append(url)              

        
alist=['新闻url','新闻标题','发布时间','发布来源','访问人数','评论人数','新闻内容']        
blist=[]
clist=[]

for url in news_urls:
    browser.get(url)
    time.sleep(3)
    print(url)
    blist.append(url)
    
    title = browser.find_element_by_xpath('//*[@id="topbox"]/div[1]')      #####改动
    blist.append(title.text)
    
    release = browser.find_element_by_xpath('//*[@id="topbox"]/div[3]/div[1]/div[1]')      #####改动
    blist.append(release.text) 
    
    try:
        source1 = browser.find_element_by_xpath('//*[@id="topbox"]/div[3]/div[1]/div[3]')      #####改动
        blist.append(source1.text)
    except:
        source2 = browser.find_element_by_xpath('//*[@id="topbox"]/div[3]/div[1]/div[2]')      #####改动
        blist.append(source2.text)
        
    try:
        visit_num = browser.find_element_by_xpath('//*[@id="gopinluntxt1"]/div[2]/span')      #####改动
        comment_num=browser.find_element_by_xpath('//*[@id="gopinluntxt1"]/div[1]/span')  
        blist.append(visit_num.text)
        blist.append(comment_num.text)
    except:
        visit_num = browser.find_element_by_xpath('//*[@id="gopinluntxt1"]/div/span')      #####改动
        comment_num='未显示' 
        blist.append(visit_num.text)
        blist.append(comment_num)
        
    content = browser.find_element_by_xpath('//*[@id="ContentBody"]')      #####改动
    blist.append(content.text)
    clist.append(blist)
    blist=[]
        
        
with open('字节跳动修改版.csv','w',newline='')as f:
    csv_write=csv.writer(f,dialect='excel')
    csv_write.writerow(alist)
    for item in clist:
        csv_write.writerow(item)
        
browser.close()       

初写爬虫    总是这个地方报错 （有的时候会报错xpath好像定位不太行）   能否纠正完善一下

在原来的代码的基础上，在for url in news_urls:后面，加了一个try except语句，发现代码可以跑完，但在表格里发现有一行多了一个url 能请解释一下吗

for url in news_urls:
    try:
        print(url)
        browser.get(url)
        time.sleep(3)
        blist.append(url)
    
        title = browser.find_element_by_xpath('//*[@id="topbox"]/div[1]')      #####改动
        blist.append(title.text)
    
        release = browser.find_element_by_xpath('//*[@id="topbox"]/div[3]/div[1]/div[1]')      #####改动
        blist.append(release.text) 
    
        try:
            source1 = browser.find_element_by_xpath('//*[@id="topbox"]/div[3]/div[1]/div[3]')      #####改动
            blist.append(source1.text)
        except:
            source2 = browser.find_element_by_xpath('//*[@id="topbox"]/div[3]/div[1]/div[2]')      #####改动
            blist.append(source2.text)
        
        try:
            visit_num = browser.find_element_by_xpath('//*[@id="gopinluntxt1"]/div[2]/span')      #####改动
            comment_num=browser.find_element_by_xpath('//*[@id="gopinluntxt1"]/div[1]/span')  
            blist.append(visit_num.text)
            blist.append(comment_num.text)
        except:
            visit_num = browser.find_element_by_xpath('//*[@id="gopinluntxt1"]/div/span')      #####改动
            comment_num='未显示' 
            blist.append(visit_num.text)
            blist.append(comment_num)
        
        content = browser.find_element_by_xpath('//*[@id="ContentBody"]')      #####改动
        blist.append(content.text)
        clist.append(blist)
        blist=[]
    except:
        continue
        

####这样加了try except 会不会有点不严谨   有的都没有跑到

加了一个整体的try except 发现表格里有一行多了一个url 为啥呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
robot8me 2021-07-16 16:58
关注
答案已删除，答案都给你写出来了，我都跑通了。。。你都不看

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

Python爬虫代码报错就解答 https python 有问必答
2021-10-23 21:21

回答 1 已采纳 user-agent，不是user_agent，中干线，不是下划线，user-agent打错被反扒检查出来没有正确返回json内容吧
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
爬虫代码报错，到底是哪里出现问题！ python
2022-09-22 11:21

回答 3 已采纳在第一行加入：import time
Python新手写出漂亮的爬虫代码1——从html获取信息
2017-10-03 22:15

夏洛克江户川的博客 Python新手写出漂亮的爬虫代码1初到大数据学习圈子的同学可能对爬虫都有所耳闻，会觉得是一个高大上的东西，仿佛九阳神功和乾坤大挪移一样，和别人说“老子会爬虫”，就感觉特别有逼格，但是又不知从何入手，这里，...
基础爬虫不报错也不下数据 python
2022-07-15 23:48

回答 4 已采纳帮你改好了 ```python import urllib.parse import urllib.request def requert_get(page): first_url
python爬虫代码报错，count=0提示语法错误。 python
2021-04-09 15:19

回答 1 已采纳 count = 0的上面一行，少了一个右括号，如下： print(tplt.format({"序号", "价格", "商品名称"}) 还有：这一行的单引号也有问题： start_url =’
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
最全python爬虫库安装详解
2021-12-29 17:24

洋洋菜鸟的博客返回，不知为啥这次pycharm里运行会报错，于是我用了Anaconda运行运行之后，若弹出一个空内的 firefox 浏览器，则证明所有的配置都没有问题；如果没有弹出，请检查之前的每一步配置 5.PhantomJS 的安装 PhantomJS...
pyThon爬虫多进程报错 python
2022-10-05 08:14

回答 3 已采纳带插件的浏览器，一个配置文件只能打开一个浏览器。想要多进程，需要有多个浏览器配置文件。利用生成器输出配置文件路径，避免多进程用到同一个路径。进程不能太多，不然程序会在某一个进程中卡死不动……没有具体的
python爬虫遇到报错 python
2022-09-11 23:38

回答 3 已采纳看样子应该是线程池错误但是你的话，把具体错误截图下，才能看出来你的代码哪里错了
python爬虫Selenium报错 python web安全
2022-09-03 18:37

回答 2 已采纳 find_enment写错了，是find_element
Python 爬虫中文乱码一文通
2022-07-27 01:14

H-大叔的博客还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。
selenium用法详解【从入门到实战】【Python爬虫】【4万字】
2021-10-09 14:17

Dream丶Killer的博客后退浏览器刷新浏览器窗口切换常见操作鼠标控制单击左键单击右键双击拖动鼠标悬停键盘控制设置元素等待显式等待隐式等待强制等待定位一组元素切换操作窗口切换表单切换弹窗处理上传 & 下载文件上传文件下载文件...
python爬虫进阶教程之如何正确的使用cookie
2023-11-28 21:33

只存在于虚拟的King的博客很多时候，我们要查看的内容必须要先登录才能找到，比如知乎的回答，QQ空间的好友列表、微博上关注的人和粉丝等。要使用爬虫直接登录抓取这些信息时，有一...这次我们尝试使用python和cookie来抓取QQ空间上的好友列表。
python简单好看的代码_Python新手写出漂亮的爬虫代码1
2020-12-30 15:51

吕清海的博客初到大数据学习圈子的同学可能对爬虫都有所耳闻，会觉得是一个高大上的东西，仿佛九阳神功和乾坤大挪移一样，和别人说“老子会爬虫”，就感觉特别有逼格，但是又不知从何入手，这里，博主给大家纠正一个误区：爬虫并...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 2月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月16日
展开全部

悬赏问题

¥15 PointNet++的onnx模型只能使用一次
¥20 西南科技大学数字信号处理
¥15 有两个非常“自以为是”烦人的问题急期待大家解决！
¥30 STM32 INMP441无法读取数据
¥15 R语言绘制密度图，一个密度曲线内fill不同颜色如何实现
¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
¥15 用visualstudio2022创建vue项目后无法启动
¥15 x趋于0时tanx-sinx极限可以拆开算吗
¥500 把面具戴到人脸上，请大家贡献智慧，别用大模型回答，大模型的答案没啥用
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。

爬虫代码报错 不知如何处理

5条回答 默认 最新

问题事件

悬赏问题

爬虫代码报错不知如何处理

5条回答默认最新