怎么避免爬取重复数据呀，报错table jobdata already exists

def jiexi(url, head, parse_list):
    # 循环遍历，二次提取
    proxies_list = []
    for tr in parse_list:
        http_type = tr.xpath('./td[2]/text()').extract_first().replace("代理", "")  # extract_first,返回第一个元素,不加first则返回所有元素
        http_type = http_type.replace("HTTP,", "")
        ip_num = tr.xpath('./td[1]/text()').extract_first()
        # port_num = tr.xpath('./td[2]/text()').extract_first()
        # print(http_type, ip_num, port_num)
        # 构建代理ip字典
        # proxies_dict[http_type] = ip_num
        '''+ ':' + port_num'''
        proxies_dict = {"%s" % http_type: 'HTTPS://%s' % ip_num}
        # print(len(proxies_dict))
        proxies_list.append(proxies_dict)
        # print(type(proxies_list))
        # print(len(proxies_list))
        print(proxies_list)
        # geturl(url, head, proxies_list, proxies_dict)


    return proxies_list


``````python

def geturl(url, head, proxies_list, proxies_dict):
    html = ""
    for proxy in proxies_dict:
        response = requests.get(url, headers=head, proxies=random.choice(proxies_list), timeout=3)  # 超时报错
        if response.status_code != 200:
            proxies_dict.remove(proxy)
            continue
        else:
            try:
                html = response.text
                # print(html)
                # print(len(proxies_dict))
                gethtml(html)  # 提取网页数据

            # print(url)
            # print(html)
            except Exception as error:
                print(f"错误异常信息为：{error}")
    return html

一个IP爬完一页，下一个IP又重新爬一遍，这种情况应该在哪里写判断。截止19.42发现IP地址在重复写入列表，语法是不是有误，怎么才能一次写入到列表呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Mint.Coder 2021-09-22 03:43
关注
不清楚你在表达啥，既然重复写入，那肯定是写错了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

图片爬取失败又不报错 python 有问必答爬虫
2022-06-27 10:45

回答 3 已采纳样式区分大小的，注意大小写img=div.select(' .HotList-itemimgContainer img')[0]['src']==>img=div.select(' .HotLi
MySQL里添加外键出现1050 -Table xxx' already exists mysql 有问必答
2021-06-15 23:59

回答 2 已采纳你检查一下这个外键是不是已经存在，或者外键名已经存在了。
python爬取软科排名,匹配不到数据 python 数据挖掘爬虫
2022-03-24 21:35

回答 1 已采纳我这里是可以正常运行的
sqlite3.OperationalError: table* already exists报错
2020-08-07 08:31

AlexanderWebber的博客 sqlite3.OperationalError: table test already exists报错，python报错原因解决方法报错原因 import sqlite3 con = sqlite3.connect(‘mydata.sqlite’) query = “”“CREATE TABLE test (a VARCHAR(20), b ...
resultMap with such name already exists intellij-idea java
2022-07-06 17:20

回答 4 已采纳具有该名称的 resultMap 已存在重名了，换个名resultMap id="BaseResultMap"把这个id中的值换了就行
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
pyinstaller打包之后无法写入数据到db，报错no such table: helpers python
2021-06-09 22:07

回答 1 已采纳解决了，用sql查询的时候连接数据库用的不是绝对路径
python通过pandas写入sqlite3报table xxx already exists
2021-02-10 16:34

XiaoYNil的博客通过dataframe.tp_sql函数将df写入数据库时，明明if_exists参数设置成了append，还是会报table xxx already exists df.to_sql(tablename, con=conn,if_exists='append',index=False) 网上找了几个方法，发现其实...
python 怎样对csv数据转置后添加列 python 数据分析有问必答
2022-03-25 16:20

回答 2 已采纳去除上面一行用：data=data.droplevel(0,axis=1)添加一列用data.insert(0,'com_code',[com_code]*len(data))
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
出现了 error: remote origin already exists.？ vue.js 有问必答
2021-07-21 18:28

回答 1 已采纳 git remote add origin的作用是在远程仓库创建origin仓库。提示已经存在的话，就说明你远程仓库已经有了，不需要再创建。
Django中提示table already exists
2021-05-12 11:41

chaizhiyuan_TC的博客 django.db.utils.OperationalError: table “firstapp_comment” already exists错误弄了半天还是没找到答案直到看了一篇文章 python manage.py migrate firstapp --fake #first为你所创建的项目
python报错，一直改不出来 python
2023-04-22 11:47

回答 3 已采纳你确认文件编码是utf-8-sig吗？ UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd4 in position 1: invalid
django解决Table ‘xx‘ already exists的方法
2024-02-05 11:53

南国那片枫叶的博客 4，执行python manage.py migrate --fake，参数 --fake是关键，这样就不会提示表已经建好了，执行成功之后再对需要新加的字段或者表按照正常流程操作即可。3，回到manage.py所在目录执行python manage.py ...
django报1050, "Table 'table' already exists"
2019-01-18 16:03

巴啦啦小魔仙变身的博客 Table ‘table’ already exists&amp;amp;amp;quot; 首先记录我的学习过程： 1、python manage.py makemigrations # 基于当前的model创建新的迁移策略文件 2、python manage.py migrate #用于执行迁移动作...
Python错误集锦：sqlite3建表时提示：sqlite3.OperationalError: table table_juzicode already exists
2021-04-03 00:54

桔子code的博客 sqlite3建表时提示：sqlite3.OperationalError: table table_juzicode already exists #juzicode.com/vx:桔子code import sqlite3 db_name = 'test.db' table_name = 'table_juzicode' conn = sqlite3.connect(db_...
已解决SQL错误(1050) : Table ‘test1‘ already exists
2022-10-30 19:19

袁袁袁袁满的博客已解决（SQL创建表报错）SQL错误(1050) : Table ‘test1‘ already exists
python异常(django): migrate No migrations to apply. (1050, "Table '***' already exists")
2019-12-16 20:41

Neil_001的博客描述: 1. 同样的表在另一个代码库中使用,需要新建表, ...2. 数据库中已有表,执行migrate时，提示 Table already exists 解决: 1.进数据库 django_migrations删除对应记录 2.进项目代码库的migrations...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月21日

悬赏问题

¥15 Vue3 大型图片数据拖动排序
¥15 划分vlan后不通了
¥15 GDI处理通道视频时总是带有白色锯齿
¥20 用雷电模拟器安装百达屋apk一直闪退
¥15 算能科技20240506咨询（拒绝大模型回答）
¥15 自适应 AR 模型参数估计Matlab程序
¥100 角动量包络面如何用MATLAB绘制
¥15 merge函数占用内存过大
¥15 使用EMD去噪处理RML2016数据集时候的原理
¥15 神经网络预测均方误差很小但是图像上看着差别太大

怎么避免爬取重复数据呀，报错table jobdata already exists

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新