weixin_49756500 2021-04-25 14:53 采纳率: 50%

爬CNVD遇到以下报错，请问需要怎么解决？

import datetime
import re
import requests
import time
import random
import csv
from selenium import webdriver
from pyvirtualdisplay import Display

#要爬的链接
url = 'http://www.cnvd.org.cn/flaw/list.htm'

#模拟浏览器运行，取出cookies
display = Display(visible=0, size=(800, 600))
display.start()
chrome = webdriver.Chrome()
chrome.get(url)
time.sleep(5)
__jsluid = '__jsluid=' + chrome.get_cookie('__jsluid')['value'] + ';'
#__jsl_clearance = '__jsl_clearance=' + chrome.get_cookie('__jsl_clearance')['value'] + ';'
chrome.quit()
display.stop()
#请求头，注意要和上面模拟浏览器的头差不多，尤其是User-Agent

headers = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'en-US,en;q=0.9',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'Host': 'www.cnvd.org.cn',
'Referer': 'http://www.cnvd.org.cn/',
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
'Cookie': __jsluid + 'max-age=31536000; path=/; HttpOnly'
}

host = 'http://www.cnvd.org.cn'
title = []

def getURL():#获得当前页面所有的漏洞详情页面

    r = requests.session()#设置会话
    content = r.get(url,headers=headers).text#得到网页内容
    #print(content)

    #开始使用正则匹配
    #1、获得链接
    ree = '/flaw/show/CNVD-\d\d\d\d-\d\d\d\d\d'#正则表达式
    pattern = re.compile(ree)#编译正则表达式，为了匹配能快一些，也可以不用
    path = re.findall(pattern,str(content))#匹配所有符合的字符串

    #2、获得标题
    ree = 'title=".+">'
    pattern2 = re.compile(ree)
    t = re.findall(pattern2, str(content))[1:]#去掉第一个

return path,t

def accessURL(URL):#访问获得的漏洞详情页面,并取出需要的信息

r = requests.session() # 设置会话
content = r.get(host + URL, headers=headers).text # 得到网页内容

    #3、获得日期
    ree = r'\d\d\d\d-\d\d-\d\d' # 正则表达式
    pattern = re.compile(ree) # 编译正则表达式，为了匹配能快一些，也可以不用,直接匹配
    time = re.findall(pattern, str(content)) # 匹配所有符合的字符串,由于网页里多次出现时间，所以只要其中一个
    if (len(time) == 0):
        return
    else:
        time = re.findall(pattern, str(content))[0]

CNVDid = URL[11:]

    # 开始使用正则匹配
    #4、获得漏洞等级
    ree = '\s[高中低]\s'
    pattern = re.compile(ree)
    bb = re.findall(pattern, content)
    level = str(bb[0]).strip()

    #5、获得详细信息
    s = '漏洞描述</td>.+[.\n\t]+.+[.\n\t]+[\n\t]+.+[.\n\t]+.+[.\n\t]+.+[.\n\t]+.+[.\n\t]+.+[.\n\t]+.+[.\n\t]+.+'
    pattern = re.compile(s)
    res = re.findall(pattern, str(content))
    result = res[0]
    result = ''.join(result.split()) # 去掉不可见字符
    result = result.replace('<br/>', '')
    result = result.replace('漏洞描述', '')
    result = result.replace('</td>', '')
    result = result.replace('<td>', '')

return CNVDid,time,level,result

def main():
    a, title = getURL()
    count = 0 # 计数
    result = []
    tem = []

reURL = []

    #取出之前的URL，看是否已经爬过了
    with open('URL.csv', 'r') as f:
        re = f.read()

re = re.split('\n')

    for i in re:
        i = i.replace(',', '')
        reURL.append(i)

    for i in a[:-10]: # 访问每个获得的链接
        if i in reURL:
            continue
        else:
            sleep1 = random.randint(5, 10) # 反爬，每次访问随机间隔5-10s
            count = count + 1
            #print(count)
            time.sleep(sleep1)
            tep = accessURL(i)
            tem.append(tep)

    # 合并结果
    for i in tem:
        if i == None:
            tem.remove(i)
        else:
            i = list(i)
            result.append(i)
    for i in result:
        i.append(title[result.index(i)][6:-2].strip('"'))

# 放到文件中
# headers = ['编号', '时间', '危害级别', '漏洞描述', '标题',]

    with open('CNVD.csv', 'a') as f:
        f_csv = csv.writer(f)
        # f_csv.writerow(headers)
        f_csv.writerows(result)

con = []

    #URL去重，新的URL存进去，以备之后使用
    for i in a[:-10]:
        if i in reURL:
            continue
        else:
            con.append(i)

    #把数据写入文件
    with open('URL.csv', 'a') as f:
        f_csv = csv.writer(f)
        # f_csv.writerow(headers)
        f_csv.writerows(con)

if __name__ == '__main__':
main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
clever101 博客专家认证 2021-04-25 15:17
关注
错误很明显，就是启动进程时找不到文件，你把easyprocess的调用代码贴出来。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

cnvd公开日期变成十年之后了 web安全
2023-02-22 16:31

回答 1 已采纳 CNVD（中国国家信息安全技术联合响应中心）的漏洞归档后公开日期一般会设置为十年之后，这是为了给漏洞提供者更多的时间来修复漏洞，以避免漏洞被滥用。
Python爬虫之基础篇
2017-04-04 17:40

Mi1k7ea的博客这里直接从各个小的程序开始，本文会不断地进行更新，一步步来走进Python~同时也希望各位可以给点好的建议哈~一、在Kali Linux中安装sublime text 3：先下载sublime text 3，然后到下载的目录中执行以下命令即可：...
python代码审计案例_Python代码审计实战案例总结之反序列化和命令执行
2020-12-24 13:40

细雨9523的博客 Python微薄研发经验以及结合实际遇到的思路和技巧进行总结，以便于朋友们的学习和参考。反序列化审计实战反序列化漏洞在Python代码审计中属于常见高危漏洞之一，它的危害性根据执行环境略有不同，本地和远程分别为...
vulnerability-list:在渗透测试中快速检测常见中间件，组件的高危漏洞
2021-03-31 22:50

有些地方有渣渣的硬编码，某些路径什么的，导致不同环境下可能会报错，遇到这样的问题，使用单独的脚本进行测试，或者自己改一下路径，有时间的话会处理一下。TomcatCVE_2017_12615 / CVE_2017_12617 tomcat_weak...
Redis未授权访问漏洞是什么？如何复现（包括整理出在复现过程中遇到的各种问题）+编写扫描检测脚本
2022-03-19 17:33

bbb07的博客未授权访问漏洞可以理解为安全配置不当、在需要进行权限认证处未对当前用户进行权限识别，导致攻击者在没有获取到登录权限或未授权的情况下，对目标进行操作或者被信息泄露常见的未授权漏洞： Redis 未授权访问...
python反序列化总结_Python代码审计实战案例总结之反序列化和命令执行!
2020-12-15 12:42

weixin_39973416的博客 Python微薄研发经验以及结合实际遇到的思路和技巧进行总结，以便于朋友们的学习和参考。反序列化审计实战反序列化漏洞在Python代码审计中属于常见高危漏洞之一，它的危害性根据执行环境略有不同，本地和远程分别为...
python反序列化总结_Python代码审计实战案例总结之反序列化和命令执行
2020-12-15 12:42

weixin_39748838的博客 Python微薄研发经验以及结合实际遇到的思路和技巧进行总结，以便于朋友们的学习和参考。二、反序列化审计实战反序列化漏洞在Python代码审计中属于常见高危漏洞之一，它的危害性根据执行环境略有不同，本地和远程分别...
selenium 状态码521_selenium 获取请求返回内容的解决方案
2020-12-31 09:43

赵有名的博客当出现异常时，我们需要记录页面源码、网络请求数据、截图等信息来方便我们诊断问题，基本上就够用了。但是，这两天遇到一个棘手的异常，时不时页面会弹出：“系统繁忙，请稍候再试！”，这时候我们去看网络请求数据...
Python代码审计实战案例总结之反序列化和命令执行!
2020-04-16 16:38

爬遍天下无敌手的博客 Python微薄研发经验以及结合实际遇到的思路和技巧进行总结，以便于朋友们的学习和参考。反序列化审计实战反序列化漏洞在Python代码审计中属于常见高危漏洞之一，它的危害性根据执行环境略有不同，本地和远程分别...
Python MySQLdb使用，以及MySQL 与 PostgreSQL 数据互传
2016-03-11 10:16

凌乱小风的博客 https://sourceforge.net/projects/mysql-python/ 对于windows 直接下载exe安装即可对于ubuntu 然后解压，打开README：参考 http://www.cnblogs.com/rollenholt/archive/2012/05/07/2487137.html 里面有安装...
红队培训班作业 | 免杀过360和火绒四种方法大对比
2021-08-16 07:45

Ms08067安全实验室的博客很多读者跟我反映过开始都是看视频、看书自学，但是一旦遇到实验报错就没法解决，遇到不懂的技术点也没人解答，本应该重点掌握的技术也没有掌握，100%的初学者都会或多或少的走些弯路，学了1-2年还是效率低、进步慢...
一面基本问题
2022-09-01 13:53

の柒的博客 from users --+ 报错注入利用页面返回的MySQL报错信息，将想得到的数据通过报错信息带出。报错注入的利用方式和MySQL版本有很大的关联。 Updatexml、extractvalue、rand()等盲注当不能直接通过显示数据来获得...
本科毕业设计——基于云存储的物联网安全数据的爬取
2020-10-08 14:47

秃头研究生的博客主要是爬取CNVD网站的信息，信息格式如下：看到这个格式就知道为什么用非关系型数据库存储了，这个格式会让我们想到Python中的字典格式，而非关系型数据库MongoDB中的存储格式就是字典格式，而且这种格式的可扩展性...
记录一次挖SRC碰到一个通杀的经历
2021-10-22 14:45

渗透测试老鸟-九青的博客五、关于SLQ注入个人心得（关于技巧一方面已经有很多文章了，这里我就说说我遇到的各种问题吧）如果文章对你有帮助，欢迎关注、点赞、收藏一键三连支持以下哦！想要一起交流学习的小伙伴可以关注【黑客菌】,...
vulfocus/fastjson-cnvd_2019_22238漏洞复现（docker）附问题解决方案
2024-03-10 17:06

，，，642的博客补充一下这个调用过程，也就是反序列触发到执行代码的过程（出自gpt）处理该 JSON 数据并尝试反序列化这个对象通常涉及以下步骤，以便理解整个过程： 1. JSON 解析： - 应用程序使用一个 JSON 解析器，例如 JSON ...
面试总结-2023届安全面试题总汇
2022-09-16 17:43

炫彩@之星的博客遇到的问题是什么，有什么印象深刻的处置怎么解决误报过多的情况，有做过什么规则能解决这个情况的他的内网误报是在办公网还是生产网比如mysql也会执行powershell，怎么做防护（前面说了很多内网误报是因为有人...
渗透测试-干货 | 80篇+网络安全面试经验帖（面试篇）
2022-07-27 13:56

炫彩@之星的博客 18、MYSQL注入5.0以上和5.0以下有什么区别 19、get传参和post传参的区别 09套 1、先做一下自我介绍 2、讲一下你所了解的web漏洞 3、你在SRC挖掘中遇到最多的漏洞是什么 4、SQL注入分为几种 5、详细讲一下SQL注入 6、...
在windows下安装scrapy的方法详解
2012-01-19 21:17

小米饭团的博客 scrapy在国内目前使用的人比较少，除了他比较新以外，还在于他本身还有很多弊端，比如：需要的支持包比较多，这些支持包相互之间的依赖关系，导致人们在安装他的时候各种吐血，而且吐血了还不一定又正确的结果！...
（三）、正确安装scrapy框架
2019-04-21 11:22

AI-Rui的博客 scrapy是python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点病虫页面中提取结构化的数据。scrapy用途广泛，常用于数据挖掘、监测和自动化测试。 2.scrapy框架的安装（1）先安装Twisted ...
web服务器、中间件和他们的漏洞
2023-01-12 17:14

耳语吖的博客同样存在这一问题） %00空字节代码解析漏洞原理：Ngnix在遇到%00空字节时与后端FastCGI处理不一致，导致可以在图片中嵌入PHP代码然后通过访问xxx.jpg%00.php来执行其中的代码在以下版本的nginx中，我们在图片中...
没有解决我的问题, 去提问

悬赏问题

¥15 无源定位系统的时差估计误差标准差
¥15 请问这个代码哪里有问题啊
¥20 python--version在命令端输入结果Python is not defined怎么办？还有pip不是exe格式是不是没安装成功？
¥15 通过GaussianView进行结构微调消除虚频
¥15 调用transformers库
¥15 由于导出的数据名字中带有/，导致Matlab打不开，怎么办？
¥15 新硬盘安装的程序总是崩溃，提示遇到错误
¥15 openpcdet自制数据集评估bev精度和3d精度相同
¥15 excel 上下按钮显示行
¥20 云卓h12pro 数传问题

爬CNVD遇到以下报错，请问需要怎么解决？

7条回答 默认 最新

悬赏问题

7条回答默认最新