python 爬虫遇到问题了,这个问题怎么办

我们老师让写一个爬虫,爬东方财富每个股票的历史流动资金,我写出来后,运行程序,前面没什么问题,到后面就有问题了
代码如下:import requests
import pandas
import json
import pymssql
import re

#获取股票资金流量网页的数据

def GetHtml(url):
html=requests.get(url)
html=html.text
return html

#对数据进行拆分

def CleanData(html):
Str_data=html[len('jQuery1830006374794149931473_1577602052640')+1:-2] #对数据进行切割
Str_data2=json.loads(Str_data)['data'] #对无用数据进行再切分获取代码和名称
print(Str_data2['code'])
code = Str_data2['code'] #股票编码
name = Str_data2['name'] #股票名称
data=[]
for i in range (len(Str_data2['klines'])):
data.append(Str_data2['klines'][i])
dealData(data,name,code)
data.clear()
Str_data2.clear()

#对拆分数据进行整理

def dealData(datalist,name,code):
#对列表中元素进行切片
new_datalist = ''.join(datalist)
new_datalist=new_datalist.split(',')
Name=name
Code=code

#将新列表放入数据库中
insertDatabase(new_datalist,Name,Code)
new_datalist.clear()

#将数据导入数据库中

def insertDatabase(datalist,Name,Code):
#对新列表数据进行分类
date=datalist[0] #时间
close_price=datalist[11] #收盘价
Quote_change=datalist[12] #涨跌幅
Main_net=datalist[1] #主力净额
Main_foce=datalist[6] #主力净占比
Over_net=datalist[5] #超大单净额
Over_foce=datalist[10] #超大单净占比
Big_net=datalist[4] #大单净额
Big_foce=datalist[9] #大单净占比
Mid_net=datalist[3] #中单净额
Mid_foce=datalist[8] #中单净占比
Sm_net=datalist[2] #小单净额
Sm_foce=datalist[7] #小单净占比

data=(Name,Code,date,close_price,Quote_change,Main_net,Main_foce,Over_net,Over_foce,Big_net,Big_foce,Mid_net,Mid_foce,Sm_net,Sm_foce)
sql="insert into Moneymove values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s);"

#建立连接
conn = pymssql.connect(host="localhost:1433", user="sa", password="123456", database="test", charset="UTF-8")
cursor = conn.cursor()

#插入测试数据
cursor.execute(sql , data)
conn.commit()
del data

conn.close()

#创建数据库
def Createdatabase():
conn = pymssql.connect(host="localhost:1433", user="sa", password="123456", database="test", charset="UTF-8")
cursor = conn.cursor()
cursor.execute("""
create table Moneymove(
股票代码 varchar(100),
股票名称 varchar(100),
时间 varchar(100) ,
收盘价 varchar(100),
涨跌幅 varchar(100),
主流净额 varchar(100),
主流净占比 varchar(100),
超大单净额 varchar(100),
超大单净占比 varchar(100),
大单净额 varchar(100),
大单净占比 varchar(100),
中单净额 varchar(100),
中单净占比 varchar(100),
小单净额 varchar(100),
小单净占比 varchar(100)

)

               """)
conn.commit()

conn.close()

#
def NeedData():
# 建立连接并获取cursor
conn = pymssql.connect(host="localhost:1433", user="sa", password="123456", database="test", charset="UTF-8")
cursor = conn.cursor()
# 如果连接时没有设置autocommit为True的话,必须主动调用commit() 来保存更改。
conn.commit()
# 查询记录
cursor.execute('SELECT 股票代码 From SwClass$ ')
# 获取一条记录
row = cursor.fetchone()
code_list=[]
# 循环打印记录(这里只有一条,所以只打印出一条)
for i in range (3769):
if row[0] != None:
if str(row[0][0]) =='6':
code='1.'+row[0]
code_list.append(code)
else:
code = '0.'+row[0]
code_list.append(code)
row = cursor.fetchone()
return code_list
# 连接用完后记得关闭以释放资源
conn.close()
def main():
Createdatabase()
code_list=NeedData()
print(code_list)
for i in code_list:
url='http://push2his.eastmoney.com/api/qt/stock/fflow/daykline/get?lmt=0&klt=101&secid='+ str(i)+'&fields1=f1,f2,f3,f7&fields2=f51,f52,f53,f54,f55,f56,f57,f58,f59,f60,f61,f62,f63,f64,f65&ut=b2884a393a59ad64002292a3e90d46a5&cb=jQuery1830006374794149931473_1577602052640&_=1577602052949'
html=GetHtml(url)
CleanData(html)
main()

出现的问题是这个:
Traceback (most recent call last):
File "C:/Users/VULCAN/Desktop/爬虫实习/3.py", line 135, in
main()
File "C:/Users/VULCAN/Desktop/爬虫实习/3.py", line 134, in main
CleanData(html)
File "C:/Users/VULCAN/Desktop/爬虫实习/3.py", line 25, in CleanData
dealData(data,name,code)
File "C:/Users/VULCAN/Desktop/爬虫实习/3.py", line 39, in dealData
insertDatabase(new_datalist,Name,Code)
File "C:/Users/VULCAN/Desktop/爬虫实习/3.py", line 65, in insertDatabase
conn = pymssql.connect(host="localhost:1433", user="sa", password="123456", database="test", charset="UTF-8")
File "src\pymssql.pyx", line 636, in pymssql.connect
File "src_mssql.pyx", line 1957, in mssql.connect
File "src_mssql.pyx", line 675, in _mssql.MSSQLConnection.
_init__
ValueError: list.remove(x): x not in list

请问各位大佬,这要如何解决?

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python爬虫遇到的一个问题 渲染?
![图片说明](https://img-ask.csdn.net/upload/201908/21/1566367766_422517.jpg) 进度条一直不出现 试了很多次 有什么解决方法吗
在学python爬虫时遇到个问题,求解答
``` #! /usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib2 import re def craw(url, page): html1 = urllib2.Request(url) response = urllib2.urlopen(html1).read() response = str(response) pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />' imagelist = re.compile(pat1).findall(response) x = 1 for imageurl in imagelist: imagename = "D:/手表/" + str(page) + str(x) + ".jpg" imagesurl = "http://" + imageurl try: urllib.urlretrieve(imagesurl, filename = imagename) except urllib2.URLError as e: if hasattr(e, "code"): x += 1 if hasattr(e, "reason"): x += 1 x += 1 for i in range(2,6): url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i) craw(url, i) 运行,开始报错: Traceback (most recent call last): File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module> craw(url, i) File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw urllib.urlretrieve(imagesurl, filename = imagename) File "C:\Python27\lib\urllib.py", line 91, in urlretrieve return _urlopener.retrieve(url, filename, reporthook, data) File "C:\Python27\lib\urllib.py", line 237, in retrieve fp = self.open(url, data) File "C:\Python27\lib\urllib.py", line 205, in open return getattr(self, name)(url) File "C:\Python27\lib\urllib.py", line 342, in open_http h.endheaders(data) File "C:\Python27\lib\httplib.py", line 951, in endheaders self._send_output(message_body) File "C:\Python27\lib\httplib.py", line 811, in _send_output self.send(msg) File "C:\Python27\lib\httplib.py", line 773, in send self.connect() File "C:\Python27\lib\httplib.py", line 754, in connect self.timeout, self.source_address) File "C:\Python27\lib\socket.py", line 553, in create_connection for res in getaddrinfo(host, port, 0, SOCK_STREAM): IOError: [Errno socket error] [Errno 11001] getaddrinfo failed ```
python爬虫有部分数据为空值怎么办
Python爬虫遇到有部分数据空值,如何将其占位呢? 网页部分源代码: ![图片说明](https://img-ask.csdn.net/upload/201912/03/1575353292_456188.jpg) 因为我的数据爬取,最后呈现为表格形式,格式处理如下图 ``` for i in range(int(len(yearList)/5)): yearData.append((yearList[5*i],yearList[5*i+1],yearList[5*i+2],yearList[5*i+3],yearList[5*i+4])) ``` 因为以上存在空值,导致最后的数据错位: ![图片说明](https://img-ask.csdn.net/upload/201912/03/1575353430_13453.png) 爬取部分代码见下方: ``` monthHtml = driver.find_element_by_class_name('lishitable') monthList=monthHtml.text.split('\n',-1) ``` 请问应该如何修改代码?
python 爬虫 pyspider遇到的问题
pyspider on_start函数中 如果url改变,写个循环判断之类的会自动在左面生成所有分页路径,但我这个是ajax请求,url不变,只是参数中的分页参数在变,我该如何写才能让左面生成分页请求
python爬虫遇到ajax页数访问限制
## 在爬取雪球网评论时遇到了一个问题,我们可以访问的页数是100页,但是这个网站存储的评论信息并不止100页的内容,我们想要获取更多页数的评论时遇到了问题 ### 具体问题就是如下: ``` { "error_description": "请求页数超过限制", "error_uri": "/statuses/search.json", "error_code": "21306" } ``` ### 会以上错误,我根据报错的信息查询了一下,发现是属于“OAuth参数被拒绝”的问题,根据很多论坛上搜索到的问题,发现并没有得到解决。 ## 希望技术大佬能够帮忙解决一下。谢谢!
python爬虫编码问题 怎么都改不好
第一天学习爬虫就遇到了这个问题,在网上找了很多解决办法都解决不了,希望有人能帮忙解决一下,感谢!![图片说明](https://img-ask.csdn.net/upload/201803/15/1521108842_936282.png)![图片说明](https://img-ask.csdn.net/upload/201803/15/1521108853_908069.png)![图片说明](https://img-ask.csdn.net/upload/201803/15/1521108862_542710.png)
把Python爬虫部署到scrapyinghub上遇到如下问题?
把Python爬虫部署到scrapyinghub上遇到: Traceback (most recent call last): File "e:\paython\python安装\lib\site-packages\shub\utils.py", line 219, in run_cmd return _clean(subprocess.check_output(*args, **kwargs)) File "e:\paython\python安装\lib\subprocess.py", line 376, in check_output **kwargs).stdout File "e:\paython\python安装\lib\subprocess.py", line 468, in run output=stdout, stderr=stderr) subprocess.CalledProcessError: Command '['e:\\paython\\python安装\\python.exe', 'setup.py', 'clean', '-a', 'bdist_egg', '-d', 'C:\\Users\\Lenovo\\AppData\\Local\\Temp\\shub-deploy-81byvzun']' returned non-zero exit status 1. During handling of the above exception, another exception occurred: Traceback (most recent call last): File "e:\paython\python安装\lib\runpy.py", line 193, in _run_module_as_main "__main__", mod_spec) File "e:\paython\python安装\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "E:\paython\python安装\Scripts\shub.exe\__main__.py", line 9, in <module> File "e:\paython\python安装\lib\site-packages\click\core.py", line 722, in __call__ return self.main(*args, **kwargs) File "e:\paython\python安装\lib\site-packages\click\core.py", line 697, in main rv = self.invoke(ctx) File "e:\paython\python安装\lib\site-packages\click\core.py", line 1066, in invoke return _process_result(sub_ctx.command.invoke(sub_ctx)) File "e:\paython\python安装\lib\site-packages\click\core.py", line 895, in invoke return ctx.invoke(self.callback, **ctx.params) File "e:\paython\python安装\lib\site-packages\click\core.py", line 535, in invoke return callback(*args, **kwargs) File "e:\paython\python安装\lib\site-packages\shub\deploy.py", line 82, in cli conf=conf) File "e:\paython\python安装\lib\site-packages\shub\deploy.py", line 110, in deploy_cmd egg, tmpdir = _build_egg() File "e:\paython\python安装\lib\site-packages\shub\deploy.py", line 195, in _build_egg run_python(['setup.py', 'clean', '-a', 'bdist_egg', '-d', d]) File "e:\paython\python安装\lib\site-packages\shub\utils.py", line 305, in run_python return run_cmd([sys.executable] + cmd, *args, **kwargs) File "e:\paython\python安装\lib\site-packages\shub\utils.py", line 224, in run_cmd e.stderr = _clean(tmpfile.read()) File "e:\paython\python安装\lib\site-packages\shub\utils.py", line 214, in _clean return s.decode(STDOUT_ENCODING).replace(os.linesep, '\n').strip('\n') UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 273: invalid start byte 谢谢!!
python写爬虫遇到"脚本可访问"属性的cookies怎么办?
最近在用python做网页模拟登陆的时候遇到一些问题。 1.cookies方面的: 当访问某个网页的子页时候往往需要发送一些cookies,这些cookies大多数能在response headers里面找到(set cookies),但是有一些属性是“脚本可访问”的却没有在在headers里面找到(即使已经清空了缓存的该网站的所有cookies),想知道这些cookies是怎么来的。JS脚本里面生成的吗?在python里面应该要怎么样得到这些cookies? 2.关于用post发送payload的问题: 在开发者工具里面发现网页发送的payload是分层次的而不是并列出现(见下图),这种情况在python里面写的时候要用什么格式写? ![图片说明](https://img-ask.csdn.net/upload/201806/24/1529809996_321378.jpg) 3.Query String Parameters是什么? 刚开始学习爬虫不久,对网页结构了解不是很深,觉得先前使用开发者工具分析网站的方法不是很正确,希望大神指点迷津。
python爬虫,遇到403 forbidden,求助。
``` # -*- coding: utf-8 -*- import re import sys import requests reload(sys) sys.setdefaultencoding("utf-8") if __name__ == '__main__': url = 'https://movie.douban.com/subject/1433330/photos?type=W' # 获取网页源码 html = requests.get(url) # 抓每个图片链接 pic_url = re.findall('<img src="https://(.*?)" />', html.text, re.S) #此链接为预览链接 i = 0 for each in pic_url: raw = re.sub('thumb','raw',each,re.S) //将预览链接中的thumb替换成raw,便成了高清图片链接 print 'now download..'+'https://'+raw pic = requests.get('https://'+raw) f = open('hp\\'+str(i)+'.jpg','wb') f.write(pic.content) f.close() i += 1 ``` 刚开始学爬虫,爬豆瓣电影的壁纸练手。现在程序可以跑下来,不返回错,但是下载的图片是失败的,response 返回 403 forbidden。 我这样想问题的原因对吗? **因为我想下高清的,但是豆瓣查看高清壁纸前,需要登录,但我的程序是没有登录的,所以出现403是吗?所以我得模拟登陆是吗?** 刚注册,木有悬赏币。。谢谢
python网络爬虫遇到空值如何处理
爬取58同城招聘信息是xpath遇到空值。无法继续爬取。 ``` import requests #导入requests库 from lxml import etree#导入lxml库 import csv#输出文件类型 import time#时间函数 def spider(): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36'}#定义头部 pre_url = 'https://hc.58.com/job/pn'#构造URL for x in range(1,2):#使用for循环构造前几页URL地址并GET请求 html=requests.get(pre_url+str(x),headers=headers) time.sleep(2)#休眠时间 selector = etree.HTML(html.text)#初始化etree job_list = selector.xpath("//*[@id='list_con']/li")#获取工作列表 for job in job_list: dizhi = job.xpath("div[1]/div[1]/a/span[1]/text()")[0]#公司地址 gongsi = job.xpath("div[2]/div[1]/a/text()")[0]#公司名称 gangwei = job.xpath("div[2]/p/span[1]/text()")[0]#所需岗位 leixing = job.xpath("div[1]/div[1]/a/span[2]/text()")[0]#人员类型 xueli = job.xpath("div[2]/p/span[2]/text()")[0]#员工学历 jingyan = job.xpath("div[2]/p/span[3]/text()")[0]#员工经验 gongzi = job.xpath("div[1]/p/text()")[0]#员工工资 daiyu = job.xpath("div[1]/div[2]/text()")[0]#福利待遇 item = [dizhi, gongsi, gangwei,leixing, xueli, jingyan, gongzi,daiyu ] #所要爬取的数据 data_writer(item)#保存数据 print('正在抓取', dizhi) def data_writer(item): with open('581河池.csv', 'a',encoding='utf-8',newline='') as csvfile: writer = csv.writer(csvfile) writer.writerow(item) if __name__ == '__main__':#主函数 spider() ``` ![图片说明](https://img-ask.csdn.net/upload/201907/07/1562462726_523125.png)![图片说明](https://img-ask.csdn.net/upload/201907/07/1562462735_260881.png)
python爬虫爬取腾讯新闻评论
python小白一枚,刚开始学爬虫,遇到一个动态网页爬取问题,请教各位大神。 需要爬取http://view.news.qq.com/original/intouchtoday/n4083.html 这篇新闻的评论内容, ![图片说明](https://img-ask.csdn.net/upload/201711/23/1511415727_305165.jpg) 但是在找到了目标request url: http://coral.qq.com/article/2243032968/comment?commentid=0&reqnum=10&tag=&ca,llback=mainComment&_=1511408574390 ,不知道怎么提取里面的评论内容,且里面的内容类似于\u***这样的乱码
写python 爬虫时遇到解析json的 keyerror问题
![图片说明](https://img-ask.csdn.net/upload/201904/12/1555057792_682412.png) 因为每一类的电影页数不确定 所以for循环循环到的页面所爬取的有的json数据是 {"data":[{"data":"no result"}],"status":0}这样的(就是该页数是空的 没有能够爬到的) 会提示keyerror 应该怎么解决呢 用default提示是str不是字典 有什么办法可以直接跳过吗
关于python爬虫抓取AJAX数据
最近看腾讯漫画海贼王的时候想直接爬下来一次过看了。 然后写爬虫的时候又一次遇到了JS加载出来的图片URLs让我又一次望而却步。 一直很想解决这一个难题但是看了很多都没有找到合适的解决方法。 我有Selenium库,但是觉得腾讯的漫画页的image URL好像不需要用到。 好想只要解读好它的JS就可以了,但是我读了很久的JS也读不出它是怎么加密的。 求大神解决我一直悬而未决的难题。 html_url_ :"http://ac.qq.com/ComicView/index/id/505430/cid/1" js_url_: "http://ac.gtimg.com/media/js/ac.page.chapter.view_v2.3.5.js?v=20160826" 感激不尽。
python,爬虫遇到重定向页面,如何获取动向后地址的response headers里的内容?
## 爬虫大致流程是这样的 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572853822_754760.png) ## 我想获取resul.jsf里Location的值 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572854659_247812.png) ## 下面是我写的代码,但是得不到结果,求大佬帮忙看一下。 ## 我首先访问这个站点https://patentscope2.wipo.int/search/en/search.jsf ,从页面信息中获取ViewData的值,然后构建post data,把data加进去再次访问这个网站。 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572854402_908823.png) ``` import re import requests s = requests.Session() r = s.get('https://patentscope2.wipo.int/search/en/search.jsf') resp = r.text # 获取ViewState值 viewstate = re.findall('ViewState:0.*value=\"([0-9\-:]*)\"',resp)[0] # 构建data字典 searchfp = 'US20180094236' data={'javax.faces.partial.ajax': 'true', 'javax.faces.source': 'simpleSearchForm:commandSimpleFPSearch', 'javax.faces.partial.execute': '@all', 'simpleSearchForm:commandSimpleFPSearch': 'simpleSearchForm:commandSimpleFPSearch', 'simpleSearchForm': 'simpleSearchForm', 'simpleSearchForm:j_idt216_focus': '', 'simpleSearchForm%3Aj_idt206_input': 'FP', 'simpleSearchForm:fpSearch': searchfp, 'javax.faces.ViewState': viewstate} r = s.post('https://patentscope2.wipo.int/search/en/search.jsf',data = data) ``` ## 然后得到一个result.jsf连接地址,再访问这个连接却得不到目标数据 ![图片说明](https://img-ask.csdn.net/upload/201911/04/1572854616_903525.png) ``` # 获取/result.jsf链接地址 vid = re.findall('_vid=([A-Z0-9\-]*)\"',r.text)[0] re_url = 'https://patentscope2.wipo.int/search/en/result.jsf?_vid='+vid # 访问/result.jsf后却没有去到正确的地方 r = s.get(re_url) resp = r.text print(r.headers) print(r.status_code) print(resp) # 这里status_code时500,并且有页面内容,但不是目标页面 ```
爬虫遇到的困难,反 爬 取 为什么会出像这样的问题?
爬虫遇到的困难,反 爬 取 为什么会出像这样的问题?这个有什么问题吗? ``` import requests from bs4 import BeautifulSoup import bs4 def get_url(url , header):#获得网页内容 r = requests.get(url , header = head , timeout = 30) r.raise_for_status() r.encoding = r.apparent_encoding return print(r.text ,r.status_code) if __name__ == '__main__': url = "https://www1.nm.zsks.cn/xxcx/gkcx/lqmaxmin_19.jsp" head = {'Cookie':'BIGipServerweb_pool=2181103882.36895.0000; JSESSIONID=v0VlpLwW0lzXx1R3n44xvMpYD8hWvJgLhZ8ccZwTzZ5N1LJn1L0l!-1640068139', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'} first = get_url(url , head) pass ``` ![图片说明](https://img-ask.csdn.net/upload/201912/29/1577612666_852845.png)
python爬虫手动输入验证码应该用到什么库和技术?
各位技术大牛,小弟初学python遇到验证码的问题。当页面翻页到下一页时需要进行验证码识别验证才能打开页面。本人想实现自动翻页到下一页时等待手工输入验证码提交,然后再自动爬取数据或者设置某个按键(如空格键)利用按键启动单页的爬虫程序。初步学习了selenium库没有找到自动与手动相互切换的方法,请各位大神提供一些经验或者技术贴给小弟一些提示。 我的目标网页是http://www.bjcourt.gov.cn/cpws/index.htm?st=1&q=&sxnflx=0&prompt=&dsrName=&ajmc=&ajlb=&jbfyId=&zscq=&ay=&ah=&cwslbmc=&startCprq=&endCprq=&page=11 只有翻页到11页开始每次翻页需要验证码输入。 初次提问,表达不清楚的地方请大家原谅。还需要我提供什么信息或者想进一步交流可以私信我或者直接留言。 先提前谢谢各位能够在百忙之中抽出时间阅读我的问题,如果有老哥愿意帮帮忙,更是感激不尽。 补充:还有一个问题,在另一个目标爬取过程中,手动切换到下一页并没有验证码的验证过程,但爬取时收到的源代码显示网页本身是被JS处理过的需要验证码验证。这种问题可以使用selenium解决吗。 网页url:http://www.bjcourt.gov.cn/zxxx/indexOld.htm?st=1&zxxxlx=100013001&bzxrlx=&bzxrxm=&zrr=&frhqtzz=&jbfyId=&ah=&dqxh=6&page=21
python3爬虫遇到报错 “urlopen error no host given”
程序是爬百度图片搜索范冰冰的所有图片。Notepad已经选择了UTF8编码,URL地址也没有回车分行。 直接上代码如下: import urllib.request import re import sys import os import urllib import ssl #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.decode('utf-8') def getImg(html): imglist = re.findall('"ObjURL":"(.*?)",', html, re.S)#表示在整个网页中过滤出所有图片的地址,放在imglist中 x = 0 path = 'D:\\test' # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建 if not os.path.isdir(path): os.makedirs(path) paths = path+'\\' #保存在test路径下 for imgurl in imglist: urllib.request.urlretrieve(imgurl,'D:\\test\\%s.jpg' % x) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 x = x + 1 return imglist url="http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E8%8C%83%E5%86%B0%E5%86%B0" html=getHtml(url) print (getImg(html)) #从网页源代码中分析并下载保存图片
python爬虫时出现internal server error
我使用python爬取一个网站的大量帖子,大概有几百万吧 但是很奇怪,每隔不定的数量就会中止 并且挺频繁,中止原因是,Internal Server Error 严重影响了我的进度。。。 求教各位大神! PS:我是用腾讯云服务器主机和PC一起跑的,PC也遇到过很多次这样的问题,感觉可能和使用服务器电脑没关系。。。 ![图片说明](https://img-ask.csdn.net/upload/201608/30/1472517951_899147.png)
一个简单网页爬虫遇到的问题
网页源码片段: ``` <a href="/provider/63693738/" class="provider-item"><div class="col-media"><div class="cm-left avatar"><div class="avatar"><img src="https://img1.doubanio.com/view/ark_agent_avatar/small/public/d3fbffd658ac50b.jpg"></div></div><div class="cm-body"><div class="name">豆瓣阅读出版计划</div><div class="works-num">14 部作品在售</div></div></div></a> ``` 错误片段:我只是将需要的字段改成 (/.*?) 其它什么都没改 ``` abcd="<a href=\"(.*?)\" class=\"provider-item\"><div class=\"col-media\"><div class=\"cm-left avatar\"><div class=\"avatar\"><img src=\"(.*?)\"></div></div><div class=\"cm-body\"><div class=\"name\">(.*?)</div><div class=\"works-num\">(.*?) 部作品在售</div></div></div></a>" ``` 然而将`<img src=\"(.*?)\">`改成`<img src=\"(.*?)\"/>`后问题就解决了,我想问一下大佬这一个斜杠的作用是什么?
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私有的数
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。 补充 有不少读者留言说本文章没有用,因为天气预报直接打开手机就可以收到了,为何要多此一举发送到邮箱呢!!!那我在这里只能说:因为你没用,所以你没用!!! 这里主要介绍的是思路,不是天气预报!不是天气预报!!不是天气预报!!!天气预报只是用于举例。请各位不要再刚了!!! 下面是我会用到的两个场景: 每日下
面试官问我:什么是消息队列?什么场景需要他?用了会出现什么问题?
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸,打败了无数
8年经验面试官详解 Java 面试秘诀
    作者 | 胡书敏 责编 | 刘静 出品 | CSDN(ID:CSDNnews) 本人目前在一家知名外企担任架构师,而且最近八年来,在多家外企和互联网公司担任Java技术面试官,前后累计面试了有两三百位候选人。在本文里,就将结合本人的面试经验,针对Java初学者、Java初级开发和Java开发,给出若干准备简历和准备面试的建议。   Java程序员准备和投递简历的实
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观
MyBatis研习录(01)——MyBatis概述与入门
C语言自学完备手册(33篇) Android多分辨率适配框架 JavaWeb核心技术系列教程 HTML5前端开发实战系列教程 MySQL数据库实操教程(35篇图文版) 推翻自己和过往——自定义View系列教程(10篇) 走出思维困境,踏上精进之路——Android开发进阶精华录 讲给Android程序员看的前端系列教程(40集免费视频教程+源码) 版权声明 本文原创作者:谷哥的小弟 作者博客
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
你知道的越多,你不知道的越多 点赞再看,养成习惯 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。 前前言 为啥今天有个前前言呢? 因为你们的丙丙啊,昨天有牌面了哟,直接被微信官方推荐,知乎推荐,也就仅仅是还行吧(心里乐开花)
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca
Python爬虫精简步骤1 获取数据
爬虫的工作分为四步: 1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。 2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 3.提取数据。爬虫程序再从中提取出我们需要的数据。 4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。 这一篇的内容就是:获取数据。 首先,我们将会利用一个强大的库——requests来获取数据。 在电脑上安装
Python绘图,圣诞树,花,爱心 | Turtle篇
1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle() circle.shape('circle') circle.color('red') circle.speed('fastest') circle.up() square = turtle.Turtle()
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东
破14亿,Python分析我国存在哪些人口危机!
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。 猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。 今天我们就来分析一下我们国家的人口数据吧! 更多有趣分析教程,扫描下方二维码关注vx公号「裸睡的猪」 即可查看! 一、背景 1.人口突破14亿 2020年1月17日,国家统计局发布
web前端javascript+jquery知识点总结
Javascript javascript 在前端网页中占有非常重要的地位,可以用于验证表单,制作特效等功能,它是一种描述语言,也是一种基于对象(Object)和事件驱动并具有安全性的脚本语言 ,语法同java类似,是一种解释性语言,边执行边解释。 JavaScript的组成: ECMAScipt 用于描述: 语法,变量和数据类型,运算符,逻辑控制语句,关键字保留字,对象。 浏览器对象模型(Br
Python实战:抓肺炎疫情实时数据,画2019-nCoV疫情地图
文章目录1. 前言2. 数据下载3. 数据处理4. 数据可视化 1. 前言 今天,群里白垩老师问如何用python画武汉肺炎疫情地图。白垩老师是研究海洋生态与地球生物的学者,国家重点实验室成员,于不惑之年学习python,实为我等学习楷模。先前我并没有关注武汉肺炎的具体数据,也没有画过类似的数据分布图。于是就拿了两个小时,专门研究了一下,遂成此文。 2月6日追记:本文发布后,腾讯的数据源多次变更u
听说想当黑客的都玩过这个Monyer游戏(1~14攻略)
第零关 进入传送门开始第0关(游戏链接) 请点击链接进入第1关: 连接在左边→ ←连接在右边 看不到啊。。。。(只能看到一堆大佬做完的留名,也能看到菜鸡的我,在后面~~) 直接fn+f12吧 &lt;span&gt;连接在左边→&lt;/span&gt; &lt;a href="first.php"&gt;&lt;/a&gt; &lt;span&gt;←连接在右边&lt;/span&gt; o
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ......
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!
渗透测试-灰鸽子远控木马
木马概述 灰鸽子( Huigezi),原本该软件适用于公司和家庭管理,其功能十分强大,不但能监视摄像头、键盘记录、监控桌面、文件操作等。还提供了黑客专用功能,如:伪装系统图标、随意更换启动项名称和表述、随意更换端口、运行后自删除、毫无提示安装等,并采用反弹链接这种缺陷设计,使得使用者拥有最高权限,一经破解即无法控制。最终导致被黑客恶意使用。原作者的灰鸽子被定义为是一款集多种控制方式于一体的木马程序
Python:爬取疫情每日数据
前言 有部分同学留言说为什么412,这是因为我代码里全国的cookies需要你自己打开浏览器更新好后替换,而且这个cookies大概只能持续20秒左右! 另外全国卫健委的数据格式一直在变,也有可能会导致爬取失败! 我现在已根据2月14日最新通报稿的格式修正了! 目前每天各大平台,如腾讯、今日头条都会更新疫情每日数据,他们的数据源都是一样的,主要都是通过各地的卫健委官网通报。 为什么已经有大量平台做
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。   再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。   下文是原回答,希望能对你能有所启发。   如果我说,这个世界上人真的分三六九等,
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合
雷火神山直播超两亿,Web播放器事件监听是怎么实现的?
Web播放器解决了在手机浏览器和PC浏览器上播放音视频数据的问题,让视音频内容可以不依赖用户安装App,就能进行播放以及在社交平台进行传播。在视频业务大数据平台中,播放数据的统计分析非常重要,所以Web播放器在使用过程中,需要对其内部的数据进行收集并上报至服务端,此时,就需要对发生在其内部的一些播放行为进行事件监听。 那么Web播放器事件监听是怎么实现的呢? 01 监听事件明细表 名
3万字总结,Mysql优化之精髓
本文知识点较多,篇幅较长,请耐心学习 MySQL已经成为时下关系型数据库产品的中坚力量,备受互联网大厂的青睐,出门面试想进BAT,想拿高工资,不会点MySQL优化知识,拿offer的成功率会大大下降。 为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上 随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢 数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(三)发送篇
今天介绍的项目是使用 Itchat 发送统计报告 项目功能设计: 定时爬取疫情数据存入Mysql 进行数据分析制作疫情报告 使用itchat给亲人朋友发送分析报告(本文) 基于Django做数据屏幕 使用Tableau做数据分析 来看看最终效果 目前已经完成,预计2月12日前更新 使用 itchat 发送数据统计报告 itchat 是一个基于 web微信的一个框架,但微信官方并不允
作为程序员的我,大学四年一直自学,全靠这些实用工具和学习网站!
我本人因为高中沉迷于爱情,导致学业荒废,后来高考,毫无疑问进入了一所普普通通的大学,实在惭愧...... 我又是那么好强,现在学历不行,没办法改变的事情了,所以,进入大学开始,我就下定决心,一定要让自己掌握更多的技能,尤其选择了计算机这个行业,一定要多学习技术。 在进入大学学习不久后,我就认清了一个现实:我这个大学的整体教学质量和学习风气,真的一言难尽,懂的人自然知道怎么回事? 怎么办?我该如何更好的提升
粒子群算法求解物流配送路线问题(python)
粒子群算法求解物流配送路线问题(python) 1.查找论文文献 找一篇物流配送路径优化+粒子群算法求解的论文 参考文献:基于混沌粒子群算法的物流配送路径优化 2.了解粒子群算法的原理 讲解通俗易懂,有数学实例的博文:https://blog.csdn.net/daaikuaichuan/article/details/81382794 3.确定编码方式和解码策略 3.1编码方式 物流配送路线的
教你如何编写第一个简单的爬虫
很多人知道爬虫,也很想利用爬虫去爬取自己想要的数据,那么爬虫到底怎么用呢?今天就教大家编写一个简单的爬虫。 下面以爬取笔者的个人博客网站为例获取第一篇文章的标题名称,教大家学会一个简单的爬虫。 第一步:获取页面 #!/usr/bin/python # coding: utf-8 import requests #引入包requests link = "http://www.santostang.
前端JS初级面试题二 (。•ˇ‸ˇ•。)老铁们!快来瞧瞧自己都会了么
1. 传统事件绑定和符合W3C标准的事件绑定有什么区别? 传统事件绑定 &lt;div onclick=""&gt;123&lt;/div&gt; div1.onclick = function(){}; &lt;button onmouseover=""&gt;&lt;/button&gt; 注意: 如果给同一个元素绑定了两次或多次相同类型的事件,那么后面的绑定会覆盖前面的绑定 (不支持DOM事...
相关热词 c# 时间比天数 c# oracle查询 c# 主动推送 事件 c# java 属性 c# 控制台 窗体 c# 静态类存值 c#矢量作图 c#窗体调用外部程式 c# enum是否合法 c# 如何卸载引用
立即提问