webmagic出错 在爬虫类里实行插入语句出错 哪位大神帮帮我啊 谢谢

图片说明
项目用的是SpringMvc 和 myBatis ,请求到controller后再service的实现类A里进行逻辑操作,A里查出爬虫类里需要的数据对象的列表,然后调用爬虫类,将A里的查的数据穿进去,并在爬虫类的process(Page page)方法里将爬出的数据插入数据库,问题就出在插入时报空指针,可我的确是有set进数据的 错误代码如图 求大神解救 谢谢

1个回答

在传入方法里debug看下,我觉得很容易找出问题

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Myeclipse导入webmagic项目运行时出错求大神!!!!

[INFO] Scanning for projects... [ERROR] [ERROR] Some problems were encountered while processing the POMs: [FATAL] Non-resolvable parent POM for us.codecraft:webmagic-scripts:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 [FATAL] Non-resolvable parent POM for us.codecraft:webmagic-selenium:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 10 [FATAL] Non-resolvable parent POM for us.codecraft:webmagic-saxon:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 [FATAL] Non-resolvable parent POM for us.codecraft:webmagic-samples:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 [WARNING] 'parent.relativePath' of POM us.codecraft:webmagic-admin:[unknown-version] (C:\Users\hp\Desktop\webmagic\webmagic-avalon\pom.xml) points at us.codecraft:webmagic-parent instead of us.codecraft:webmagic-avalon, please verify your project structure @ line 3, column 13 [FATAL] Non-resolvable parent POM for us.codecraft:webmagic-admin:[unknown-version]: Could not find artifact us.codecraft:webmagic-avalon:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 [WARNING] 'build.plugins.plugin.version' for org.apache.maven.plugins:maven-jar-plugin is missing. @ us.codecraft:webmagic-parent:0.5.3, C:\Users\hp\Desktop\webmagic\pom.xml, line 199, column 21 [WARNING] 'build.plugins.plugin.version' for org.apache.maven.plugins:maven-jar-plugin is missing. @ us.codecraft:webmagic-parent:0.5.3, C:\Users\hp\Desktop\webmagic\pom.xml, line 199, column 21 [WARNING] 'build.plugins.plugin.version' for org.apache.maven.plugins:maven-jar-plugin is missing. @ line 199, column 21 @ [ERROR] The build could not read 5 projects -> [Help 1] [ERROR] [ERROR] The project us.codecraft:webmagic-scripts:[unknown-version] (C:\Users\hp\Desktop\webmagic\webmagic-scripts\pom.xml) has 1 error [ERROR] Non-resolvable parent POM for us.codecraft:webmagic-scripts:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 -> [Help 2] [ERROR] [ERROR] The project us.codecraft:webmagic-selenium:[unknown-version] (C:\Users\hp\Desktop\webmagic\webmagic-selenium\pom.xml) has 1 error [ERROR] Non-resolvable parent POM for us.codecraft:webmagic-selenium:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 10 -> [Help 2] [ERROR] [ERROR] The project us.codecraft:webmagic-saxon:[unknown-version] (C:\Users\hp\Desktop\webmagic\webmagic-saxon\pom.xml) has 1 error [ERROR] Non-resolvable parent POM for us.codecraft:webmagic-saxon:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 -> [Help 2] [ERROR] [ERROR] The project us.codecraft:webmagic-samples:[unknown-version] (C:\Users\hp\Desktop\webmagic\webmagic-samples\pom.xml) has 1 error [ERROR] Non-resolvable parent POM for us.codecraft:webmagic-samples:[unknown-version]: Could not find artifact us.codecraft:webmagic-parent:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 -> [Help 2] [ERROR] [ERROR] The project us.codecraft:webmagic-admin:[unknown-version] (C:\Users\hp\Desktop\webmagic\webmagic-avalon\pom.xml) has 1 error [ERROR] Non-resolvable parent POM for us.codecraft:webmagic-admin:[unknown-version]: Could not find artifact us.codecraft:webmagic-avalon:pom:0.5.3-SNAPSHOT and 'parent.relativePath' points at wrong local POM @ line 3, column 13 -> [Help 2] [ERROR] [ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch. [ERROR] Re-run Maven using the -X switch to enable full debug logging. [ERROR] [ERROR] For more information about the errors and possible solutions, please read the following articles: [ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/ProjectBuildingException [ERROR] [Help 2] http://cwiki.apache.org/confluence/display/MAVEN/UnresolvableModelException 求大神解决!

用WebMagic框架 爬某网站(多个页面)的内容 、启动爬虫有时候能抓取成功、

用WebMagic框架 爬某网站(多个页面)的内容 、启动爬虫有时候能抓取成功、有时候启动之后没任何反应3S之后程序停止。问什么会这样,求解

关于webMagic爬虫框架的请求超时设置

爬取百度新闻时需要设置超时设置,单是怎么设置超时设置,求大佬指点(爬虫小白新上路)

Java的webmagic写爬虫卡在application中

![图片说明](https://img-ask.csdn.net/upload/201911/05/1572962122_159831.png)![图片说明](https://img-ask.csdn.net/upload/201911/05/1572962172_471172.png) 调试显示这种错误,代码是跟着教程视频敲的.

java爬虫webMagic用正则表达式匹配a标签的onclick里面的值

java爬虫webMagic用正则表达式匹配a标签的onclick里面queryArticleByCondition方法里的this后面的值,就是一个URL地址 ``` <a style="cursor:pointer" onclick="queryArticleByCondition(this,'/liuyanggov/dwzt/ggzyjyzx/jyxx96/fjsz34/zbgg97/2a7bc3f8-3.html')" tagname="/liuyanggov/dwzt/ggzyjyzx/jyxx96/fjsz34/zbgg97/2a7bc3f8-3.html">下一页</a> ```

webmagic爬取动态页面

webmagic-selenium爬取动态页面的同时可以添加cookie来实现模拟登录吗?添加cookie的同时还需要添加hearder吗?

webmagic网页抓取重复

webmagic抓取网页时,可能出现多个线程对同一个网页进行抓取,得到的数据重复。如何解决?

python爬虫问题出错原因求助

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find('tbody').children: if isinstance(tr, bs4.element.Tag): tds = tr('td') ulist.append([tds[0].string, tds[1].string, tds[3].string]) def printUnivList(ulist, num): print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分")) for i in range(num): u=ulist[i] print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2])) def main(): uinfo = [] url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html' html = getHTMLText(url) fillUnivList(uinfo, html) printUnivList(uinfo, 20) # 20 univs main() 出错为:Traceback (most recent call last): File "D:/python02/01/11.py", line 34, in <module> main() File "D:/python02/01/11.py", line 33, in main printUnivList(uinfo, 20) # 20 univs File "D:/python02/01/11.py", line 26, in printUnivList print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2])) TypeError: unsupported format string passed to NoneType.__format__ 第一次爬虫,不是很能理解出错原因。求指教

webmagic框架根据列表页来爬取详情页数据,谁有思路,请指点一下

初次使用爬虫来爬网页,求指点求思路。或者项目案例。哪位大神帮帮忙。

python爬虫出错 各位大神能不能帮我看一下是什么问题?python2.7

import urllib2 import urllib import re class BDTB: def __init__(self,baseUrl,see_LZ): self.baseURL = baseUrl self.seeLZ = '?see_lz='+str(see_LZ) def getPage(self,pageNum): try: url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum) request = urllib2.Request(url) response =urllib2.urlopen(request) return response except urllib2.URLError , e: if hasattr(e,"reason"): print u"link fail,reason",e.reason return None def getTitle(self): page = self.getPage(1) pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S) result = re.search(pattern,page) if result: print result.group(1) return result.group(1).strip() else: return None def getPageNum(self): page = self.getPage(1) print page.read() pattern = re.compile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>', re.S) result = re.search(pattern, page) if result: print result.group(1) return result.group(1).strip() else: return None def getContent(self): page = self.getPage(1) pattern = re.complie('<div id="post_content_.*?>(.*?)</div>',re.S) items = re.findall(pattern,page) for item in items: print item baseURL = "http://tieba.baidu.com/p/4866982459" bdtb = BDTB(baseURL,1) #bdtb.getPage(1) #bdtb.getTitle() #bdtb.getPageNum() bdtb.getContent() 运行getTitle()的错误: Traceback (most recent call last): File "F:\python学习\程序代码\爬虫\123.py", line 51, in <module> bdtb.getTitle() File "F:\python学习\程序代码\爬虫\123.py", line 23, in getTitle result = re.search(pattern,page) File "C:\Python27\lib\re.py", line 146, in search return _compile(pattern, flags).search(string) TypeError: expected string or buffer 运行getPageNum()的错误: Traceback (most recent call last): File "F:\python学习\程序代码\爬虫\123.py", line 52, in <module> bdtb.getPageNum() File "F:\python学习\程序代码\爬虫\123.py", line 34, in getPageNum result = re.search(pattern, page) File "C:\Python27\lib\re.py", line 146, in search return _compile(pattern, flags).search(string) TypeError: expected string or buffer 运行getContent()时候发生的错误: Traceback (most recent call last): File "F:\python学习\程序代码\爬虫\123.py", line 53, in <module> bdtb.getContent() File "F:\python学习\程序代码\爬虫\123.py", line 43, in getContent pattern = re.complie('<div id="post_content_.*?>(.*?)</div>',re.S) AttributeError: 'module' object has no attribute 'complie' 实在改不动了,忘各位大神帮忙!

【求教】使用pycharm编写python爬虫,连接不上本地MySQL服务器

#小白自学修炼中,在编写python爬虫时,需要连接上本地MySQL服务器,将爬取的内容存放。 求教问题描述>>> 问题: #pycharm编写的程序连接不上本地MySQL服务 ### 环境: * python3.6 * ide:pycharm * 本地mysql服务已开启。 mysql版本:5.7 ## 源代码: ``` # 导入开发包 from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import pymysql # 获得数据库的连接 connection = pymysql.connect( host='localhost', user='root', password='123456', db='baidu', charset='utf8mb4' ) try: # 获得会话指针 with connection.cursor() as cursor: # 创建sql语句 sql = "insert into urls ('urlname','urlhref') values (%s,%s)" # 向baiduurls表提交操作 cursor.execute(sql, ("1", "1")) # 提交操作 connection.commit() finally: connection.close() ``` ## ## 出现的问题 ``` Traceback (most recent call last): File "C:/Pycharm/pro_2020/百度百科爬虫/craw_url.py", line 12, in <module> db='baidu' raise exc pymysql.err.OperationalError: (2003, "Can't connect to MySQL server on 'localhost' (timed out)") ``` 无法连接本地mysql数据库,另外数据库我在第三方工具上创建了一个名为“baidu”的数据库;我在命令行下查询了,确实创建着有。只是在pycharm里连接不到本地MySQL。 ## 尝试过、并失败了的的方法 ``` 防火墙已关闭,依然连接失败; net start mysql MySQL服务器doc命令行尝试连接,依然连接失败; host = 127.0.0.1,依然连接失败; ``` 真心在线求各位老哥老姐教教弟弟,不胜感激!

Python爬虫抓取信息存储到excel表格后,怎么实行数据可视化

我用python爬去了起点中文网的一些信息,并且存储到excel中,现在想要实现数据可视化怎么写应该 import requests from lxml import etree from openpyxl import Workbook class Book(): def __init__(p): p.url = 'https://www.qidian.com/rank/hotsales?page={页数}' p.wb = Workbook() # class实例化 p.ws = p.wb.active # 激活工具表 p.ws.append(['书名', '作者', '类型', '连载状态']) # 添加对应的表头 def geturl(p): url = [p.url.format(页数 =i) for i in range(1,15)] return url def parse_url(p,url): response =requests.get(url,timeout = 5) return response.content.decode('utf-8','ignore') def get_list(p,html_str): html = etree.HTML(html_str) connect_list = [] lists = html.xpath("//div[@class='book-img-text']/ul/li//div[@class='book-mid-info']") for list in lists: item = {} item['书名'] = ''.join(list.xpath("./h4/a/text()")) item['作者'] = ''.join(list.xpath("./p[@class='author']/a[1]/text()")) item['类型'] = ''.join(list.xpath("./p[@class='author']/a[2]/text()")) item['连载状态'] = ''.join(list.xpath("./p[@class='author']/span/text()")) connect_list.append(item) return connect_list def save_list(p, connects): for connect in connects: p.ws.append([connect['书名'], connect['作者'], connect['类型'], connect['连载状态']]) print('保存小说信息成功') def run(p): url_list = p.geturl() for url in url_list: html_url =p.parse_url(url) connects = p.get_list(html_url) p.save_list(connects[:]) p.wb.save('book.xlsx') if __name__=='__main__': spider = Book() spider.run()

python爬虫爬取有地方出错了?

本人新手小白,在看了 慕课老师课程后写了尝试爬取静态股票信息。网站是对的,spider上也没报错。 就是没出结果,也没发现保存文档。求大佬指正。 代码如下: ``` import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url, code="utf-8"): try: r = requests.get(url) r.raise_for_status() r.encoding = code return r.text except: return "" def getStockList(lst, stockURL): html = getHTMLText(stockURL, "GB2312") soup = BeautifulSoup(html, 'html.parser') a = soup.find_all('a') for i in a: try: href = i.attrs['href'] lst.append(re.findall(r"[s][hz]\d{6}", href)[0]) except: continue def getStockInfo(lst, stockURL, fpath): count = 0 for stock in lst: url = stockURL + stock + ".html" html = getHTMLText(url) try: if html=="": continue infoDict = {} soup = BeautifulSoup(html, 'html.parser') stockInfo = soup.find('div',attrs={'class':'stock-bets'}) name = stockInfo.find_all(attrs={'class':'bets-name'})[0] infoDict.update({'股票名称': name.text.split()[0]}) keyList = stockInfo.find_all('dt') valueList = stockInfo.find_all('dd') for i in range(len(keyList)): key = keyList[i].text val = valueList[i].text infoDict[key] = val with open(fpath, 'a', encoding='utf-8') as f: f.write( str(infoDict) + '\n' ) count = count + 1 print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="") except: count = count + 1 print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="") continue def main(): stock_list_url = 'https://quote.eastmoney.com/stock_list.html' stock_info_url = 'https://gupiao.baidu.com/stock/' output_file = 'C:/BaiduStockInfo.txt' slist=[] getStockList(slist, stock_list_url) getStockInfo(slist, stock_info_url, output_file) main() ```

爬取动态页面模拟登录

使用webmagic_selenium爬取动态页面,添加cookie报错,说是cookie域不一致,然后我给每个cookie加了一个domain没有报错但是没有爬取到所需页面

爬虫抓取百度链接返回数量不够

爬虫初学者一枚,用java的webmagic框架抓取百度搜索结果,利用servlet传要搜索的关键字,做好了解析和相关的流程调度工作。 现在要爬取百度前10页返回的信息,每页有10条,期望返回100条信息,但是每次只返回90条左右,不知道为什么会有链接丢失。望大神解答,关键代码如下: ``` public void processWithException(Page page) throws MalformedURLException { Html html = page.getHtml(); if(page.getRequest().getUrl().endsWith("&pn=0&ie=utf8")){ name = (String)page.getRequest().getExtra("name"); List<String> pag = html.xpath("//div[@id='page']/a/@href").all(); if(html.xpath("//div[@id='page']/a/@href").toString()!=null){ if(html.xpath("//div[@id='page']/a/@href").all().size()>=5){ for(int i=0;i<9;i++){ String pagination = pag.get(i); page.addTargetRequest(pagination); } } else { for(int i=0;i<html.xpath("//div[@id='page']/a/@href").all().size();i++){ String pagination = pag.get(i); page.addTargetRequest(pagination); } } } String eqid = StringUtils.substringBetween(page.getHtml().toString(),"bds.comm.eqid = \"","\";"); List<String> url = html.xpath("//div[@class='c-container']/h3/a/@href").all(); for(int i=0;i<url.size();i++){ String url_temp = url.get(i).replace("http","https")+"&wd=&eqid="+eqid; page.addTargetRequest(url_temp); } } else if(page.getRequest().getUrl().startsWith("http://www.baidu.com/s?wd=")){ String eqid = StringUtils.substringBetween(page.getHtml().toString(),"bds.comm.eqid = \"","\";"); List<String> url = html.xpath("//div[@class='c-container']/h3/a/@href").all(); for(int i=0;i<url.size();i++){ String url_temp = url.get(i).replace("http","https")+"&wd=&eqid="+eqid; page.addTargetRequest(url_temp); } } else if(page.getRequest().getUrl().startsWith("https://www.baidu.com/link")){ String url_real = StringUtils.substringBetween(page.getHtml().toString(),"URL=\'","\'"); page.addTargetRequest(url_real); } else if(!page.getRequest().getUrl().startsWith("http://www.baidu.com/s?wd=")&& !page.getRequest().getUrl().startsWith("https://www.baidu.com/link")){ Baidu_FilterUtils baiduFilterUtils = new Baidu_FilterUtils(); baiduFilterUtils.BaiduPassKeyWord(page,name,programList); baiduFilterUtils.BaiduContainWebsites(page,name,programList_websites); baiduFilterUtils.BaiduContainDownload(page,name,programList_download); baiduFilterUtils.BaiduContainsPass(page,name,programList_pass); } } ```

怎么获取这个iframe里面的这个div的值啊?写了好多语句都不行。。。哪位大神解惑啊?

![图片说明](https://img-ask.csdn.net/upload/201608/08/1470637771_995749.png)

python scrapy 爬虫图片新手求助

求问大神 我这个data她怎么了 报错: 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: meizitu) 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 22:22:05) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.17763-SP0 2020-02-07 09:24:55 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'meizitu', 'NEWSPIDER_MODULE': 'meizitu.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['meizitu.spiders']} 2020-02-07 09:24:55 [scrapy.extensions.telnet] INFO: Telnet Password: 0936097982b9bcc8 2020-02-07 09:24:55 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] Unhandled error in Deferred: 2020-02-07 09:24:56 [twisted] CRITICAL: Unhandled error in Deferred: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 184, in crawl return self._crawl(crawler, *args, **kwargs) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 188, in _crawl d = crawler.crawl(*args, **kwargs) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1613, in unwindGenerator return _cancellableInlineCallbacks(gen) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1529, in _cancellableInlineCallbacks _inlineCallbacks(None, g, status) --- <exception caught here> --- File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed builtins.SyntaxError: unexpected EOF while parsing (pipelines.py, line 22) 2020-02-07 09:24:56 [twisted] CRITICAL: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed File "E:\python_work\爬虫\meizitu\meizitu\pipelines.py", line 22 f.write(data) ^ SyntaxError: unexpected EOF while parsing 代码如下: pipeline ``` import requests class MeizituPipeline(object): def process_item(self, item, spider): print("main_title:",item['main_title']) print("main_image:", item['main_image']) print("main_tags:", item['main_tags']) print("main_meta:", item['main_meta']) print("page:", item['main_pagenavi']) url = requests.get(item['main_image']) print(url) try: with open(item['main_pagenavi'] +'.jpg','wb') as f: data = url.read() f.write(data) ``` image.py ``` import scrapy from scrapy.http import response from ..items import MeizituItem class ImageSpider(scrapy.Spider): #定义Spider的名字scrapy crawl meiaitu name = 'SpiderMain' #允许爬虫的域名 allowed_domains = ['www.mzitu.com/203554'] #爬取的首页列表 start_urls = ['https://www.mzitu.com/203554'] #负责提取response的信息 #response代表下载器从start_urls中的url的到的回应 #提取的信息 def parse(self,response): #遍历所有节点 for Main in response.xpath('//div[@class = "main"]'): item = MeizituItem() #匹配所有节点元素/html/body/div[2]/div[1]/div[3]/p/a content = Main.xpath('//div[@class = "content"]') item['main_title'] = content.xpath('./h2/text()') item['main_image'] = content.xpath('./div[@class="main-image"]/p/a/img') item['main_meta'] = content.xpath('./div[@class="main-meta"]/span/text()').extract() item['main_tags'] = content.xpath('./div[@class="main-tags"]/a/text()').extract() item['main_pagenavi'] = content.xpath('./div[@class="main_pagenavi"]/span/text()').extract_first() yield item new_links = response.xpath('.//div[@class="pagenavi"]/a/@href').extract() new_link =new_links[-1] yield scrapy.Request(new_link,callback=self.parse) ``` setting ``` BOT_NAME = 'meizitu' SPIDER_MODULES = ['meizitu.spiders'] NEWSPIDER_MODULE = 'meizitu.spiders' ROBOTSTXT_OBEY = True #配置默认请求头 DEFAULT_REQUEST_HEADERS = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36", 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' } ITEM_PIPELINES = { 'meizitu.pipelines.MeizituPipeline':300, } IMAGES_STORE = 'E:\python_work\爬虫\meizitu' IMAGES_MIN_HEIGHT = 1050 IMAGES_MIN_WIDTH = 700 ```

求助 Python for循环中局部变量出错

就是写了一个爬虫,一直调用一个函数扣数据,其中用到for循环,运行次数少的时候,代码是没问题的,到了1000次以上,就提示我recruitInformation和companyInformation局部变量的范围有问题,就是和全局变量在函数里错当局部变量的错误一样,错误提示我忘留下了。下面是代码。 ``` def get_one_data(soup0,url0): global T,F,recruitInformation,companyInformation #扣取招聘标题title title0 = soup0.select('.inner-left > h1:nth-of-type(1)') for tt in title0: title = tt.get_text() # print(title) #扣取招聘公司company company0 = soup0.select('body > div.terminalpage.clearfix > div.terminalpage-right > div.company-box > p > a') for co in company0: company = co.get_text() # print(company) #扣取职位福利 welfare0 = soup0.select('.welfare-tab-box') for ww in welfare0: welfare = list(ww.stripped_strings) # print(welfare) #扣取招聘信息 recruitInformation0 = soup0.select('body > div.terminalpage.clearfix > div.terminalpage-left > ul') for re in recruitInformation0: recruitInformation = list(re.stripped_strings) dd="" #临时存储其中一个信息 i=0 #控制list中的个数 dao=[] #塞进整个招聘信息 m=1 #在recruitInformation的长度为17时,控制信息个数,总共8个 if(len(recruitInformation)==16): for d in recruitInformation: if i < 2: dd = dd + d i = i + 1 else: dao.append(dd) # print(dd) dd = d i = 1 dao.append(dd) # print(dao) else: for d in recruitInformation: if m==2: if i<3: dd=dd+d i=i+1 else: dao.append(dd) m=m+1 dd=d i=1 continue if i<2: dd=dd+d i=i+1 else: dao.append(dd) m=m+1 dd=d i=1 dao.append(dd) # print(dao) #扣取职位描述 positionDescribe0=soup0.select('body > div.terminalpage.clearfix > div.terminalpage-left > div.terminalpage-main.clearfix > div > div:nth-of-type(1)') for po in positionDescribe0: positionDescribe = po.get_text() # print(positionDescribe) #扣取公司基本信息 companyInformation0=soup0.select('body > div.terminalpage.clearfix > div.terminalpage-right > div.company-box > ul') for ci in companyInformation0: companyInformation = list(ci.stripped_strings) cidd = "" #临时存储其中一个信息 i = 0 #控制list中的个数 cidao = [] #塞进整个公司基本信息 for d1 in companyInformation: if i < 2: cidd = cidd + d1 i = i + 1 else: cidao.append(cidd) # print(dd) cidd = d1 i = 1 cidao.append(cidd) # print(cidao) #扣取公司简介 allData = { "url": url0, "title": title, "company": company, "welfare": welfare, "recuritInformation": dao, "positionDescribe": positionDescribe.replace(" ", ""), "companyInformation": cidao, "companyIntroduction": "none" } print("抽取数据正常") m=inputData(allData,dd) print("存取数据可进行") if m==1: T=T+1 else: F=F+1 print("成功了"+str(T)+"个,失败了"+str(F)+"个") ``` 将recruitInformation和companyInformation注明global是试试能不能解决问题,一开始只是加了recruitInformation,后来提示了companyInformation也出错。我加了companyInformation后正在跑跑看。

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Intellij IDEA 实用插件安利

1. 前言从2020 年 JVM 生态报告解读 可以看出Intellij IDEA 目前已经稳坐 Java IDE 头把交椅。而且统计得出付费用户已经超过了八成(国外统计)。IDEA 的...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

魂迁光刻,梦绕芯片,中芯国际终获ASML大型光刻机

据羊城晚报报道,近日中芯国际从荷兰进口的一台大型光刻机,顺利通过深圳出口加工区场站两道闸口进入厂区,中芯国际发表公告称该光刻机并非此前盛传的EUV光刻机,主要用于企业复工复产后的生产线扩容。 我们知道EUV主要用于7nm及以下制程的芯片制造,光刻机作为集成电路制造中最关键的设备,对芯片制作工艺有着决定性的影响,被誉为“超精密制造技术皇冠上的明珠”,根据之前中芯国际的公报,目...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

Python爬虫,高清美图我全都要(彼岸桌面壁纸)

爬取彼岸桌面网站较为简单,用到了requests、lxml、Beautiful Soup4

差点跪了...

最近微信又搞出了一个大利器,甚至都上了热搜,当然消息最敏捷的自媒体人,纷纷都开通了自己的视频号。01 视频号是什么呢?视频号是微信体系内的短视频,它不同...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

Vue回炉重造之router路由(更新中)

你好,我是Vam的金豆之路,可以叫我豆哥。2019年年度博客之星、技术领域博客专家。主要领域:前端开发。我的微信是 maomin9761,有什么疑问可以加我哦,自己创建了一个微信技术交流群,可以加我邀请你一起交流学习。最后自己也创建了一个微信公众号,里面的文章是我自己精挑细选的文章,主要介绍各种IT新技术。欢迎关注哦,微信搜索:臻美IT,等你来。 欢迎阅读本博文,本博文主要讲述【】,文字通...

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

Java岗开发3年,公司临时抽查算法,离职后这几题我记一辈子

前几天我们公司做了一件蠢事,非常非常愚蠢的事情。我原以为从学校出来之后,除了找工作有测试外,不会有任何与考试有关的事儿。 但是,天有不测风云,公司技术总监、人事总监两位大佬突然降临到我们事业线,叫上我老大,给我们组织了一场别开生面的“考试”。 那是一个风和日丽的下午,我翘着二郎腿,左手端着一杯卡布奇诺,右手抓着我的罗技鼠标,滚动着轮轴,穿梭在头条热点之间。 “淡黄的长裙~蓬松的头发...

大胆预测下未来5年的Web开发

在2019年的ReactiveConf 上,《Elm in Action》的作者Richard Feldman对未来5年Web开发的发展做了预测,很有意思,分享给大家。如果你有机会从头...

大牛都会用的IDEA调试技巧!!!

导读 前天面试了一个985高校的实习生,问了他平时用什么开发工具,他想也没想的说IDEA,于是我抛砖引玉的问了一下IDEA的调试用过吧,你说说怎么设置断点...

立即提问
相关内容推荐