关于python,xpath采集过微博数据的问题 10C

微博数据节点很深(多层),感觉xpath无法定位采集数据啊!求python-xpath采集过微博数据的大神指导一下。给我举个例子。例如:采集微博的发表的时间
把代码放在答案里。谢谢了!大神

2个回答

先要找到你关心的数据特点,比如独特detag或者id值等。这样xpath可以直接定位节点。
如果还有不清楚,可以贴出拿到的层次xml数据看看。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python xpath 如何定位红框内的内容?该内容经常变化
![图片说明](https://img-ask.csdn.net/upload/202001/20/1579493400_877813.png) python xpath 如何定位红框内的内容?标签内容20201171355000531431经常变化
Xpath爬虫获取数据不完整
尝试学习Xpath爬虫,通过Xpath helper获得数据99条,其中最后一条为“$PORT”,如图 ![图片说明](https://img-ask.csdn.net/upload/202001/15/1579057925_476322.png) 代码如下,使用这个Xpath路径只能返回"$PORT",其他98条数据没了....... ``` import requests import csv from lxml import etree url = 'https://www.msccruisesusa.com/webapp/wcs/stores/servlet/MSC_SearchCruiseManagerRedirectCmd?storeId=12264&langId=-1004&catalogId=10001&monthsResult=&areaFilter=MED%40NOR%40&embarkFilter=&lengthFilter=&departureFrom=01.11.2020&departureTo=04.11.2020&ships=&category=&onlyAvailableCruises=true&packageTrf=false&packageTpt=false&packageCrol=false&packageCrfl=false&noAdults=2&noChildren=0&noJChildren=0&noInfant=0&dealsInput=false&tripSpecificationPanel=true&shipPreferencesPanel=false&dealsPanel=false' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'} source = requests.get(url,headers=headers).content.decode('UTF-8') html = etree.HTML(source) portList = html.xpath('//*[@class="cr-city-name"]') for port in portList: print(port.xpath('string()')) ``` 求各位大神搭救,不知道是哪里出了问题......网上遍寻不到相似的情况
求助网页采集的Xpath问题
我想采集到下面这个黄色格子里的内容.但是网页上面这2行是相当于1行的. 内容是:<td><span class="bd_btm">9</span>13</td> 我用xpath://table[@class='pub_table']/tbody[1]/tr[2]/td[4]采集出来是913, 试了N次,都不能单独的采集出来13. 我只想采集13,这个应该怎么弄啊? 这个是网址:http://odds.500.com/fenxi/bifen-869554.shtml 就是 表格左上角的 9 和13 ![图片说明](https://img-ask.csdn.net/upload/201910/30/1572411178_862485.jpg)
python爬虫xpath选择多个属性
python爬虫我需要获取商品的产地, tree.xpath( "//div[@class='p-parameter']/ul[@class='parameter2 p-parameter-list']/li[4]/text()") 这样写是没问题的,但是如果到了下一个产品,产地就可能不是在第四个位置了,可能在第三个位置了,所以按照这个xpath写法,获取的可能就不是产地了,这要如何解决呢?而且这个title会根据商品的不同一直变化的 目前我想到的可能的解决方案: 1.我查了半天,看下xpath能否支持通配符的匹配。 tree.xpath( "//div[@class='p-parameter']/ul[@class='parameter2 p-parameter-list']/li[@title='*省*]/text()") 以上操作不行,本意是为了让xpath查找所有的title里是否有包含‘省’的title,如果有,就提取text()文件 2.更笨的办法,把所有的省市都列举出来,用“|”符号,这样实在太麻烦了,而且我不知道到底有多少个省市 所以想问下有没有其他的解决方法? Python
Python爬虫抓取信息存储到excel表格后,怎么实行数据可视化
我用python爬去了起点中文网的一些信息,并且存储到excel中,现在想要实现数据可视化怎么写应该 import requests from lxml import etree from openpyxl import Workbook class Book(): def __init__(p): p.url = 'https://www.qidian.com/rank/hotsales?page={页数}' p.wb = Workbook() # class实例化 p.ws = p.wb.active # 激活工具表 p.ws.append(['书名', '作者', '类型', '连载状态']) # 添加对应的表头 def geturl(p): url = [p.url.format(页数 =i) for i in range(1,15)] return url def parse_url(p,url): response =requests.get(url,timeout = 5) return response.content.decode('utf-8','ignore') def get_list(p,html_str): html = etree.HTML(html_str) connect_list = [] lists = html.xpath("//div[@class='book-img-text']/ul/li//div[@class='book-mid-info']") for list in lists: item = {} item['书名'] = ''.join(list.xpath("./h4/a/text()")) item['作者'] = ''.join(list.xpath("./p[@class='author']/a[1]/text()")) item['类型'] = ''.join(list.xpath("./p[@class='author']/a[2]/text()")) item['连载状态'] = ''.join(list.xpath("./p[@class='author']/span/text()")) connect_list.append(item) return connect_list def save_list(p, connects): for connect in connects: p.ws.append([connect['书名'], connect['作者'], connect['类型'], connect['连载状态']]) print('保存小说信息成功') def run(p): url_list = p.geturl() for url in url_list: html_url =p.parse_url(url) connects = p.get_list(html_url) p.save_list(connects[:]) p.wb.save('book.xlsx') if __name__=='__main__': spider = Book() spider.run()
如何用python定位button,除去xpath这种方法
如何用python定位button,除去xpath这种方法 代码如下 <div data-v-5bf1fcb3="" class="b50-btn"><button data-v-5bf1fcb3="" type="button" class="el-button segma-s secondary el-button--primary"><!----><!----><span> 下载 </span></button></div>
Python+XPath网页爬虫问题
我希望制作百度贴吧的一个小爬虫,爬取内容包括一个帖子中的发帖人、发帖内容,测试网页为https://tieba.baidu.com/p/3905531791,爬取1-5页的内容,代码如下: ``` # -*- coding:utf-8 -*- from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import re # import json import sys reload(sys) sys.setdefaultencoding('utf-8') def write(content): f.writelines(u'回帖人:'+str(content['user_name'])+'\n') f.writelines(u'回帖内容:'+unicode(content['content'])+'\n') def spider(url): html = requests.get(url) # print html.text selector = etree.HTML(html.text) content_field = selector.xpath('//div[@class="l_post l_post_bright j_l_post clearfix "]') item = {} for each in content_field: print content_field[0] print each author = each.xpath('//*/li[@class="d_name"]/a/text()')[0] content = each.xpath('//*/div[@class="p_content "]/cc/div/text()')[0] num = each.xpath('//*/div[@class="post-tail-wrap"]/span[@class="tail-info"]/text()') print content print author item['user_name'] = author item['content'] = content write(item)** if __name__ == '__main__': pool = ThreadPool(4) f = open('content.txt','w') page=[] for i in range(1,6): newpage = 'https://tieba.baidu.com/p/3905531791?pn=' + str(i) page.append(newpage) results = pool.map(spider,page) pool.close() pool.join() f.close() ``` 但问题出现在,每次for循环中提取的信息都一样,每一页的发帖人和发帖内容都一样 如下: 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:末日灬圣帝君王 回帖内容: 这个支持一下 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 回帖人:lis945945 回帖内容: 马克一下。 不知道哪里出了问题。。。
初学python,爬取京东商品数据时无法获取内容
1. import requests from lxml import html def spider_JD(sn): url = 'https://search.jd.com/Search?keyword={0}'.format(sn) html_doc=requests.get(url).text selector=html.fromstring(html_doc) ul_list2=selector.xpath('//div[@id="J_goodsList"]/ul/li') print(len(ul_list2)) if __name__=='__main__': spider_JD('9787115428028') ![图片说明](https://img-ask.csdn.net/upload/201912/27/1577456020_646079.png) 如图所示 可以看到很多li 但上述代码运行显示为0
C#,使用xpath 无法采集网页内容
采集网址:https://www.taoguba.com.cn/Article/2523033/1 需采集内容: ![图片说明](https://img-ask.csdn.net/upload/201907/14/1563070579_955522.jpg) 使用HtmlAgilityPack 时间xpath: 1、/html/body//span[contains(concat(' ', normalize-space(@class), ' '),' p_tatime ')] 2、//*[@id='new_wrap_container']/DIV[1]/DIV[2]/SPAN[2] 3、//SPAN[@class='p_tatime'] 用上述xpath使用谷歌浏览器的xpath helper插件都可以采集到信息,但C#采集到的html都无法采集到时间。 请问哪位可以给个demo,C#实现的,能采集到标红的时间及文字内容
webdriver 无法定位元素(python)
使用python运行webdriver时无法定位到查看详情元素。 我试图使用webdriver点击网页中的查看详情链接,但无法找到元素。 已经试过的方法:find_element_by_link_text; find_element_by_xpath; find_element_by_partial_link_text... ps: 没有在html文件中找到frame关键词。 ![图片说明](https://img-ask.csdn.net/upload/201912/23/1577088625_204504.png) ![图片说明](https://img-ask.csdn.net/upload/201912/23/1577088635_48885.png) ![图片说明](https://img-ask.csdn.net/upload/201912/23/1577088645_878890.png)
【python】[数据抽取]简历文档 分句及判断入键?
如: 工作经验2013 /4--至今:上海通方有限公司(50-150人) [ 1 年11个月] 所属行业:互联网/电子商务研发部软件工程师外包到平安金科,开发彩票网站,平安好彩。http://caipiao.wanlitong.com我是在数字彩组,主要负责数字彩的购彩、返彩模块、数字彩活动联调接口以及部分跑批接口编写。期间也被掉到web app组,从事web app的开发。在这里接触到了项目由产生到结束的正规流程,认识到各个部门的合作之重要,积极处理产品和测试提出的问题,满足他们的需求同时提升自己的综合能力。2011 /9--2013 /4:中硕集团(150-500人) [ 1 年7个月] 所属行业:计算机软件技术部PHP程序员主要做公司所需网站。还有dedecms二次开发的管理系统。以下为dedecms制作的 简单的医疗网站:http://www.kkebh.com/ http://www.tjcg120.com/http://www.wzwgyy.com/index.htmlhttp://www.cccg120.com/http://www.hljcgebh.com/2011 /2--2011 /9:上海仁缘数码科技有限公司(50-150人) [ 7个月] 所属行业:计算机软件技术部PHP程序员参与开发了CRM客户关系管理系统。还有一个小型的WDM系统。还有一个公司网站。网站网址:http://www.luxuriant.cn/CRM网址:http://crm.luxhunter.com/WDM网址:wdm.luxhunter.com通过这个项目,对面向对象,已经mvc有了进一步的了解 如何才能将这些分离出来: 2013 /4--至今 上海通方有限公司 50-150人 互联网/电子商务 研发部 软件工程师 外包到平安金科,开发彩票网站,平安好彩。http://caipiao.wanlitong.com我是在数字彩组,主要负责数字彩的购彩、返彩模块、数字彩活动联调接口以及部分跑批接口编写。期间也被掉到web app组,从事web app的开发。在这里接触到了项目由产生到结束的正规流程,认识到各个部门的合作之重要,积极处理产品和测试提出的问题,满足他们的需求同时提升自己的综合能力。2011 /9--2013 /4:中硕集团(150-500人) [ 1 年7个月] 所属行业:计算机软件技术部PHP程序员主要做公司所需网站。还有dedecms二次开发的管理系统。以下为dedecms制作的 简单的医疗网站:http://www.kkebh.com/ 并将这对应到键值 2013 /4--至今 判断为工作时间 上海通方有限公司 判断为公司名称 50-150人 判断为公司规模 互联网/电子商务 判断为为公司行业 研发部 判断为部门 软件工程师 判断为职业 那一段 判断为工作内容 因为这些word都是不同的人自己写的,不太统一,不能用像xpath那样规则的方法去提取,所以我想到的是分局再判断录入(如果有更好方案欢迎指出),在这里,希望得到大神的指点,十分感谢!
Python2 xpath 层次关系 中间层数不定能不能通配
python 2.7.13, lxml是我命令行安装的应该就是最新了。 我想爬某个论坛里的动画种子,大体思路: (1)打开 [http://bbs.opfans.org/forum.php?mod=forumdisplay&fid=37](http://bbs.opfans.org/forum.php?mod=forumdisplay&fid=37 "") 会有1个表,读每项的链接。 ![图片说明](https://img-ask.csdn.net/upload/201711/28/1511857102_593298.png) (2)再打开每1项,进入寻找 torrent 的链接。 经观察,需要的链接是在 ignore_js_op 以下的 a 里,但是中间具体夹了几层不一定,外面的层次关系也不一定,所以我就寻找 ignore_js_op 。 ![图片说明](https://img-ask.csdn.net/upload/201711/28/1511857823_106500.png) ![图片说明](https://img-ask.csdn.net/upload/201711/28/1511857841_809267.png) 之前匹配不到的原因找到了,经实验发现1个通配符只能配1层。如果是中间层数不定的情况能不能通配? (对于这个例子我用的是contains()和and,参照[http://python.jobbole.com/84689/?utm_source=group.jobbole.com&utm_medium=relatedArticles](http://python.jobbole.com/84689/?utm_source=group.jobbole.com&utm_medium=relatedArticles "")) 代码: ``` # -*- coding:utf-8 -*- import urllib, re, urllib2, lxml from lxml import etree ''' Download ONE PIECE torrent. ''' def getHtml(url): page = urllib.urlopen(url) html = page.read().decode('gbk') #print page.info() page.close() return html HostName = r'http://bbs.opfans.org/' Html1 = getHtml(HostName + r"forum.php?mod=forumdisplay&fid=37") Xpath1 = r'//body/div/div/div/div/div/div/form/table/tbody/tr/th/a/@href' Xpath2 = r'//ignore_js_op/*/a[@href]' Content1 = etree.HTML(Html1).xpath(Xpath1) for Line1 in Content1: if re.match(r'forum\.php.+', Line1): NewLink = HostName + Line1 print NewLink Html2 = getHtml(NewLink) Content2 = etree.HTML(Html2).xpath(Xpath2) for Line2 in Content2: print HostName + Line2.xpath(r'./@href')[0] print Line2.xpath(r'./text()')[0] ``` 结果: ``` http://bbs.opfans.org/forum.php?mod=viewthread&tid=93&extra=page%3D1 http://bbs.opfans.org/forum.php?mod=viewthread&tid=39&extra=page%3D1 http://bbs.opfans.org/forum.php?mod=viewthread&tid=3939&extra=page%3D1 http://bbs.opfans.org/forum.php?mod=attachment&aid=MjYwMXxlNWUyZjMwZHwxNTExODU1ODA3fDB8MzkzOQ%3D%3D [OPFansMaplesnow][One_Piece][815][MP4].torrent http://bbs.opfans.org/forum.php?mod=redirect&tid=3939&goto=lastpost#lastpost http://bbs.opfans.org/forum.php?mod=viewthread&tid=3938&extra=page%3D1 http://bbs.opfans.org/forum.php?mod=redirect&tid=3938&goto=lastpost#lastpost http://bbs.opfans.org/forum.php?mod=viewthread&tid=3936&extra=page%3D1 http://bbs.opfans.org/forum.php?mod=attachment&aid=MjU5OXxlYmNlYzc3ZXwxNTExODU1ODA3fDB8MzkzNg%3D%3D [OPFansMaplesnow][One_Piece][814][MP4].torrent http://bbs.opfans.org/forum.php?mod=viewthread&tid=3935&extra=page%3D1 ```
pycharm工具中,使用xpath定位元素的时候报错是怎么回事?
![图片说明](https://img-ask.csdn.net/upload/202001/07/1578410473_110128.png) ![图片说明](https://img-ask.csdn.net/upload/202001/07/1578410321_550460.png)
渣渣请教python爬虫xpath问题
各位大神,小弟我最近爬取闲鱼商品的时候出现个问题: 这个是网页源码截图,我想爬取里面这个赞数: ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950224_39834.jpg) 网页链接:https://2.taobao.com/item.htm?id=538626368021 下面是我的源码: ``` #! /usr/bin/env python #coding=utf-8 import urllib from bs4 import BeautifulSoup import re from lxml import etree """ https://s.2.taobao.com/list/list.htm?\ spm=2007.1000337.0.0.WOjjAq&st_trust=1&page=3&q=%C0%D6%B8%DF&ist=0 """ def get_html(page=1, q="lego"): """获取商品列表页源代码,返回源代码content""" params = { "spm":"2007.1000337.0.0.WOjjAq", "st_trust":"1", "page":page, "q":q, "ist":"0" } info = urllib.urlencode(params) url = "https://s.2.taobao.com/list/list.htm?" + info html = urllib.urlopen(url) content = html.read() html.close() return content def get_url(content): """从商品列表页源代码中获取商品页url,返回url的列表""" soup = BeautifulSoup(content, "lxml") div_box = soup.find_all('div', class_='item-info') url_list = [] for div in div_box: url=div.find('h4', class_='item-title').a['href'] url_c = "https:" + url url_list.append(url_c) return url_list def get_product(url): html = urllib.urlopen(url) content = html.read() html.close() content1 = content.decode('gbk').encode('utf-8') rempat = re.compile('&') content1 = re.sub(rempat,'&amp;',content1) root = etree.fromstring(content1) zan = root.xpath('.//div[@id="J_AddFav"]/em/text()]') return zan if __name__ == '__main__': content = get_html(1,"lego") url_list = get_url(content) url1 = url_list[1] print url1 print get_product(url1) ``` 问题出现在这里: ``` root = etree.fromstring(content1) ``` ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950415_793148.jpg) 除了将&替换成&amp;外没有对网页源码进行改动,不知为何源码会报错…… 谢谢各位大神了,我是技术渣(我是学化学的……最近工作需要,拿闲鱼来练手,结果卡在这里一天了)
请问以下爬虫程序错在哪里,爬取到的数据存不进MQSQL数据库
1、请问以下爬虫程序错在哪里,爬取到的数据存不进MQSQL数据库,我在MYSQL里面已经建立了数据表: ``` mysql> CREATE TABLE `VERSION`( -> `index` INT, -> `code` INT, -> `name` VARCHAR(20) -> )ENGINE=InnoDB DEFAULT CHARSET=UTF8MB4; ``` 2、全部代码如下 ``` import requests from lxml import etree import pymysql import re class GovementSpider(object): def __init__(self): self.one_url = 'http://www.mca.gov.cn/article/sj/xzqh/2019/' self.headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36" } self.db = pymysql.connect('localhost', '***', ***', 'reptile_db', charset='utf8') self.cursor = self.db.cursor() # 提取二级页面链接(假链接) def get_false_link(self): html = requests.get(url=self.one_url, headers=self.headers).content.decode('utf-8', 'ignore') parse_html = etree.HTML(html) # xpath://a[@class='artitlelist'] r_list = parse_html.xpath("//a[@class='artitlelist']") for r in r_list: # 或者这么找title属性值 # title = r.get('title') title = r.xpath("./@title")[0] # 利用正则找到第一个自己需要的title里面的地址(第一个一般都是最新的) if re.findall(r'.*?中华人民共和国县以上行政区划代码.*?', title, re.RegexFlag.S): # 获取到第1个就停止即可,第1个永远是最新的链接 two_link = 'http://www.mca.gov.cn' + r.xpath('./@href')[0] return two_link # 提取真是的二级页面链接(返回数据的链接) def get_true_link(self): two_false_link = self.get_false_link() html = requests.get(url=two_false_link, headers=self.headers).text pattern = re.compile(r'window.location.href="(.*?)"', re.RegexFlag.S) real_link = pattern.findall(html)[0] self.get_data(real_link) # 真正提取数据函数 def get_data(self, real_link): html = requests.get(url=real_link, headers=self.headers).text # 基本xpath: //tr[@height="19"] parse_html = etree.HTML(html) tr_list = parse_html.xpath('//tr[@height="19"]') k=0 index=[] for tr in tr_list: # code: ./td[2]/text() code = tr.xpath('./td[2]/text()')[0] # name: ./td[3]/text() name = tr.xpath('./td[3]/text()')[0] print(code, name) k+=1 index.append(k) self.save_sql(index,code,name) def save_sql(self,index,code,name): n=0 for index in index: code=code[n].strip() name=name[n].strip() self.cursor.execute("insert into version(index,code,name) values (%s,%s,%s)",(index,code,name)) self.db.commit() n+=1; # 主函数 def main(self): self.get_true_link() self.cursor.close() self.db.close() if __name__ == "__main__": spider = GovementSpider() spider.main() ``` 3、数据能够爬取到,但存不进数据库,提示以下错误: pymysql.err.ProgrammingError: (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'index,code,name) values (1,'8','澳')' at line 1")
python 使用selector.xpath来爬取天猫数据,爬不了月销量
如题:我使用selector.xpath('//*[@class="tm-count"]/text()') 来爬的时候,会爬到最下方的128 我想要爬到11278这个数据 这个selector.xpath('')应该怎么写呢 ![图片说明](https://img-ask.csdn.net/upload/201812/13/1544694076_145500.jpg)
python爬取网站时抓不到网站源代码?
爬取这个网站时:http://www.mafengwo.cn/poi/18972.html,抓取不到网站源代码,网页查看时有,但是python get不到,soup、xpath都查不到,请问是什么问题,怎么爬取呢? ![图片说明](https://img-ask.csdn.net/upload/201911/20/1574255960_94982.png)
python scrapy 爬取多页合并问题
scrapy学习有几个月了,普通scrapy和crawl都能够实现,现在碰到一个问题: 在使用scrapy爬取多分页后,如何把多分页内容合并写入到一个item[x]内? 我现在使用 yield Request 至 def art_url 来获取分页内容,用append把内容集合后,用 item['image_urls'] = self.art_urls 来接收结果, 但结果一直接收,每篇内容的分页的接收导致很多,请教一下,如何把每篇的分页内容合并写入一项itme? 刚学不到半年,代码凌乱,望包含,主要是想学习如何爬取小说站,把每一章都合并在一起,不要分页搞很多数据,和合适代码推荐下,研究学习,谢谢了 我的代码: ``` art_urls = [] rules = ( Rule(LinkExtractor(allow='wenzhang/',restrict_xpaths=('//table[@id="dlNews"]')), callback='parse_item', follow=True), ) def parse_item(self, response): print(response.url) item = SpiderItem() conn = Redis(host='127.0.0.1', port=6379) item['title'] = response.xpath('//h1/text()').extract_first() ex = conn.sadd('movies_url', response.url) for next_href in response.xpath('//div[@class="pager"]/ul/li/a/@href').extract(): next_url = self.base_url + next_href.replace('../','') if ex == 1: # print('开始解析单页') yield Request(next_url, callback=self.art_url) # yield scrapy.Request(url=next_url, callback=self.parse_detail, meta={'title': title,'img_src':img_src}) else: print("无数据更新!!!") # print(self.art_urls) item['image_urls'] = self.art_urls # print(len(item['image_urls'])) # print(item) yield item def art_url(self, response): art_urls = response.xpath('//div[@id="content"]/div/p/img/@src').extract() for art_url in art_urls: # 开始解析分页 art_url = art_url.replace('../../upload/','') self.art_urls.append(art_url) ```
python 使用unittest写脚本遇到的问题
![图片说明]![图片说明](https://img-ask.csdn.net/upload/201909/09/1567998684_245139.png) 如图所示的代码,会报错 AttributeError: 'TestKS' object has no attribute 'find_element_by_xpath' 但是如果将test_A的代码写到setUp那里,就不会如此了 请问,我应该怎么修改
Kafka实战(三) - Kafka的自我修养与定位
Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform) Kafka是LinkedIn公司内部孵化的项目。LinkedIn最开始有强烈的数据强实时处理方面的需求,其内部的诸多子系统要执行多种类型的数据处理与分析,主要包括业务系统和应用程序性能监控,以及用户行为数据处理等。 遇到的主要问题: 数据正确性不足 数据的收集主要...
volatile 与 synchronize 详解
Java支持多个线程同时访问一个对象或者对象的成员变量,由于每个线程可以拥有这个变量的拷贝(虽然对象以及成员变量分配的内存是在共享内存中的,但是每个执行的线程还是可以拥有一份拷贝,这样做的目的是加速程序的执行,这是现代多核处理器的一个显著特性),所以程序在执行过程中,一个线程看到的变量并不一定是最新的。 volatile 关键字volatile可以用来修饰字段(成员变量),就是告知程序任何对该变量...
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
有哪些让程序员受益终生的建议
从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自由,如何在工作中游刃有余,这篇文章很长,但绝对是精品,记得帮我点赞哦!!!! 一腔肺腑之言,能看进去多少,就看你自己了!!! 目录: 在校生篇: 为什么要尽量进大厂? 如何选择语言及方...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
GitHub开源史上最大规模中文知识图谱
近日,一直致力于知识图谱研究的 OwnThink 平台在 Github 上开源了史上最大规模 1.4 亿中文知识图谱,其中数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用 csv 格式。 到目前为止,OwnThink 项目开放了对话机器人、知识图谱、语义理解、自然语言处理工具。知识图谱融合了两千五百多万的实体,拥有亿级别的实体属性关系,机器人采用了基于知识图谱的语义感...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
微信支付崩溃了,但是更让马化腾和张小龙崩溃的竟然是……
loonggg读完需要3分钟速读仅需1分钟事件还得还原到昨天晚上,10 月 29 日晚上 20:09-21:14 之间,微信支付发生故障,全国微信支付交易无法正常进行。然...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
刷了几千道算法题,这些我私藏的刷题网站都在这里了!
遥想当年,机缘巧合入了 ACM 的坑,周边巨擘林立,从此过上了"天天被虐似死狗"的生活… 然而我是谁,我可是死狗中的战斗鸡,智力不够那刷题来凑,开始了夜以继日哼哧哼哧刷题的日子,从此"读题与提交齐飞, AC 与 WA 一色 ",我惊喜的发现被题虐既刺激又有快感,那一刻我泪流满面。这么好的事儿作为一个正直的人绝不能自己独享,经过激烈的颅内斗争,我决定把我私藏的十几个 T 的,阿不,十几个刷题网...
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
YouTube排名第一的励志英文演讲《Dream(梦想)》
Idon’t know what that dream is that you have, I don't care how disappointing it might have been as you've been working toward that dream,but that dream that you’re holding in your mind, that it’s po...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
相关热词 c# clr dll c# 如何orm c# 固定大小的字符数组 c#框架设计 c# 删除数据库 c# 中文文字 图片转 c# 成员属性 接口 c#如何将程序封装 16进制负数转换 c# c#练手项目
立即提问