Python爬虫爬取的数据不全 5C

图片说明

 url='https://www.zhihu.com/people/yang-ze-yong-3/following'
 page=urllib.request.urlopen(url).read()
 soup=BeautifulSoup(page)
 items=soup.find_all('div',{'class':'List-item'})

结果只返回前3条List-item...新手求助

3个回答

这个页面的数据可能是ajax异步返回的,所以你需要用selenium等webdriver方式来抓取页面

还有的数据在最后面一个id为data的div里面。

部分数据

因为zhihu网页不是静态html页面,截图中的html代码是浏览器渲染后最终的代码,不是URL对应的原始html代码。
1.Chrome按F12,点击network。F5刷新页面,第1个URL对应的Response是原始html代码。分析它,重新修改python脚本。
2.使用phantomjs渲染后再获取html代码

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python爬虫,爬取百度百科python词条页面数据,是这个页面url的抓取不到还是其他原因?
![控制台信息](https://img-ask.csdn.net/upload/201712/07/1512637235_201308.png ![爬虫调度代码SpiderMain](https://img-ask.csdn.net/upload/201712/07/1512637414_534311.png) 1.URL管理器: class UrlManager (object): def __init__(self): self.new_urls = set() self.old_urls = set() def add_new_url(self, url): if url is None: return # 如果没有新的URL则不进行添加 if url not in self.new_urls and url not in self.old_urls: self.new_urls.add(url) def add_new_urls(self, urls): if urls is None or len(urls) == 0: return for url in urls: self.add_new_url(url) def get_new_url(self): return len(self.new_urls) != 0 def has_new_url(self): new_url = self.new_urls.pop() self.old_urls.add(new_url) return new_url 2.网页下载器: import urllib.request import urllib.response class HtmlDownloader(object): def download(self, url): if url is None: return None response = urllib.request.urlopen(url) if response.getcode() != 200: return None return response.read() 3.网页解析器: # coding:utf-8 from bs4 import BeautifulSoup import re import urllib.parse class HtmlParser(object): def parser(self, page_url, html_content): if page_url is None or html_content is None: return soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8') new_urls = self._get_new_urls(page_url, soup) new_data = self._get_new_data(page_url, soup) return new_urls, new_data def _get_new_urls(self, page_url, soup): new_urls = set() # links = soup.find_all('a', href=re.compile(r"/item/\d+\.htm")) links = soup.find_all('a', href=re.compile(r"/item/(.*)")) for link in links: new_url = link['href'] new_full_url = urllib.parse.urljoin(page_url, new_url) new_urls.add(new_url) return new_urls def _get_new_data(self, page_url, soup): res_data = {} # url res_data['url'] = page_url # 标题<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1><h2>(计算机程序设计语言)</h2> # 简介<div class="lemma-summary" label-module="lemmaSummary"> title_node = soup.find_all('dd', class_='lemmaWgt-lemmaTitle-title').find('h1') res_data['title'] = title_node.get_text() summary_node = soup.find_all('div', class_='lemma-summary') res_data['summmary'] = summary_node.get_text() return res_data 4.页面输出: class HtmlOutputer(object): def __init__(self): self.datas=[] def collectData(self, data): if data is None: return self.datas.append(data) def output_html(self): fout = open('output.html', 'w') fout.write("<html>") fout.write("<body>") fout.write("<table>") for data in self.datas: fout.write("<tr>") fout.write("<td>%s</td>" % (data['url']).encode('utf-8')) fout.write("<td>%s</td>" % (data['title']).encode('utf-8')) fout.write("<td>%s</td>" % (data['summary']).encode('utf-8')) fout.write("</tr>") fout.write("</table>") fout.write("</body>") fout.write("</html>") fout.close()
python爬虫爬取数据存储进数据库的问题
一直说我主键已存在,无法进行存储 我做的爬虫是csdn爬虫,针对于论坛一个版块,爬取某几页的所有帖子 我用的是flask-sqlalchemy来进行操作数据库,下面是三个需要用到的模型: ``` class Topic(db.Model): answer = relationship('Answer', backref='topic', lazy='dynamic') author_id = Column(String(30), ForeignKey('user.id')) id=Column(String(30),primary_key=True) title = Column(String(30)) author_name=Column(String(30)) create_time = Column('create_time', Integer) answer_nums=Column(Integer,default=0) content=Column(Text) click_nums=Column(String(30),default='0') parised_nums=Column(Integer,default=0) score=Column(Integer,default=0) status=Column(String(30)) jtl=Column(String(30),default='0.0') ``` **_上面是帖子模型,跟answer模型相关联,answer模型就是一个帖子内的所有回答,而同时author_id是作为外键跟user模型相关联 **_ ``` class Answer(db.Model): id=Column(String(30),primary_key=True) topic_name=Column(String(30)) author_name=Column(String(30)) author_id=Column(String(30)) content=Column(Text) create_time = Column('create_time', Integer) parised_nums=Column(Integer,default=0) topic_id=Column(String(30),ForeignKey('topic.id')) ``` 上面是针对每一个回答的模型 ``` class User(db.Model): topic=relationship('Topic',backref='user',lazy='dynamic') id=Column(String(30),primary_key=True) click_nums=Column(String(30),default='0') original_nums=Column(Integer,default=0) #原创数 forward_nums=Column(Integer,default=0) #转发数 rate=Column(Integer,default=-1) #排名 answer_nums=Column(Integer,default=0) #评论数 parised_nums=Column(Integer,default=0) #获赞数 desc=Column(Text) #描述 industry=Column(String(40)) #工作行业 location=Column(String(40)) follower_nums=Column(Integer,default=0) #粉丝数 following_nums=Column(Integer,default=0) #关注数 level=Column(Integer) ``` 上面就是用到的三大模型: 下面是进行存储数据的代码: ``` if page == 0: html = requests.get('https://bbs.csdn.net/forums/Mobile/recommend').text else: html=requests.get('https://bbs.csdn.net/forums/Mobile/recommend',params={'page':page}).text bsoj = BeautifulSoup(html, 'lxml') tags= bsoj.find('div', class_='forums_table_c').tbody.find_all('tr') ''' 爬取这一页的帖子,至于第几页根据传进来的page所定义 tags就是里面帖子的集合 ''' for tag in tags: status=self.get_status(tag) score=self.get_score(tag) answer_nums,click_nums=self.get_click_nums_and_answer_nums(tag) ''' 上面这三个是需要爬取的几个东西,不需要理会 ''' url='https://bbs.csdn.net'+self.get_url(tag) ''' 这个url就是每一个帖子的url ''' topic=Topic(url,score,status,click_nums,int(answer_nums)) topic_db = Topic_Model(topic) ''' 初始化topic,这个topic_db就是topic模型的对象 ''' user = User(topic.author_id) user_db = User_Model(user) ''' user就是user模型的对象 ''' self.onhand(url,topic,topic_db,user_db,user) def onhand(self,url,topic,topic_db,user_db,user): html=requests.get(url).text bsoj=BeautifulSoup(html,'lxml') tags=bsoj.find_all('div',class_='mod_topic_wrap post') answers=[] ''' 这一步是为了抓取一个帖子内所有的回答 ''' for tag in tags: answer=Answer(topic,tag) answer_db=Answer_Model(answer) answers.append(answer_db) ''' 抓取所有回答,并将每一个回答实例化一个Answer模型的对象 ''' topic_db.answer=answers ''' 关联数据库,将所有的answer对象都放在topic里面 ''' user_db.topic.append(topic_db) ''' user与topic关联 这里是有问题的,因为如果user已经存在再数据库里,那么就不会提交,那么这个topic增加就没意义了,但是我不知道如何解决 ''' if User_Model.query.filter_by(id=user.id).first() is None: db.session.add(user_db) db.session.commit() ''' 判断是否要存储到数据库里 ''' db.session.add(topic_db) db.session.commit() for data in answers: db.session.add(data) db.session.commit() ''' 将answer集合里的所有answer提交到数据库中 ''' ``` 下面是报错信息: ![图片说明](https://img-ask.csdn.net/upload/201904/22/1555936870_832821.png) 明明已经进行判断了,如果存在就不会进行存储,照样报错了,而且奇怪的是我debug时是这一句出现了错误: ``` db.session.add(topic_db) db.session.commit() ``` 不知道如何解决,求各位大佬帮忙
python爬虫爬取数据出新问题
![图片说明](https://img-ask.csdn.net/upload/201608/09/1470713681_256386.png) ![图片说明](https://img-ask.csdn.net/upload/201608/09/1470713707_413568.png) ![图片说明](https://img-ask.csdn.net/upload/201608/09/1470713717_307371.png) ![图片说明](https://img-ask.csdn.net/upload/201608/09/1470713727_916526.png) ![图片说明](https://img-ask.csdn.net/upload/201608/09/1470713738_642500.png) ![图片说明](https://img-ask.csdn.net/upload/201608/09/1470713748_330448.png) 所有的主演导演评分信息都无法爬取,这是为什么?
python爬虫scrapy爬取了数据无法写入json
用scrapy成功爬取了商品数据,但是到目录下却发现数据文件没有创建,郁闷。。pipelines文件代码如下 ``` import codecs import json class AutopjtPipeline(object): def _int_(self): self.file=codecs.open("77.json","wb",encoding="utf-8") def process_item(self, item, spider): for j in range(0,len(item["name"])): name = item["name"][j] price=item["price"][j] comnum = item["comnum"][j] link = item["link"][j] # 将当前页下第j个商品的name、price、comnum、link等信息处理一下,重新组合成一个字典 goods = {"name": name, "price": price, "comnum": comnum, "link": link} # 将组合后的当前页中第j个商品的数据写入json文件 i = json.dumps(dict(goods), ensure_ascii=False) line = i + '\n' self.file.write(line) # 返回item return item def close_spider(self,spider): self.file.close() ``` 同时报错 Traceback (most recent call last): File "c:\users\93422\appdata\local\programs\python\python35\lib\site-packages\twisted\internet\defer.py", line 654, in _runCallbacks current.result = callback(current.result, *args, **kw) File "C:\Users\93422\Desktop\python\autopjt\autopjt\pipelines.py", line 28, in close_spider self.file.close() AttributeError: 'AutopjtPipeline' object has no attribute 'file' items文件代码以及爬虫代码都基本没问题,爬虫代码如下 ```import scrapy from autopjt.items import AutopjtItem from scrapy.http import Request class AutospdSpider(scrapy.Spider): name = 'autospd' allowed_domains = ['dangdang.com'] start_urls = ['http://category.dangdang.com/pg1-cid4003872-srsort_sale_amt_desc.html' ] def parse(self, response): item=AutopjtItem() item['name']=response.xpath("//p[@class='name']/@title").extract() item['price']=response.xpath('//span[@class="price_n"]/text()').extract() item['link']=response.xpath('//p[@class="name"]/@href').extract() item['comnum']=response.xpath('//a[@ddclick]/text()').extract() yield item for i in range(1,20): url="http://category.dangdang.com/pg"+str(i)+"-cid4003872-srsort_sale_amt_desc.html" yield Request(url,callback=self.parse) ```
如何用python编写爬虫,爬取谷歌学术镜像网站论文的参考文献数据?
以某篇论文搜索结果为例,[论文链接](https://cc.glgoo.top/scholar?cites=4177867987374784226&as_sdt=2005&sciodt=0,5&hl=zh-CN "") 对该链接搜索结果中的论文,点击下方引号(引用),对于出来的参考文献格式如何用python爬虫爬取?
python爬虫有部分数据为空值怎么办
Python爬虫遇到有部分数据空值,如何将其占位呢? 网页部分源代码: ![图片说明](https://img-ask.csdn.net/upload/201912/03/1575353292_456188.jpg) 因为我的数据爬取,最后呈现为表格形式,格式处理如下图 ``` for i in range(int(len(yearList)/5)): yearData.append((yearList[5*i],yearList[5*i+1],yearList[5*i+2],yearList[5*i+3],yearList[5*i+4])) ``` 因为以上存在空值,导致最后的数据错位: ![图片说明](https://img-ask.csdn.net/upload/201912/03/1575353430_13453.png) 爬取部分代码见下方: ``` monthHtml = driver.find_element_by_class_name('lishitable') monthList=monthHtml.text.split('\n',-1) ``` 请问应该如何修改代码?
python爬虫获取源码与网页不同
使用requests和bs4库 静态爬取页面[2017年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html "") Soup获得部分源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692129_124729.png) 对应网页源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692155_28545.png) 可见,该tr中第一个&lt;td&gt1&lt;/td&gt;;在Soup中变成了&lt;td&gt;1&lt;td&gt; ,而末尾处也多了一个&lt;/td&gt; 该问题发生在每一个tr中,但爬取[2016年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html "")并没有出现该问题。 代码照抄教程,应该不存在问题
python爬虫爬取标签一样时候出错
start_prices = soup.select('#J_HoverShow > tr:nth-of-type(1) > td:nth-of-type(1) > span.pay-price > span') consult_prices = soup.select('#J_HoverShow > tr:nth-of-type(3) > td:nth-of-type(2) > span.pay-price > span') 这是一个URL的两个数据,child已经改成了of-type,我爬的时候不报错,但是爬不下来。求指点
关于使用python爬取房天下数据
由于论文需要,想要爬取房天下的二手房,于是修改简书上竹间为简的租房代码进行爬取。 修改后的代码为 ``` from bs4 import BeautifulSoup import urllib import gzip import inspect import re import pandas as pd from multiprocessing.dummy import Pool as ThreadPool import datetime import sqlite3 from time import sleep from random import choice #网页解压缩 def read_zip_url(url): fails = 0 while fails < 5: try: content = urllib.request.urlopen(url).read() content = gzip.decompress(content).decode("gb18030") #网页gb2312的编码要用这个 break except: fails += 1 print(inspect.stack()[1][3] + ' occused error') soup = BeautifulSoup(content, "lxml") return soup #划分城区 starturl = "http://esf.km.fang.com/house/i31/" soup = read_zip_url(starturl) area_first_soup = soup.find_all('div',id = 'list_D02_10')[0].find_all('a') del area_first_soup[-2] del area_first_soup[0] area_first = [] for i in area_first_soup: area_first.append("http://esf.km.fang.com" + i.get('href')) #按价格划分 area_second = [] for i in area_first: soup = read_zip_url(i) area_second_soup = soup.find_all('li',id = 'list_D02_11')[0].find_all('a') del area_second_soup[0] for i in area_second_soup: area_second.append("http://esf.km.fang.com" + i.get('href')) #按房屋类型划分 area_third = [] def area_third_func(li): soup = read_zip_url(li) area_third_soup = soup.find_all('li',id = 'list_D02_13')[0].find_all('a') del area_third_soup[0] for i in area_third_soup: area_third.append("http://esf.km.fang.com" + i.get('href')) pool = ThreadPool(4) pool.map(area_third_func, area_second) pool.close() pool.join() area_fourth = [] def area_fourth_func(li): soup = read_zip_url(li) if soup.find(text=re.compile("很抱歉")) == None: pagenum1 = soup.find_all('span', class_ = 'txt')[0].get_text() pagenum = int(re.findall(r'\d+',pagenum1)[0]) splitted = li.split('-') for j in range(1, int(pagenum)+1): new_url = (splitted[0]+ '{0}' + splitted[1] + '{0}' + splitted[2]+ '{0}' + 'i3{1}').format('-',j) area_fourth.append(new_url) pool = ThreadPool(4) pool.map(area_fourth_func, area_third) pool.close() pool.join() finalinks = [] def get_links(li): soup = read_zip_url(li) urlist = soup.select('a[href^="/chushou/"]') for i in urlist: href = 'http://esf.km.fang.com' + i.get('href') if href not in finalinks: finalinks.append(href) sleep(0.1) pool = ThreadPool(4) pool.map(get_links, area_fourth) pool.close() pool.join() today = datetime.date.today().strftime("%Y%m%d") finalinks = pd.DataFrame(finalinks) finalinks = finalinks.drop_duplicates() finalinks.to_csv("%s" %'sf_links'+today + '.csv') ``` 希望各位大大指导,感激不尽
python数据爬虫,使用哪个包效果最好
最近在学习python做简单的数据爬取,请问使用python的哪个程序包进行数据爬虫,效果最好呢?
关于python爬虫利用正则表达式爬取不到内容的问题
我在用正则表达式爬取豆瓣电影里面的电影演员信息。 网页演员信息的位置如下: ![图片说明](https://img-ask.csdn.net/upload/201910/18/1571357394_33738.png) 那么要爬取其中的这些演员名不就是下面的代码吗? ```python actors = re.findall(r'<div class="meta abstract_2">(.*?)</div>', resp, re.DOTALL) ``` 其中resp是前面获取到的网页代码 可是print(actors)输出结果为空,请问是哪里不对呀? 有没有大佬就用正则表达式帮忙解答一下?因为我用爬虫只会用正则表达式匹配。
python爬虫爬取时提示org.xml.sax.SAXParseException: Content is not allowed in prolog.
最近在研究爬虫,请求方法是POST,请求内容类型是application/x-www-form-urlencoded,说明以表单的方式提交。 观察响应正文,可以发现,响应内容类型是xml,其中想要提取的数据就在new节点内: ![图片说明](https://img-ask.csdn.net/upload/201908/28/1566957248_729059.png) 首先构造headers: ![图片说明](https://img-ask.csdn.net/upload/201908/28/1566957271_146204.png) 请求参数在请求正文中: ![图片说明](https://img-ask.csdn.net/upload/201908/28/1566957295_533999.png) 可以发现请求参数也是放在xml中,将__xml参数解码后可以发现内容如下: ![图片说明](https://img-ask.csdn.net/upload/201908/28/1566957318_627236.png) 提交的参数放在p标签里,每次提交请求变化的也只有那些参数,并没有发现加密的迹象 因此构造params: ![图片说明](https://img-ask.csdn.net/upload/201908/28/1566957346_765493.png) 代码如下: ```python import requests target = ".../dorado/smartweb2.RPC.d?__rpc=true" # 公司内网地址,外网无法访问 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko", "Referer": ".../pages/policynewbiz/inputapplication/pmGDVehicleQuery.jsp?VEHICLELICENSE=&VIN=LEFYECG257HN34234&LICENSETYPE=&Kind=AUTOCOMPRENHENSIVEINSURANCE2014PRODUCT&", "Content-Type": "application/x-www-form-urlencoded", "Cookie": "jsessionidp09=X2tfdlLTBZH7xzKwnhSgh2W2N5374T0HnHWYQkl2MRShjBxfpKpW!1484787398; F5cookie=1410712842.6521.0000" } params = { "__type": "loadData", "__viewInstanceId": "org.view.policynewbiz.inputapplication.pmGDVehicleQuery~org.view.common.viewmodel.CpicViewModel", "__xml": '%3Crpc%20id%3D%22datasetResult%22%20type%3D%22wrapper%22%20objectClazz%3D%22%22%20pi%3D%221%22%20ps%3D%22100%22%20pc%3D%221%22%20prc%3D%220%22%20fs%3D%22vin%2ClicensePlateNo%2ClicensePlateType%2CengineNo%2CpmVehicleType%2CpmUserNature%2CineffectualDate%2CrejectDate%2CfirstRegisterDate%2ClastCheckDate%2CtransferDate%2CwholeWeight%2CratedPassengerCapacity%2Ctonnage%2Cdisplacement%2CmadeFactory%2Cmodel%2CbrandCN%2CbrandEN%2Chaulage%2Ccolor%2CfuelType%2CvehicleStatus%2CmotorTypeCode%22%3E%3Cps%3E%3Cp%20name%3D%22flag%22%3E1%3C/p%3E%3Cp%20name%3D%22carMark%22/%3E%3Cp%20name%3D%22RackNo%22%3E2FMDK3J95DBC93811%3C/p%3E%3C/ps%3E%3C/rpc%3E%0D%0A', "__rpc": "true", } res = requests.post(url=target, headers=headers, data=params) html = res.content.decode("utf-8") print(html) ``` 执行结果报错: ```python D:\Users\CPIC\AppData\Local\Programs\Python\Python37\python.exe E:/Workspace/Python/SchoolInfo/test56.py <?xml version="1.0"?> <result succeed="false" > <errorMessage>org.xml.sax.SAXParseException: Content is not allowed in prolog.</errorMessage> <stackTrace><![CDATA[com.bstek.dorado.utils.xml.dom4j.Dom4jXmlBuilder.buildDocument(Dom4jXmlBuilder.java:59) com.bstek.dorado.view.rpc.AbstractRPCHandler.init(AbstractRPCHandler.java:58) com.bstek.dorado.view.rpc.LoadDataRPCHandler.init(LoadDataRPCHandler.java:41) com.bstek.dorado.core.FilterHandle.doFilter(FilterHandle.java:131) com.bstek.dorado.core.DoradoFilter.doFilter(DoradoFilter.java:70) weblogic.servlet.internal.FilterChainImpl.doFilter(FilterChainImpl.java:43) com.cpic.p09.auto.common.filter.CompatibleFilter.doFilter(CompatibleFilter.java:34) weblogic.servlet.internal.FilterChainImpl.doFilter(FilterChainImpl.java:43) com.cpic.p09.auto.common.filter.ClientCacheFilter.doFilter(ClientCacheFilter.java:71) weblogic.servlet.internal.WebAppServletContext$ServletInvocationAction.run(WebAppServletContext.java:3242) weblogic.security.acl.internal.AuthenticatedSubject.doAs(AuthenticatedSubject.java:321) weblogic.servlet.internal.WebAppServletContext.execute(WebAppServletContext.java:1916) weblogic.servlet.internal.ServletRequestImpl.run(ServletRequestImpl.java:1366) weblogic.work.ExecuteThread.run(ExecuteThread.java:181) ]]></stackTrace> <viewProperties></viewProperties> </result> Process finished with exit code 0 ``` 有哪位大神遇到过这种情况,小弟要抓狂了
【求教】使用pycharm编写python爬虫,连接不上本地MySQL服务器
#小白自学修炼中,在编写python爬虫时,需要连接上本地MySQL服务器,将爬取的内容存放。 求教问题描述>>> 问题: #pycharm编写的程序连接不上本地MySQL服务 ### 环境: * python3.6 * ide:pycharm * 本地mysql服务已开启。 mysql版本:5.7 ## 源代码: ``` # 导入开发包 from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import pymysql # 获得数据库的连接 connection = pymysql.connect( host='localhost', user='root', password='123456', db='baidu', charset='utf8mb4' ) try: # 获得会话指针 with connection.cursor() as cursor: # 创建sql语句 sql = "insert into urls ('urlname','urlhref') values (%s,%s)" # 向baiduurls表提交操作 cursor.execute(sql, ("1", "1")) # 提交操作 connection.commit() finally: connection.close() ``` ## ## 出现的问题 ``` Traceback (most recent call last): File "C:/Pycharm/pro_2020/百度百科爬虫/craw_url.py", line 12, in <module> db='baidu' raise exc pymysql.err.OperationalError: (2003, "Can't connect to MySQL server on 'localhost' (timed out)") ``` 无法连接本地mysql数据库,另外数据库我在第三方工具上创建了一个名为“baidu”的数据库;我在命令行下查询了,确实创建着有。只是在pycharm里连接不到本地MySQL。 ## 尝试过、并失败了的的方法 ``` 防火墙已关闭,依然连接失败; net start mysql MySQL服务器doc命令行尝试连接,依然连接失败; host = 127.0.0.1,依然连接失败; ``` 真心在线求各位老哥老姐教教弟弟,不胜感激!
求助大神,爬虫爬取京东评论数据爬一小部分(大概100条评论)就爬不到评论了,返回空值了
python 爬取评论数据,爬到一百多条评论,就返回空值了,无法继续爬下去了
Python 爬虫 status 200 但得不到数据
想爬取赢商网的一些信息,response中是存在信息的。想用request.post来爬,但是得不到信息。 ``` import requests import json #%% url = 'http://yzs.winshangdata.com/wsapi/brand/getBrandTuoZhanProvinces' headers = { 'Content-Type': 'application/json;charset=UTF-8', 'Cookie': 'UM_distinctid=16f40179a3117f-08f154d235ffb8-6701b35-11442c-16f40179a322bd; Hm_lvt_f48055ef4cefec1b8213086004a7b78d=1577425731,1577425985,1577426204,1577427086; winfanguser=uid=shumiao888&nid=shumiao888_105711714&logNum=10467&err163=2dde6523ff7cdc29&pwd=06915a38d9e9e87f5ffe745c51d659&headerImg=http://user.winshangdata.com/image/default_20161129.png&sex=0&Email=&IsCompany=0; eyeuser=uid%3dshumiao888%26nid%3dshumiao888_105711714%26logNum%3d10467%26err163%3d2dde6523ff7cdc29%26pwd%3d06915a38d9e9e87f5ffe745c51d659%26headerImg%3dhttp%3a%2f%2fuser.winshangdata.com%2fimage%2fdefault_20161129.png%26sex%3d0%26Email%3d%26IsCompany%3d0; mode=mode; Hm_lpvt_f48055ef4cefec1b8213086004a7b78d=1577430750; JSESSIONID=C6734BEB6CAC2CAEB1DA02BD524B24AF; Hm_lvt_742e37d60ea288bb1d1f445eab6ce50b=1577365684,1577430757,1577430765,1577430801; Hm_lpvt_742e37d60ea288bb1d1f445eab6ce50b=1577430801', 'platform': 'yzs', 'Referer': 'http://yzs.winshangdata.com/', 'Token': 'C334D3A3244400C2E53B431BCF0A6F17.B04B0D7A106EC8A6B9F5704BCE4A9CC9.2019-12-27 15:12:37', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } payload = { 'brandId': "4680" } #%% res = requests.post(url, headers, json=payload) #%% result = res.content.decode('utf-8') ``` 错误是这样的。 ![图片说明](https://img-ask.csdn.net/upload/201912/27/1577432213_96048.png)
python爬取跳页url不变的网页表格数据
小白一个,刚学python爬虫1天,因为跟朋友夸下海口说简单的都会,但我这个就不会了。 具体需求:python爬取跳页url不变的网页表格数据。 url:http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html 爬取表格所有页的数据: ![图片说明](https://img-ask.csdn.net/upload/201907/16/1563265385_266418.png) 求求大神救救孩纸* _*
python实现新浪微博爬虫
详细简单的解决: !新浪微博爬虫的登陆问题(立即上手有效的,拒绝复制粘贴文章) 后面的内容爬取解析我自己来
刚开始学爬虫 爬取分页数据
![图片说明](https://img-ask.csdn.net/upload/201901/24/1548312413_156413.png) 我想爬取一个分页数据,为什么这段代码的结果是这个?
Python爬虫 急求大神帮忙 万分感谢
我用Python爬虫 爬取网页 爬出来获取特定数据 为什么大部分显示null 而且每次执行一次 数据就会增加一些 到底是代码问题还是网页问题 求大神指点代码下: def get_content(self, html): #获取一个网页的内容 div_list = html.xpath("//div[contains(@class,'listtyle')]") item_list = [] for div in div_list: for b in range(1,19): food_img= div.xpath("./div[@class='listtyle1'][b]/a[@class='big']/img[@class='img']/@src") food_img=food_img[0] if len(food_img)>0 else None food_name = div.xpath("./div[@class='listtyle1'][b]/a[@class='big']/div[@class='i_w']/div[@class='i']/div[@class='c1']/strong/text()") food_name = food_name[0] if len(food_name)>0 else None food_effect=div.xpath("./div[@class='listtyle1'][b]/a[@class='big']/strong[@class='gx']/span/text()") food_effect = food_effect[0] if len(food_effect)>0 else None food_time=div.xpath("./div[@class='listtyle1'][b]/a[@class='big']/div[@class='i_w']/div[@class='i']/div[@class='c2']/ul/li[@class='li1']/text()") food_time = food_time[0] if len(food_time)>0 else None food_taste=div.xpath("./div[@class='listtyle1'][b]/a[@class='big']/div[@class='i_w']/div[@class='i']/div[@class='c2']/ul/li[@class='li2']/text()") food_taste = food_taste[0] if len(food_taste)>0 else None food_commentnum_likenum=div.xpath("./div[@class='listtyle1'][b]/a[@class='big']/div[@class='i_w']/div[@class='i']/div[@class='c1']/span/text()") food_commentnum_likenum = food_commentnum_likenum[0] if len(food_commentnum_likenum)>0 else None item=dict( food_img1=food_img, food_name1=food_name, food_effect1=food_effect, food_time1=food_time, food_taste1=food_taste, food_commentnum_likenum1=food_commentnum_likenum, ) item_list.append(item) return item_list
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小人工智障。 思路可以运用在不同地方,主要介绍的是思路。
Linux(服务器编程):15---两种高效的事件处理模式(reactor模式、proactor模式)
前言 同步I/O模型通常用于实现Reactor模式 异步I/O模型则用于实现Proactor模式 最后我们会使用同步I/O方式模拟出Proactor模式 一、Reactor模式 Reactor模式特点 它要求主线程(I/O处理单元)只负责监听文件描述符上是否有事件发生,有的话就立即将时间通知工作线程(逻辑单元)。除此之外,主线程不做任何其他实质性的工作 读写数据,接受新的连接,以及处...
为什么要学数据结构?
一、前言 在可视化化程序设计的今天,借助于集成开发环境可以很快地生成程序,程序设计不再是计算机专业人员的专利。很多人认为,只要掌握几种开发工具就可以成为编程高手,其实,这是一种误解。要想成为一个专业的开发人员,至少需要以下三个条件: 1) 能够熟练地选择和设计各种数据结构和算法 2) 至少要能够熟练地掌握一门程序设计语言 3) 熟知所涉及的相关应用领域的知识 其中,后两个条件比较容易实现,而第一个...
C语言魔塔游戏
很早就很想写这个,今天终于写完了。 游戏截图: 编译环境: VS2017 游戏需要一些图片,如果有想要的或者对游戏有什么看法的可以加我的QQ 2985486630 讨论,如果暂时没有回应,可以在博客下方留言,到时候我会看到。 下面我来介绍一下游戏的主要功能和实现方式 首先是玩家的定义,使用结构体,这个名字是可以自己改变的 struct gamerole { char n
进程通信方式总结与盘点
​ 进程通信是指进程之间的信息交换。这里需要和进程同步做一下区分,进程同步控制多个进程按一定顺序执行,进程通信是一种手段,而进程同步是目标。从某方面来讲,进程通信可以解决进程同步问题。 ​ 首先回顾下我们前面博文中讲到的信号量机制,为了实现进程的互斥与同步,需要在进程间交换一定的信息,因此信号量机制也可以被归为进程通信的一种方式,但是也被称为低级进程通信,主要原因为: 效率低:一次只可操作少量的...
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观
听说了吗?阿里双11作战室竟1根网线都没有
双11不光是购物狂欢节,更是对技术的一次“大考”,对于阿里巴巴企业内部运营的基础保障技术而言,亦是如此。 回溯双11历史,这背后也经历过“小米加步枪”的阶段:作战室从随处是网线,交换机放地上的“一地狼藉”;到如今媲美5G的wifi网速,到现场却看不到一根网线;从当年使用商用AP(无线路由器),让光明顶双11当天断网一分钟,到全部使用阿里自研AP……阿里巴巴企业智能事业部工程师们提供的基础保障...
在阿里,40岁的奋斗姿势
在阿里,40岁的奋斗姿势 在阿里,什么样的年纪可以称为老呢?35岁? 在云网络,有这样一群人,他们的平均年龄接近40,却刚刚开辟职业生涯的第二战场。 他们的奋斗姿势是什么样的呢? 洛神赋 “翩若惊鸿,婉若游龙。荣曜秋菊,华茂春松。髣髴兮若轻云之蔽月,飘飖兮若流风之回雪。远而望之,皎若太阳升朝霞;迫而察之,灼若芙蕖出渌波。” 爱洛神,爱阿里云 2018年,阿里云网络产品部门启动洛神2.0升...
关于研发效能提升的思考
研发效能提升是最近比较热门的一个话题,本人根据这几年的工作心得,做了一些思考总结,由于个人深度有限,暂且抛转引入。 三要素 任何生产力的提升都离不开这三个因素:人、流程和工具,少了其中任何一个因素都无法实现。 人,即思想,也就是古人说的“道”,道不同不相为谋,是制高点,也是高层建筑的基石。 流程,即方法,也是古人说的“法”。研发效能的提升,也就是要提高投入产出比,既要增加产出,也要减...
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
这种新手都不会范的错,居然被一个工作好几年的小伙子写出来,差点被当场开除了。
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca
2020年,冯唐49岁:我给20、30岁IT职场年轻人的建议
点击“技术领导力”关注∆  每天早上8:30推送 作者| Mr.K   编辑| Emma 来源| 技术领导力(ID:jishulingdaoli) 前天的推文《冯唐:职场人35岁以后,方法论比经验重要》,收到了不少读者的反馈,觉得挺受启发。其实,冯唐写了不少关于职场方面的文章,都挺不错的。可惜大家只记住了“春风十里不如你”、“如何避免成为油腻腻的中年人”等不那么正经的文章。 本文整理了冯
程序员该看的几部电影
##1、骇客帝国(1999) 概念:在线/离线,递归,循环,矩阵等 剧情简介: 不久的将来,网络黑客尼奥对这个看似正常的现实世界产生了怀疑。 他结识了黑客崔妮蒂,并见到了黑客组织的首领墨菲斯。 墨菲斯告诉他,现实世界其实是由一个名叫“母体”的计算机人工智能系统控制,人们就像他们饲养的动物,没有自由和思想,而尼奥就是能够拯救人类的救世主。 可是,救赎之路从来都不会一帆风顺,到底哪里才是真实的世界?
入职阿里5年,他如何破解“技术债”?
简介: 作者 | 都铎 作为一名技术人,你常常会听到这样的话: “先快速上线” “没时间改” “再缓一缓吧” “以后再解决” “先用临时方案处理” …… 当你埋下的坑越来越多,不知道哪天哪位同学就会踩上一颗雷。特别赞同“人最大的恐惧就是未知,当技术债可说不可见的时候,才是最让人不想解决的时候。” 作为一个程序员,我们反对复制粘贴,但是我们经常会见到相似的代码,相同的二方包,甚至整个代码...
Python绘图,圣诞树,花,爱心 | Turtle篇
每周每日,分享Python实战代码,入门资料,进阶资料,基础语法,爬虫,数据分析,web网站,机器学习,深度学习等等。 公众号回复【进群】沟通交流吧,QQ扫码进群学习吧 微信群 QQ群 1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle()...
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东
破14亿,Python分析我国存在哪些人口危机!
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。 猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。 今天我们就来分析一下我们国家的人口数据吧! 一、背景 1.人口突破14亿 2020年1月17日,国家统计局发布了 2019年国民经济报告 ,报告中指出:年末中国大陆总人口(包括31个
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ......
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!
2020年的1月,我辞掉了我的第一份工作
其实,这篇文章,我应该早点写的,毕竟现在已经2月份了。不过一些其它原因,或者是我的惰性、还有一些迷茫的念头,让自己迟迟没有试着写一点东西,记录下,或者说是总结下自己前3年的工作上的经历、学习的过程。 我自己知道的,在写自己的博客方面,我的文笔很一般,非技术类的文章不想去写;另外我又是一个还比较热衷于技术的人,而平常复杂一点的东西,如果想写文章写的清楚点,是需要足够...
别低估自己的直觉,也别高估自己的智商
所有群全部吵翻天,朋友圈全部沦陷,公众号疯狂转发。这两周没怎么发原创,只发新闻,可能有人注意到了。我不是懒,是文章写了却没发,因为大家的关注力始终在这次的疫情上面,发了也没人看。当然,我...
Java坑人面试题系列: 包装类(中级难度)
Java Magazine上面有一个专门坑人的面试题系列: https://blogs.oracle.com/javamagazine/quiz-2。 这些问题的设计宗旨,主要是测试面试者对Java语言的了解程度,而不是为了用弯弯绕绕的手段把面试者搞蒙。 如果你看过往期的问题,就会发现每一个都不简单。 这些试题模拟了认证考试中的一些难题。 而 “中级(intermediate)” 和 “高级(ad
深度学习入门笔记(十八):卷积神经网络(一)
欢迎关注WX公众号:【程序员管小亮】 专栏——深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献。 2)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除。 3)博主才疏学浅,文中如有不当之处,请各位指出,共同进步,谢谢。 4)此属于第一版本,若有错误,还需继续修正与...
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。 再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。 下文是原回答,希望能对你能有所启发。 如果我说,这个世界上人真的分三六九等,...
节后首个工作日,企业们集体开晨会让钉钉挂了
By 超神经场景描述:昨天 2 月 3 日,是大部分城市号召远程工作的第一天,全国有接近 2 亿人在家开始远程办公,钉钉上也有超过 1000 万家企业活跃起来。关键词:十一出行 人脸...
Java基础知识点梳理
Java基础知识点梳理 摘要: 虽然已经在实际工作中经常与java打交道,但是一直没系统地对java这门语言进行梳理和总结,掌握的知识也比较零散。恰好利用这段时间重新认识下java,并对一些常见的语法和知识点做个总结与回顾,一方面为了加深印象,方便后面查阅,一方面为了学好java打下基础。 Java简介 java语言于1995年正式推出,最开始被命名为Oak语言,由James Gosling(詹姆
2020年全新Java学习路线图,含配套视频,学完即为中级Java程序员!!
新的一年来临,突如其来的疫情打破了平静的生活! 在家的你是否很无聊,如果无聊就来学习吧! 世上只有一种投资只赚不赔,那就是学习!!! 传智播客于2020年升级了Java学习线路图,硬核升级,免费放送! 学完你就是中级程序员,能更快一步找到工作! 一、Java基础 JavaSE基础是Java中级程序员的起点,是帮助你从小白到懂得编程的必经之路。 在Java基础板块中有6个子模块的学
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合
你也能看懂的:蒙特卡罗方法
蒙特卡罗方法,也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法 蒙特卡罗方法可以粗略地分成两类:一类是所求解的问题本身具有内在的随机性,借助计算机的运算能力可以直接模拟这种随机的过程。另一种类型是所求解问题可以转化为某种随机分布的特征数,比如随机事件出现的概率,或...
相关热词 c# 识别回车 c#生成条形码ean13 c#子控制器调用父控制器 c# 写大文件 c# 浏览pdf c#获取桌面图标的句柄 c# list反射 c# 句柄 进程 c# 倒计时 线程 c# 窗体背景色
立即提问