python爬虫 爬虫的网站源码不齐全怎么办

http://192.168.101.213:7027/swagger-ui.html#/26631209343164929702

用f12打开看到的源码
和用beautifulsoup get到的源码不一样 没法进行爬取

woaiyibao
woaiyibao 已经用 解析json代码的方法进行爬取
9 个月之前 回复

1个回答

现在都是动态网页,你爬取到的只是一个基本框架而已。
你可以用f12 然后检测一下http请求,基本上获取到的都是第一个请求。
后面的数据都是通过js修改后的网页。
交互式的。所以要想做复杂爬虫,还得了解web,js,css,xpath,还有http等等。
最开始还是找一些静态网页做实验吧。

rubikchen
502203305 回复woaiyibao: 没有办法,除非你一一模拟他的js代码。代价太大。
9 个月之前 回复
woaiyibao
woaiyibao 就是怎么直接获得outerHTML呢
9 个月之前 回复
woaiyibao
woaiyibao 用 f12打开elements里面的源码是齐全的 但是直接在网页上右键查看源码出来的是不齐全的 怎么才能get到f12里面的源码呢
9 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
为什么python爬虫下载的网页源码不完整?
我用python的requests和bs4库提取百度的页面,为什么只提取出一小段文字呢?不知道是不是http和https的问题。我改成http就可以得到完整的源代码。如果是这个问题的话,应该怎么解决呢? ``` >>> r= requests.get("https://www.baidu.com/s?wd=s") >>> r.text '<html>\r\n<head>\r\n\t<script>\r\n\t\tlocation.replace(location.href.replace("https://","http://"));\r\n\t</script>\r\n</head>\r\n<body>\r\n\t<noscript><meta http-equiv="refresh" content="0;url=http://www.baidu.com/"></noscript>\r\n</body>\r\n</html>' ```
python爬虫获取源码与网页不同
使用requests和bs4库 静态爬取页面[2017年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html "") Soup获得部分源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692129_124729.png) 对应网页源码如图 ![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692155_28545.png) 可见,该tr中第一个&lt;td&gt1&lt;/td&gt;;在Soup中变成了&lt;td&gt;1&lt;td&gt; ,而末尾处也多了一个&lt;/td&gt; 该问题发生在每一个tr中,但爬取[2016年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html "")并没有出现该问题。 代码照抄教程,应该不存在问题
python爬虫时为什么网页源码经过xpth处理后无法解析了呢
## 在爬取一个小说网站的时候我发现在网页的response中可以看到相关的值,但是在获取的时候就出现了问题 ### 具体问题是这样的, - 爬取的网站链接为:https://www.qiushuzw.com/t/38890/10253657.html ``` from lxml import etree import requests class Xiaoshuospider: def __init__(self): self.start_url = 'https://www.qiushuzw.com/t/38890/10253656.html' self.headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive", "Cookie": "BAIDU_SSP_lcr=https://www.80txt.com/txtml_38890.html; Hm_lvt_c0ce681e8e9cc7e226131131f59a202c=1554447305; Hm_lpvt_c0ce681e8e9cc7e226131131f59a202c=1554447305; UM_distinctid=169ec4788554ea-0eba8d0589d979-1a201708-15f900-169ec4788562c1; CNZZDATA1263995655=929605835-1554443240-https%253A%252F%252Fwww.80txt.com%252F%7C1554443240", "Host": "www.qiushuzw.com", "If-Modified-Since": "Thu, 31 Jan 2019 03:00:17 GMT", "If-None-Match": 'W/"5c5264c1 - 3f30"', "Referer": "https://www.80txt.com/txtml_38890.html", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36", } def parse(self): res = requests.get(self.start_url,headers=self.headers).content.decode() html = etree.HTML(res) content = html.xpath("div[@class='book_content']/text()") print(content) def run(self): self.parse() if __name__ == '__main__': xiaoshuo = Xiaoshuospider() xiaoshuo.run() ``` - 根据xpath规则我将这些信息处理以后无法找到相应小说文本内容,小说的详细信息无法使用xpath提取出来 ## 有没有哪位大佬也遇到相应的问题
Python 爬虫为什么只爬取到一个html页中的部分内容。
在用Python中urlopen和read直接获取到一个网页的HTML,为什么内容与通过浏览器的 查看网页源码的方式显示内容不一样呢,获取到的HTML只有原HTML部分内容。
使用python爬虫解析json
报错 JSONDecodeError: Expecting value: line 1 column 1 (char 0) 源码 # -*- coding:utf-8 -*- import requests from openpyxl import Workbook url='https://www.lagou.com/jobs/positionAjax.json?px=default&city=上海&needAddtionalResult=false' page=1 lang_name='python' def get_json(url,page,lang_name): data={'first':True,'pn':page,'kd':lang_name} json_data=requests.post(url).json() #list_con=json_data['content']['positionResult']['result'] print(json_data['content']['positionResult']['result']) get_json(url,page,lang_name)
python爬虫抓取机票时出现的问题
我是在校学生,自学了点python,想用爬虫抓取机票价格可以更方便的了解特价票信息,所以在网上找了抓取的一些代码然后自己又改了一些,初步有自己想要的功能:挂在服务器上运行,一旦有特价票,向我的邮箱发信息。但是一直有问题,第一个是运行的时候会出下面这个错误(好像是列表越界): Exception in thread Thread-24: Traceback (most recent call last): File "/usr/local/python27/lib/python2.7/threading.py", line 551, in __bootstrap_inner self.run() File "/usr/local/python27/lib/python2.7/threading.py", line 755, in run self.function(*self.args, **self.kwargs) File "SpecialFlightPrice.py", line 72, in task_query_flight flights=getdate(city, today, enddate) File "SpecialFlightPrice.py", line 27, in getdate json_data = re.findall(pattern, price_html)[0] IndexError: list index out of range 还有一个问题就是我想每天定时对机票信息文件进行清空,但是写的代码却实现不了这个功能,请大神顺便帮我改一改。 先感谢! 下面是源码(我把个人的2个邮箱改成了xxxxxxxx,如果想运行需要把xxxxxxxx改成自己的2个邮箱,还有因为是挂在服务器上运行的,所以需要输入几个参数:出发地点,日期,日期后几天的机票): # -*- coding: utf-8 -*- import datetime import time import json import urllib import re import sys import threading from email.mime.text import MIMEText import smtplib from time import sleep from threading import Timer from _ast import While default_encoding = 'utf-8' reload(sys) sys.setdefaultencoding(default_encoding) def getdate(city,startdate,enddate): url = 'https://sjipiao.alitrip.com/search/cheapFlight.htm?startDate=%s&endDate=%s&' \ 'routes=%s-&_ksTS=1469412627640_2361&callback=jsonp2362&ruleId=99&flag=1' % (startdate, enddate,city) price_html = urllib.urlopen(url).read().strip() pattern = r'jsonp2362\(\s+(.+?)\)' re_rule = re.compile(pattern) json_data = re.findall(pattern, price_html)[0] price_json = json.loads(json_data) flights = price_json['data']['flights'] # flights Info return flights def sendmail(a,b,c,d): _user = "xxxxxxxxxxx@163.com" _pwd = "xxxxxxxxxxx" _to = "xxxxxxxxxxxxx@qq.com" msg = MIMEText('%s%s%s%s'%(a,b,c,d),'plain','utf-8') msg["Subject"] = "有特价票啦~" msg["From"] = _user msg["To"] = _to try: s = smtplib.SMTP_SSL("smtp.163.com", 465) s.login(_user, _pwd) s.sendmail(_user, _to, msg.as_string()) s.quit() print "Success!" except smtplib.SMTPException: print "Falied" def task_query_flight(): city=str(sys.argv[1]) year=int(sys.argv[2]) month=int(sys.argv[3]) day=int(sys.argv[4]) delay=int(sys.argv[5]) if city=='DL': city='DLC' elif city=='NJ': city='NKG' elif city=='BJ': city='BJS' today = datetime.date(year,month,day) enddate = today + datetime.timedelta(delay) print'从%s到%s的最便宜的机票价格是' % (today,enddate) flights=getdate(city, today, enddate) for f in flights: if f['discount'] <=2 : source = '从:%s-' % f['depName'] dest = '到:%s\t' % f['arrName'] price = '\t价格:%s%s(折扣:%s)\t' % ((f['price']), f['priceDesc'], f['discount']) depart_date = '\t日期:%s' % f['depDate'] print source+dest+price+depart_date with open('store.txt','a') as f: f.write(' ') with open('store.txt','r') as f: for line in f.readlines(): if '%s%s%s%s'%(source,dest,price,depart_date) in line: Timer(60,task_query_flight).start() else: sendmail(source, dest, price, depart_date) with open('store.txt', 'a') as f: f.write('%s%s%s%s'%(source,dest,price,depart_date)) Timer(60,task_query_flight).start() ''' 两个问题: 1、列表越界 list out of range 2、定时器只会运行一次 不知什么原因。 if 没找到discount<2的, 则 循环一直找 并且设定时器到某一时间即清空文件内容 ''' while True: task_query_flight() current_time = time.localtime(time.time()) if((current_time.tm_hour == 7) and (current_time.tm_min == 0)): with open('store1.txt','w') as f: f.truncate() time.sleep(60) if __name__ == '__main__': task_query_flight()
python 简单的爬虫登陆问题没有验证码怎么破 与验证码怎么破
我学校的oj登陆页面 求爬虫模拟登陆源码 其他不需要 python27新手一枚
同一个页面,选择查看网页源代码时看不到这部分内容,但是单机这部分内容选择检查时可以看到源码,爬虫获取内容时如何获取这部分内容?
以http://quote.eastmoney.com/center/gridlist.html#hs_a_board为例 查看网页源码时没有下图红色框的内容,使用python爬虫时也爬取不到: ![图片说明](https://img-ask.csdn.net/upload/201909/25/1569373669_779779.png) 但是指向红色框的内容,选择检查时,可以看到这部分的源码: ![图片说明](https://img-ask.csdn.net/upload/201909/25/1569373913_89968.png) 那么做爬虫时如何爬取这部分内容?
python爬虫,遇到403 forbidden,求助。
``` # -*- coding: utf-8 -*- import re import sys import requests reload(sys) sys.setdefaultencoding("utf-8") if __name__ == '__main__': url = 'https://movie.douban.com/subject/1433330/photos?type=W' # 获取网页源码 html = requests.get(url) # 抓每个图片链接 pic_url = re.findall('<img src="https://(.*?)" />', html.text, re.S) #此链接为预览链接 i = 0 for each in pic_url: raw = re.sub('thumb','raw',each,re.S) //将预览链接中的thumb替换成raw,便成了高清图片链接 print 'now download..'+'https://'+raw pic = requests.get('https://'+raw) f = open('hp\\'+str(i)+'.jpg','wb') f.write(pic.content) f.close() i += 1 ``` 刚开始学爬虫,爬豆瓣电影的壁纸练手。现在程序可以跑下来,不返回错,但是下载的图片是失败的,response 返回 403 forbidden。 我这样想问题的原因对吗? **因为我想下高清的,但是豆瓣查看高清壁纸前,需要登录,但我的程序是没有登录的,所以出现403是吗?所以我得模拟登陆是吗?** 刚注册,木有悬赏币。。谢谢
在ubuntu系统下使用python制作爬虫获取网页运行完js后的网页源码!
求求大神帮忙,小弟跪谢!已经被这个问题困扰了很久,听说selenium可以实现,但是网上的源码都看不懂,希望那个大神能帮帮我,真的很急,谢谢
Python爬虫、requests库的get方法,带上headers后出现编码错误
目标网站:知乎 Pyrhon版本:3.6 ``` agent = 'Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/59.0' header = { 'HOST': 'www.zhihu.com', 'Referer': 'https://www.zhihu.com', 'User-Agent': agent } response = requests.get('https://www.zhihu.com', headers=header) ``` 报错内容: ``` Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Anaconda3\lib\site-packages\requests\api.py", line 72, in get return request('get', url, params=params, **kwargs) File "C:\Anaconda3\lib\site-packages\requests\api.py", line 58, in request return session.request(method=method, url=url, **kwargs) File "C:\Anaconda3\lib\site-packages\requests\sessions.py", line 518, in request resp = self.send(prep, **send_kwargs) File "C:\Anaconda3\lib\site-packages\requests\sessions.py", line 639, in send r = adapter.send(request, **kwargs) File "C:\Anaconda3\lib\site-packages\requests\adapters.py", line 438, in send timeout=timeout File "C:\Anaconda3\lib\site-packages\requests\packages\urllib3\connectionpool.py", line 600, in urlopen chunked=chunked) File "C:\Anaconda3\lib\site-packages\requests\packages\urllib3\connectionpool.py", line 356, in _make_request conn.request(method, url, **httplib_request_kw) File "C:\Anaconda3\lib\http\client.py", line 1239, in request self._send_request(method, url, body, headers, encode_chunked) File "C:\Anaconda3\lib\http\client.py", line 1280, in _send_request self.putheader(hdr, value) File "C:\Anaconda3\lib\http\client.py", line 1212, in putheader values[i] = one_value.encode('latin-1') UnicodeEncodeError: 'latin-1' codec can't encode character '\u2026' in position 30: ordinal not in range(256) ``` \u2026好像是空格,看了下源码,好像是空格要转latin-1这种编码失败了, 我上面有空格的是agent,要用来伪装浏览器,这可怎么办, 而且在我看的那个知乎爬虫视频中,他也是有空格的,却不出错,这是我的环境有问题吗, 请大佬们能指点一下
关于爬虫获取网页源码没有img数据并且xhr找不到的问题
关于某个漫画网站的源码问题(不符合核心价值观所以不方便透露)![图片说明](https://img-ask.csdn.net/upload/201910/16/1571231878_2931.png) 在使用f12检查的时候会出现img的地址但是查看源码的时候并没有, 下面的就是请求网页的xhr,preview并没有任何数据 ![图片说明](https://img-ask.csdn.net/upload/201910/16/1571231922_291353.png) 这个就是load的xhr所有数据 ![图片说明](https://img-ask.csdn.net/upload/201910/16/1571231991_607394.png) 俺们想问问大佬,如何通过请求网页获取到img的地址
渣渣请教python爬虫xpath问题
各位大神,小弟我最近爬取闲鱼商品的时候出现个问题: 这个是网页源码截图,我想爬取里面这个赞数: ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950224_39834.jpg) 网页链接:https://2.taobao.com/item.htm?id=538626368021 下面是我的源码: ``` #! /usr/bin/env python #coding=utf-8 import urllib from bs4 import BeautifulSoup import re from lxml import etree """ https://s.2.taobao.com/list/list.htm?\ spm=2007.1000337.0.0.WOjjAq&st_trust=1&page=3&q=%C0%D6%B8%DF&ist=0 """ def get_html(page=1, q="lego"): """获取商品列表页源代码,返回源代码content""" params = { "spm":"2007.1000337.0.0.WOjjAq", "st_trust":"1", "page":page, "q":q, "ist":"0" } info = urllib.urlencode(params) url = "https://s.2.taobao.com/list/list.htm?" + info html = urllib.urlopen(url) content = html.read() html.close() return content def get_url(content): """从商品列表页源代码中获取商品页url,返回url的列表""" soup = BeautifulSoup(content, "lxml") div_box = soup.find_all('div', class_='item-info') url_list = [] for div in div_box: url=div.find('h4', class_='item-title').a['href'] url_c = "https:" + url url_list.append(url_c) return url_list def get_product(url): html = urllib.urlopen(url) content = html.read() html.close() content1 = content.decode('gbk').encode('utf-8') rempat = re.compile('&') content1 = re.sub(rempat,'&amp;',content1) root = etree.fromstring(content1) zan = root.xpath('.//div[@id="J_AddFav"]/em/text()]') return zan if __name__ == '__main__': content = get_html(1,"lego") url_list = get_url(content) url1 = url_list[1] print url1 print get_product(url1) ``` 问题出现在这里: ``` root = etree.fromstring(content1) ``` ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950415_793148.jpg) 除了将&替换成&amp;外没有对网页源码进行改动,不知为何源码会报错…… 谢谢各位大神了,我是技术渣(我是学化学的……最近工作需要,拿闲鱼来练手,结果卡在这里一天了)
python爬虫for循环错误求解答
import requests import re import os #下载一个网页 ur1 = 'https://nyaso.com/comic/4240.html ' #模拟电脑浏览器向http发送请求 response = requests.get(ur1) #编码方式 response.encoding = 'utf-8' #目标小说网页源码 html = response.text #漫画的名称 title = re.findall(r'<h1>(.*?)</h1>',html)[0] #新建文件夹,保存漫画。 #os.mkdir("D:\\家有女友\\") #获取每一章的信息(章节,url) dl = re.findall(r'<div id="comic" style="text-align:center">.*?</div>',html,re.S)[0] chapter_info_list: List[Any] = re.findall(r'style="color:#777;font-size:13px">(.*?)</span></a><a href="(.*?)" target="new">(.*?) <span style="color:#777;font-', dl) #循环每一个章节,分别下载。 chapter_info in chapter_info_list; #chapter_url= "https://nyaso.com/comic/" %chapter_url print(chapter_url,chapter_title)
用python写的爬虫,但获取的网页源码不全,是什么原因?求帮助啦,呜呜。。。。
import urllib2; import urllib; import time; import re; url= str("http://technet.microsoft.com/en-us/windows/release-info/"); req = urllib2.Request(url); req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"); response=urllib2.urlopen(req); html=response.read(); print "html=",html;
Python爬虫代码除了点问题,写入到csv文件出错,rows类型为list,求教各位大佬?
将数据存入csv文件时报错,然后各种查,就是解决不了,rows类型为list 部分源码: with open(city+'.csv','a') as f: fieldnames = ['name','area','address','total_price','unit_price','house_size','house_type'] writer = csv.DictWriter(f, fieldnames=fieldnames) writer.writeheader() 46 rows = [name,area,address,total_price,unit_price,house_size,house_type,number] 47 print(type(rows)) 48 writer.writerow(rows) 报错信息: Traceback (most recent call last): File "/home/tom/PycharmProjects/spider1/spider1.py", line 48, in <module> writer.writerow(rows) File "/usr/lib/python3.6/csv.py", line 155, in writerow return self.writer.writerow(self._dict_to_list(rowdict)) File "/usr/lib/python3.6/csv.py", line 148, in _dict_to_list wrong_fields = rowdict.keys() - self.fieldnames AttributeError: 'list' object has no attribute 'keys' <class 'list'>
python IDLE卡死问题,sublime下没事,同样的3.5解释器
![图片说明](https://img-ask.csdn.net/upload/201510/11/1444569397_255255.png) 刚开始学习python爬虫,第一个小程序,查看百度源码就遇到了问题,在IDLE中,查看非常慢而且一定卡死,而同样的代码,放到sublime中,完全没问题,零点几秒就跑完了,都是3.5 解释器路径也一样啊
练习Python时发现一个网站,完全查看不到网页的源代码
网站地址:https://www.afa.org/publications-news/news/ 今天别人给我一个网站,问我这个网站要如何爬取,我拿过来看之后, 我发现完全找不到源代码啊,查看源码内容对不上,查看json,还是对不上,试着翻个页,没有添加json,完全不知道该如何爬取这种网站。 有没有大神们能指点一下,这种网站要如何进行爬取。
如何在爬虫中添加线程
在爬虫中如何添加多线程并且异步执行,需要添加线程互斥锁吗? 求添加基于下方代码的多线程爬虫,以及注意事项(知识点) 本人自学的小小白,多谢 ``` import requests import re class Dytt_pa(object): def __init__(self): self.file_dict = {} self.pagecontent = '' def get_page(self,url='https://www.dytt8.net/html/gndy/dyzz/list_23_1.html'): # 定义缺省url为xxx """获取电影列表网页源码""" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.62 Safari/537.36"} req = requests.get(url,headers=headers) req.encoding = 'GBK' self.pagecontent = req.text # 运行之后得到get_page的结果,返回新内容 def get_film_link(self): """将迅雷下载地址与电影名保存到字典中""" file_list = re.findall(r'<a href="(.*)" class="ulink">(.*)</a>',self.pagecontent) # 得到25个(半个电影link和电影名)的list for film_link,film_name in file_list: page_heard = "https://www.dytt8.net" film_link = page_heard + film_link # list中的完整的电影link self.get_page(url=film_link) # 电影详情页源码 xun_lei = re.search(r'<td style=".*" bgcolor=".*"><a href="(.*)">ftp',self.pagecontent).group(1) # 正则出迅雷下载地址 self.file_dict[film_name] = xun_lei def start(self): num = int(input("请输入你要下载几页:")) for numa in range(1,num+1): print("正在下载第%d页,请稍后"%numa) self.get_page(url='https://www.dytt8.net/html/gndy/dyzz/list_23_%d.html'%numa) self.get_film_link() print("已下载完第%d页."%numa) for a, b in self.file_dict.items(): print("%s|%s" % (a, b)) if __name__ == '__main__': woyaoxiadiany = Dytt_pa() woyaoxiadiany.start() ```
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
有哪些让程序员受益终生的建议
从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自由,如何在工作中游刃有余,这篇文章很长,但绝对是精品,记得帮我点赞哦!!!! 一腔肺腑之言,能看进去多少,就看你自己了!!! 目录: 在校生篇: 为什么要尽量进大厂? 如何选择语言及方...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
redis分布式锁,面试官请随便问,我都会
文章有点长并且绕,先来个图片缓冲下! 前言 现在的业务场景越来越复杂,使用的架构也就越来越复杂,分布式、高并发已经是业务要求的常态。像腾讯系的不少服务,还有CDN优化、异地多备份等处理。 说到分布式,就必然涉及到分布式锁的概念,如何保证不同机器不同线程的分布式锁同步呢? 实现要点 互斥性,同一时刻,智能有一个客户端持有锁。 防止死锁发生,如果持有锁的客户端崩溃没有主动释放锁,也要保证锁可以正常释...
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
Python 编程开发 实用经验和技巧
Python是一门很灵活的语言,也有很多实用的方法,有时候实现一个功能可以用多种方法实现,我这里总结了一些常用的方法和技巧,包括小数保留指定位小数、判断变量的数据类型、类方法@classmethod、制表符中文对齐、遍历字典、datetime.timedelta的使用等,会持续更新......
YouTube排名第一的励志英文演讲《Dream(梦想)》
Idon’t know what that dream is that you have, I don't care how disappointing it might have been as you've been working toward that dream,but that dream that you’re holding in your mind, that it’s po...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
Java世界最常用的工具类库
Apache Commons Apache Commons有很多子项目 Google Guava 参考博客
相关热词 c# clr dll c# 如何orm c# 固定大小的字符数组 c#框架设计 c# 删除数据库 c# 中文文字 图片转 c# 成员属性 接口 c#如何将程序封装 16进制负数转换 c# c#练手项目
立即提问