用python写爬虫和用Java写爬虫的区别是什么?

为什么大多数都用python写爬虫

python有爬虫库吗?

6个回答

python开发起来方便,快速,爬虫库也比较好用,scrapy

python和爬虫简直是相得益彰,request库加bs4库,轻轻松松写爬虫

推荐一些爬虫的实现源码:https://github.com/ShenJianShou/crawler_samples

request库加bs4库 是轮子
scrapy是开源框架
都非常好用

有很多开源的库 所以比较好用

python网页爬虫相关的,都很好用,除了requests,urblib2,
其他的beautifulsoup,scrapy,selenium,splinter都很好用,组合起来非常顺手。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python做的爬虫怎么放到微信小程序上面去?

我想做一个微信小程序,然后后端是一个Python写的网站爬虫,用来爬一些牌子的商品上新数据,小程序就用来获取和显示爬到的数据,但是不想一直带着电脑,所以想把爬虫做成一个微信小程序放到手机上。 自己目前还是大二,编程能力渣渣,所以想借这个机会提高一下自己的能力,还请大佬指点怎么把Python做的爬虫变成微信小程序 我有了解到java做后端的,但是我java才学了一丢丢,和没学差不多,所以如果和java相关的也是可以的,我看看能不能努力去学学看,当然最好是Python

如何用python爬虫翻页并连续获取信息?

我是用python+xpath进行网络爬虫获取51job.com的信息,然后要爬取5页,我单页爬取是可以的,但是加上在网上搜的网页循环后就不行了,求大佬们帮助,后天就得交作业了,十万火急!!!谢谢~~ ``` #1)这段是可以单独运行成功的 import requests from lxml import etree html = etree.HTML(r.content, etree.HTMLParser(encoding='GBK')) for i in range(1, 5): url = 'https://search.51job.com/list/030200,000000,0000,00,1,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,[i].html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=' rq = requests.get(url) html = rq.text #2)这段也是单页爬取是可以运行成功,但是一起运行就不可以 #import requests #里面表示就是一页爬取信息 #url = 'https://search.51job.com/list/030200,000000,0000,00,1,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=' #r = requests.get(url) #r.encoding = 'GBK' #print (r.text) #职位名 position= [html.xpath('normalize-space(//*[@id="resultList"]/div['+str(p)+']/p/span/a/text())') for p in range(4,54)] #详情链接 links = [html.xpath('//*[@id="resultList"]/div['+str(p)+']/p/span/a/@href/text()') for p in range(4,54)] #公司名 company= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[1]/a/text()') for p in range(4,54)] #工作地点 adress= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[2]/text()') for p in range(4,54)] #+str(i)+ #薪资 wage= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[3]/text()') for p in range(4,54)] #发布时间 time= [html.xpath('//*[@id="resultList"]/div['+str(p)+']/span[4]/text()') for p in range(4,54)] ``` 链接也是可以运行,但是打印出来是空白的 ![图片说明](https://img-ask.csdn.net/upload/202004/15/1586932716_467998.jpg) 在线急!!!

请问如何用python实现PC端QQ的基本功能?可以用爬虫来爬取网页版QQ吗?

想写一个用python实现QQ各种功能的程序,主要有:登录;收发消息(不是自动回复,是即时会话);查找联系人等等。 在网上查找了很多,发现python中用于QQ的库似乎只有qqbot,但它是自动聊天机器人,不是我想要功能。 请问有什么方法可以实现这些功能? 像微信有itchat,wxpy这样的库可以使用,QQ怎样实现类似的效果? 我不懂爬虫,可不可以用爬虫的方式实现?比较急,十分感谢!

python爬虫抓取机票时出现的问题

我是在校学生,自学了点python,想用爬虫抓取机票价格可以更方便的了解特价票信息,所以在网上找了抓取的一些代码然后自己又改了一些,初步有自己想要的功能:挂在服务器上运行,一旦有特价票,向我的邮箱发信息。但是一直有问题,第一个是运行的时候会出下面这个错误(好像是列表越界): Exception in thread Thread-24: Traceback (most recent call last): File "/usr/local/python27/lib/python2.7/threading.py", line 551, in __bootstrap_inner self.run() File "/usr/local/python27/lib/python2.7/threading.py", line 755, in run self.function(*self.args, **self.kwargs) File "SpecialFlightPrice.py", line 72, in task_query_flight flights=getdate(city, today, enddate) File "SpecialFlightPrice.py", line 27, in getdate json_data = re.findall(pattern, price_html)[0] IndexError: list index out of range 还有一个问题就是我想每天定时对机票信息文件进行清空,但是写的代码却实现不了这个功能,请大神顺便帮我改一改。 先感谢! 下面是源码(我把个人的2个邮箱改成了xxxxxxxx,如果想运行需要把xxxxxxxx改成自己的2个邮箱,还有因为是挂在服务器上运行的,所以需要输入几个参数:出发地点,日期,日期后几天的机票): # -*- coding: utf-8 -*- import datetime import time import json import urllib import re import sys import threading from email.mime.text import MIMEText import smtplib from time import sleep from threading import Timer from _ast import While default_encoding = 'utf-8' reload(sys) sys.setdefaultencoding(default_encoding) def getdate(city,startdate,enddate): url = 'https://sjipiao.alitrip.com/search/cheapFlight.htm?startDate=%s&endDate=%s&' \ 'routes=%s-&_ksTS=1469412627640_2361&callback=jsonp2362&ruleId=99&flag=1' % (startdate, enddate,city) price_html = urllib.urlopen(url).read().strip() pattern = r'jsonp2362\(\s+(.+?)\)' re_rule = re.compile(pattern) json_data = re.findall(pattern, price_html)[0] price_json = json.loads(json_data) flights = price_json['data']['flights'] # flights Info return flights def sendmail(a,b,c,d): _user = "xxxxxxxxxxx@163.com" _pwd = "xxxxxxxxxxx" _to = "xxxxxxxxxxxxx@qq.com" msg = MIMEText('%s%s%s%s'%(a,b,c,d),'plain','utf-8') msg["Subject"] = "有特价票啦~" msg["From"] = _user msg["To"] = _to try: s = smtplib.SMTP_SSL("smtp.163.com", 465) s.login(_user, _pwd) s.sendmail(_user, _to, msg.as_string()) s.quit() print "Success!" except smtplib.SMTPException: print "Falied" def task_query_flight(): city=str(sys.argv[1]) year=int(sys.argv[2]) month=int(sys.argv[3]) day=int(sys.argv[4]) delay=int(sys.argv[5]) if city=='DL': city='DLC' elif city=='NJ': city='NKG' elif city=='BJ': city='BJS' today = datetime.date(year,month,day) enddate = today + datetime.timedelta(delay) print'从%s到%s的最便宜的机票价格是' % (today,enddate) flights=getdate(city, today, enddate) for f in flights: if f['discount'] <=2 : source = '从:%s-' % f['depName'] dest = '到:%s\t' % f['arrName'] price = '\t价格:%s%s(折扣:%s)\t' % ((f['price']), f['priceDesc'], f['discount']) depart_date = '\t日期:%s' % f['depDate'] print source+dest+price+depart_date with open('store.txt','a') as f: f.write(' ') with open('store.txt','r') as f: for line in f.readlines(): if '%s%s%s%s'%(source,dest,price,depart_date) in line: Timer(60,task_query_flight).start() else: sendmail(source, dest, price, depart_date) with open('store.txt', 'a') as f: f.write('%s%s%s%s'%(source,dest,price,depart_date)) Timer(60,task_query_flight).start() ''' 两个问题: 1、列表越界 list out of range 2、定时器只会运行一次 不知什么原因。 if 没找到discount<2的, 则 循环一直找 并且设定时器到某一时间即清空文件内容 ''' while True: task_query_flight() current_time = time.localtime(time.time()) if((current_time.tm_hour == 7) and (current_time.tm_min == 0)): with open('store1.txt','w') as f: f.truncate() time.sleep(60) if __name__ == '__main__': task_query_flight()

java 使用ChromeDriver做爬虫如何动态代理?

java使用ChromeDriver做爬虫时需要做代理,而好多网上的例子都用了 browser = new ChromeDriver(cap);这个方法,但这个方法每次都会启动一个新的浏览器,每次我都要重新登录,有没有好的办法动态设置代理呢? 伙计们注意我说的是java

是否任何爬虫都能在Hadoop平台上运行

如题,我想问要在Hadoop平台上运行的爬虫是否有特殊要求,不管Hadoop是单机的,伪分布式,还是真正的集群,所写的爬虫是否都能在上面运行?

求助!爬虫过程中,无法解决网页弹窗的问题

我在写爬虫脚本时,遇到网页弹窗,利用网上的方法都无法解决(自动点击弹窗上的确定,并关闭网页) 弹窗样式如下: ![图片说明](https://img-ask.csdn.net/upload/202006/06/1591427611_872615.png) xhelper显示的路径 ![图片说明](https://img-ask.csdn.net/upload/202006/06/1591427636_310209.png) 网页源代码 ![图片说明](https://img-ask.csdn.net/upload/202006/06/1591427665_607112.png) 我采用的是python3.8+selenium ![图片说明](https://img-ask.csdn.net/upload/202006/06/1591427824_895689.png)

python爬虫中文乱码,用了utf-8解码,仍然是乱码, 如何处理?

``` import requests import json from requests.packages.urllib3.exceptions import InsecureRequestWarning requests.packages.urllib3.disable_warnings(InsecureRequestWarning) from bs4 import BeautifulSoup import sys def getHTMLText(url): try: headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'} h=requests.get(url,headers = headers, verify = False) h.raise_for_status() h.encoding="gbk" return h.text except: return "" url = 'http://www.shicimingju.com/book/hongloumeng/1.html' soup = BeautifulSoup(getHTMLText(url),"html.parser") with open('第一章.txt','w',encoding = 'UTF-8',errors = 'ignore') as f: f.write(str(soup)) ``` 运行结果(部分)是 ``` ```

python爬虫如何抓取包含JavaScript的网页中的信息

这里本科生一枚。。做本研要求抓取一些数据碰到了一些问题求指教> < 我想要抓取汽车之家上关于供应商的一些数据,然后在车型详情页里找到了关于供应商的框架源代码如下(只截取有用部分): <script type="text/javascript"> //属性 document.domain = "autohome.com.cn"; var page=1; var parameters = { isPage:0, pageCount:0, kindId:-1, vId:23867, pId: 110000, cId: 110100, sId: 0, cityUrl: '/frame/cms/GetProvinceCityList?SpecId=23867&SeriesId=0&roid1=2', url: "/frame/spec/{vId}/{pId}/{cId}/{sId}/{orderType}/{pageIndex}/{pageSize}?isPage={isPage}&seriesId={seriesId}&source={source}&kindId={kindId}" , kindUrl:"/frame/cms/GetKindBySpec?specId={vId}&provinceId={pId}&cityId={cId}&countyId={sId}", panel:"#dealer-box", pageSize:5, pageIndex: 1, orderType :0, seriesId:66, source:"defalut" }; $("[name='orderBy']").click(function() { parameters.orderType = $(this).attr('data-order'); $("#orderCan .current").attr("class", "linkname"); $(this).attr("class", "linkname current"); //parameters.pageIndex = 1; var firstPage = $("#dealerListPager a[data=1]").eq(0); if (firstPage.length == 1) { firstPage.click(); } else { load(); } return false; }); seajs.config({version:"1460100712877"}); var $$; seajs.use(['jquery','pop'], function ($) { $$=$; }); $(function(){ jQuery("#orderCan a").each(function(){ if($(this).attr("data-order")==parameters.orderType) { $("#orderCan .current").attr("class","linkname"); $(this).attr("class","linkname current"); } }) }) </script> <script type="text/javascript" src="http://x.autoimg.cn/dealer/bbs/js/DealerArea20160413.js?t=2016041421"></script> 里面包含的信息应该怎么抓取呢?我是通过selenium来进入网页的框架,这些js应该怎么解析?我尝试着用前面的那些parameter凑出来URL,但是输入到浏览器中就会跳转到汽这个网站的首页,用urllib2打开的话会报错Error 10060,但是网什么的也都没有问题,是我的IP被封了还是需要一个什么特殊的代理?? 本科期间只学过python的两门课,对java没什么了解,求帮助呀QAQ谢谢大家啦

Python爬虫,我用bs4的find方法为什么反回的是空值?怎么解决(已解决)?

代码如下: ``` import time import random import requests import urllib from bs4 import BeautifulSoup headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36") opener=urllib.request.build_opener() opener.addheaders=[headers] urllib.request.install_opener(opener) class UserAgent(): def _get_UA(self,html): soup = BeautifulSoup(html, "html.parser") ip_get = [] ip_list = soup.find_all("tr") for i in range(1,len(ip_list)): ip_both = ip_list[i].find_all("td") front = ip_both[1].text+':' ip_get.append(front+ip_both[2].text) time.sleep(random.randint(15,20)) return ip_get def _get_html(self,html): if html==None: this_html=urllib.request.urlopen('https://www.xicidaili.com/nn/1') else: soup = BeautifulSoup(html,"html.parser") next_page_url = soup.find("a",class_="next_page") print(next_page_url) html = urllib.request.urlopen('https://www.xicidaili.com'+next_page_url) this_html = html return this_html ``` 错误出在_get_html方法中else里面的代码,传入的地址没有问题,我用浏览器可以正常打开地址https://www.xicidaili.com/nn/1 主运行代码如下: ``` n = User_Agent.UserAgent() ip_html = n._get_html(None) fake_ip = n._get_UA(ip_html) ip_html = n._get_html(ip_html) ``` 还有报错是这么说的: ``` Traceback (most recent call last): File "E:\java4412\spider_demo\book_spider\main.py", line 21, in <module> None ip_html = n._get_html(ip_html) File "E:\java4412\spider_demo\book_spider\User_Agent.py", line 35, in _get_html html = urllib.request.urlopen('https://www.xicidaili.com'+next_page_url) TypeError: Can't convert 'NoneType' object to str implicitly ``` 有哪位大牛帮我看看这代码哪里不对么?本小白已经要疯了。。。。。 =========================分割线================================================================= 问题已解决 原因是我原先一直用一个固定header 我找了一个别人收集的User_Agent集合,在代码中随机更换header。 更改后的代码如下: ``` class UserAgent(): def _get_UA(self,soup): headers=("User-Agent",Headers.getheaders()) opener=urllib.request.build_opener() opener.addheaders=[headers] urllib.request.install_opener(opener) # soup = BeautifulSoup(html, "html.parser") ip_get = [] ip_list = soup.find_all("tr") for i in range(1,len(ip_list)): ip_both = ip_list[i].find_all("td") front = ip_both[1].text+':' ip_get.append(front+ip_both[2].text) time.sleep(random.randint(15,20)) return ip_get def _get_html_first(self): headers=("User-Agent",Headers.getheaders()) opener=urllib.request.build_opener() opener.addheaders=[headers] urllib.request.install_opener(opener) this_html=urllib.request.urlopen('https://www.xicidaili.com/nn/1') soup = BeautifulSoup(this_html,"html.parser") return soup def _get_soup(self,soup): headers=("User-Agent",Headers.getheaders()) opener=urllib.request.build_opener() opener.addheaders=[headers] urllib.request.install_opener(opener) next_page_url = soup.find("a",class_="next_page").get('href') print(next_page_url) html = urllib.request.urlopen('https://www.xicidaili.com'+next_page_url) soup = BeautifulSoup(html,'html.parser') return soup ``` 进行了一定的修改,可以正确运行。其中的_print()_是我为验证结果打的。

python爬虫时为什么网页源码经过xpth处理后无法解析了呢

## 在爬取一个小说网站的时候我发现在网页的response中可以看到相关的值,但是在获取的时候就出现了问题 ### 具体问题是这样的, - 爬取的网站链接为:https://www.qiushuzw.com/t/38890/10253657.html ``` from lxml import etree import requests class Xiaoshuospider: def __init__(self): self.start_url = 'https://www.qiushuzw.com/t/38890/10253656.html' self.headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive", "Cookie": "BAIDU_SSP_lcr=https://www.80txt.com/txtml_38890.html; Hm_lvt_c0ce681e8e9cc7e226131131f59a202c=1554447305; Hm_lpvt_c0ce681e8e9cc7e226131131f59a202c=1554447305; UM_distinctid=169ec4788554ea-0eba8d0589d979-1a201708-15f900-169ec4788562c1; CNZZDATA1263995655=929605835-1554443240-https%253A%252F%252Fwww.80txt.com%252F%7C1554443240", "Host": "www.qiushuzw.com", "If-Modified-Since": "Thu, 31 Jan 2019 03:00:17 GMT", "If-None-Match": 'W/"5c5264c1 - 3f30"', "Referer": "https://www.80txt.com/txtml_38890.html", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36", } def parse(self): res = requests.get(self.start_url,headers=self.headers).content.decode() html = etree.HTML(res) content = html.xpath("div[@class='book_content']/text()") print(content) def run(self): self.parse() if __name__ == '__main__': xiaoshuo = Xiaoshuospider() xiaoshuo.run() ``` - 根据xpath规则我将这些信息处理以后无法找到相应小说文本内容,小说的详细信息无法使用xpath提取出来 ## 有没有哪位大佬也遇到相应的问题

selenium+headless chrome实现爬虫并根据url进行长网页快照截屏(Java)

如标题用selenium+headless chrome进行了网页爬取,然后讲爬取的网页进行快照截图,实现的都是当前页截图,怎么是实现将整个网页都截取下来,也可以不用headless chrome谷歌ie浏览器的都可以

关于java爬虫,模拟登陆招商银行,爬取银行流水信息

关于java爬虫,模拟登陆招商银行,爬取银行流水信息 因为这个有人做,所以了解到是用爬虫做的,所以问下大家如何实现?

java用Runtime.getRuntime调用机器学习的Python主程序不成功

在网上搜了很多java调用Python程序的方法, 发现Runtime.getRuntime还是比较管用的, 但是用这个方法调用一个不需要导入其他Python文件的.py能成功, 不过用这个方法调用深度神经网络的Python主文件,怎么都调不通,请问有懂这个的大神吗? ![图片说明](https://img-ask.csdn.net/upload/202003/13/1584088308_748137.png) 最新: 已经解决了。 使用这个方法 ``` Runtime.getRuntime().exec("cmd /c E:xxxxx\\run.bat"); ``` run.bat 是自己写的批处理脚本,里面具体写的是以cmd命令行进入Python的运行环境(anaconda之类的),然后执行.py文件。 注意使用anaconda的朋友要写bat文件第一句使用CALL来激活你的环境。 ``` CALL activate xxx //(xxx是你环境名字) ```

爬虫遇到没有访问权限一般都是因为什么引起的

![图片说明](https://img-ask.csdn.net/upload/202001/03/1578025840_389137.png) 已经模拟登录成功了,就是在发送请求的时候出现无访问权限. 请问是因为cookie的原因才会导致这个的吗

京东爬虫模拟登录卡在验证码

希望用python做一个小程序来爬取京东信息,无奈总卡在验证码环节。已确认京东发送验证码的地址应该没错,但是每次收到的验证码却都是几个固定伪码,导致登录不上去。 不知道哪位大神可以提供点思路给小弟。 class JDWrapper(object): ''' This class used to simulate login JD ''' def __init__(self, usr_name, usr_pwd): # cookie info self.trackid = '' self.uuid = '' self.eid = '' self.fp = '' self.usr_name = usr_name self.usr_pwd = usr_pwd self.interval = 0 # init url related self.home = 'https://passport.jd.com/new/login.aspx' self.login = 'https://passport.jd.com/uc/loginService' self.imag = 'https://authcode.jd.com/verify/image' self.auth = 'https://passport.jd.com/uc/showAuthCode' self.sess = requests.Session() self.sess.header = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36', 'ContentType': 'application/x-www-form-urlencoded; charset=utf-8', 'Connection' : 'keep-alive', } try: self.browser = webdriver.PhantomJS('phantomjs.exe') except Exception, e: print 'Phantomjs initialize failed :', e exit(1) @staticmethod def print_json(resp_text): ''' format the response content ''' if resp_text[0] == '(': resp_text = resp_text[1:-1] for k,v in json.loads(resp_text).items(): print u'%s : %s' % (k, v) @staticmethod def response_status(resp): if resp.status_code != requests.codes.OK: print 'Status: %u, Url: %s' % (resp.status_code, resp.url) return False return True def need_auth_code(self, usr_name): # check if need auth code # auth_dat = { 'loginName': usr_name, } payload = { 'r' : random.random(), 'version' : 2015 } resp = self.sess.post(self.auth, data=auth_dat, params=payload) if self.response_status(resp) : js = json.loads(resp.text[1:-1]) return js['verifycode'] print u'获取是否需要验证码失败' return False def get_auth_code(self, uuid): # image save path image_file = os.path.join(os.getcwd(), 'authcode.jfif') payload = { 'a' : 1, 'acid' : uuid, 'uid' : uuid, 'yys' : str(int(time.time() * 1000)), } # get auth code r = self.sess.get(self.imag, params=payload) if not self.response_status(r): print u'获取验证码失败' return False with open (image_file, 'wb') as f: for chunk in r.iter_content(chunk_size=1024): f.write(chunk) f.close() os.system('start ' + image_file) return str(raw_input('Auth Code: ')) def login_once(self, login_data): # url parameter payload = { 'r': random.random(), 'uuid' : login_data['uuid'], 'version' : 2015, } resp = self.sess.post(self.login, data=login_data, params=payload) if self.response_status(resp): js = json.loads(resp.text[1:-1]) #self.print_json(resp.text) if not js.get('success') : print js.get('emptyAuthcode') return False else: return True return False

爬虫 JSESSIONID 问题

写爬虫时碰到问题,cookie里需要 JSESSIONID 这个参数,怎么能自动获取到呢,省的手动复制粘贴

爬虫中遇到的问题,主要是没接触过

Exception in thread "main" java.lang.Error: Unresolved compilation problem: The method accept(Node) of type new NodeFilter(){} must override a superclass method at com.ir.sitecrawler.HtmlParserTool$1.accept(HtmlParserTool.java:30) at org.htmlparser.filters.OrFilter.accept(OrFilter.java:114) at org.htmlparser.nodes.AbstractNode.collectInto(AbstractNode.java:238) at org.htmlparser.Parser.extractAllNodesThatMatch(Parser.java:768) at com.ir.sitecrawler.HtmlParserTool.extracLinks(HtmlParserTool.java:43) at com.ir.sitecrawler.MyCrawler.crawling(MyCrawler.java:60) at com.ir.sitecrawler.SpiderWidth.main(SpiderWidth.java:14) 这是什么原因造成的呢?解决的办法是什么?

当爬虫遇上手机验证码该如何解决?

这两天用Java selenium + phantomjs 写了个模拟登录京东,爬个人信息、订单信息等内容,今天把代码传到服务器后,发现需要手机验证码了,大概是异地登陆才会出现的情况,在此想请教下各位大牛,如何通知到客户端需要输入手机验证码,再将验证码返回到服务端,继续完成爬取数据操作呢? 话说类似于京东、淘宝等电商网站,需要登录后才能查看个人信息的网站,除了selenium还有什么更好的选择吗?

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

我说我不会算法,阿里把我挂了。

不说了,字节跳动也反手把我挂了。

抖音上很火的时钟效果

反正,我的抖音没人看,别人都有几十万个赞什么的。 发到CSDN上来,大家交流下~ 主要用到原生态的 JS+CSS3。 具体不解释了,看注释: &lt;!DOCTYPE html&gt; &lt;html lang="en"&gt; &lt;head&gt; &lt;meta charset="UTF-8"&gt; &lt;title&gt;Title&lt;/tit...

记录下入职中软一个月(外包华为)

我在年前从上一家公司离职,没想到过年期间疫情爆发,我也被困在家里,在家呆着的日子让人很焦躁,于是我疯狂的投简历,看面试题,希望可以进大公司去看看。 我也有幸面试了我觉得还挺大的公司的(虽然不是bat之类的大厂,但是作为一名二本计算机专业刚毕业的大学生bat那些大厂我连投简历的勇气都没有),最后选择了中软,我知道这是一家外包公司,待遇各方面甚至不如我的上一家公司,但是对我而言这可是外包华为,能...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

手机经常收到"回复TD退订",回还是不回?今天总算是弄清楚了

自从有了微信和QQ,手机短信几乎很少再用了,但是我们手机里面还是经常会收到"回复TD退订"的消息,那到底要不要回复呢?今天就来告诉大家! 信息内容可能包括 推销信息 品牌活动日的时候,会根据你的用户浏览信息,或者购买记录,后续发送一些降价消息。 但是笔者想说我是缺那10块钱的人嘛,我缺的是1000块。 垃圾信息 虽然我们已经不经常用短信功能,但是还是有不少...

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试官问我:如何加载100M的图片却不撑爆内存

还记得当年面试一个面试官问我怎么加载巨图才能不撑爆内存,我没回答上来,他说分片显示,我寻思特么分片能减少内存使用??现在可以打他脸了! 内容扩展 1.图片的三级缓存中,图片加载到内存中,如果内存快爆了,会发生什么?怎么处理? 2.内存中如果加载一张 500*500 的 png 高清图片.应该是占用多少的内存? 3.Bitmap 如何处理大图,如一张 30M 的大图,如何预防 OOM? A...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

又出事了?网站被攻击了?高中生?

北京时间2020年3月27日9点整,如往常一样来到公司,带开电脑,正准备打开Github网站看一会源代码,再开始手头的工作。哟吼,一直打不开,一直出现如下页面: 我想很多网友也尝到了甜头,各大技术群炸开了锅,据网友反馈有攻击者正在发起大规模的中间人挟持,京东和Github等网站等网站都受到了影响。 什么是中间中间人挟持呢? 简而言之,就是攻击者在数据网络传输的过程中,截获传输过程中的数据并篡改...

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

培训班出来的人后来都怎么样了?(二)

接着上回说,培训班学习生涯结束了。后面每天就是无休止的背面试题,不是没有头脑的背,培训公司还是有方法的,现在回想当时背的面试题好像都用上了,也被问到了。回头找找面试题,当时都是打印下来天天看,天天背。 不理解呢也要背,面试造飞机,上班拧螺丝。班里的同学开始四处投简历面试了,很快就有面试成功的,刚开始一个,然后越来越多。不知道是什么原因,尝到胜利果实的童鞋,不满足于自己通过的公司,嫌薪水要少了,选择...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

6年开发经验女程序员,面试京东Java岗要求薪资28K

写在开头: 上周面试了一位女程序员,上午10::30来我们部门面试,2B哥接待了她.来看看她的简历: 个人简历 个人技能: ● 熟悉spring mvc 、spring、mybatis 等框架 ● 熟悉 redis 、rocketmq、dubbo、zookeeper、netty 、nginx、tomcat、mysql。 ● 阅读过juc 中的线程池、锁的源...

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

工作八年,月薪60K,裸辞两个月,投简历投到怀疑人生!

近日,有网友在某职场社交平台吐槽,自己裸辞两个月了,但是找工作却让自己的心态都要崩溃了,全部无果,不是已查看无回音,就是已查看不符合。 “工作八年,两年一跳,裸辞两个月了,之前月薪60K,最近找工作找的心态崩了!所有招聘工具都用了,全部无果,不是已查看无回音,就是已查看不符合。进头条,滴滴之类的大厂很难吗???!!!投简历投的开始怀疑人生了!希望 可以收到大厂offer” 先来看看网...

推荐9个能让你看一天的网站

分享的这9个保证另你意外的网站,每个都非常实用!非常干货!毫不客气的说,这些网站最少值10万块钱。 利用好这些网站,会让你各方面的技能都得到成长,不说让你走上人生巅峰,但对比现在的你,在眼界、学识、技能方面都有质的飞跃。 一、AIRPANO 传送门:https://www.airpano.com/360photo_list.php 这是一个可以躺在家里,就能环游世界的神奇网站。 世界那么大,绝大多...

大牛都会用的IDEA调试技巧!!!

导读 前天面试了一个985高校的实习生,问了他平时用什么开发工具,他想也没想的说IDEA,于是我抛砖引玉的问了一下IDEA的调试用过吧,你说说怎么设置断点...

都前后端分离了,咱就别做页面跳转了!统统 JSON 交互

文章目录1. 无状态登录1.1 什么是有状态1.2 什么是无状态1.3 如何实现无状态1.4 各自优缺点2. 登录交互2.1 前后端分离的数据交互2.2 登录成功2.3 登录失败3. 未认证处理方案4. 注销登录 这是本系列的第四篇,有小伙伴找不到之前文章,松哥给大家列一个索引出来: 挖一个大坑,Spring Security 开搞! 松哥手把手带你入门 Spring Security,别再问密...

月薪22K程序员,打卡迟到10次,收到工资短信一脸懵逼

每家公司为了保证公司员工每天的工作时间,一般都会采用上下班打卡的工作制度,这其实是一个很常见的是,本身也没有什么问题的。正所谓无规矩不成方圆,公司肯定是有公司的规矩,虽然每个员工都很不喜欢这些规矩来束缚我们,但是公司也只是为了能更好的管理员工。但是一家公司如果一成不变的使用打卡制度,而不会去变通管理,也真不一定是好事。 打卡制度特别对于销售部门来说,不但会让公司发展不起来,还很容易丢失员工。但如...

97年世界黑客编程大赛冠军作品(大小仅为16KB),惊艳世界的编程巨作

这是世界编程大赛第一名作品(97年Mekka ’97 4K Intro比赛)汇编语言所写。 整个文件只有4095个字节, 大小仅仅为16KB! 不仅实现了3D动画的效果!还有一段震撼人心的背景音乐!!! 内容无法以言语形容,实在太强大! 下面是代码,具体操作看最后! @echo off more +1 %~s0|debug e100 33 f6 bf 0 20 b5 10 f3 a5...

不要再到处使用 === 了

我们知道现在的开发人员都使用 === 来代替 ==,为什么呢?我在网上看到的大多数教程都认为,要预测 JavaScript 强制转换是如何工作这太复杂了,因此建议总是使用===。这些都...

什么是a站、b站、c站、d站、e站、f站、g站、h站、i站、j站、k站、l站、m站、n站?00后的世界我不懂!

A站 AcFun弹幕视频网,简称“A站”,成立于2007年6月,取意于Anime Comic Fun,是中国大陆第一家弹幕视频网站。A站以视频为载体,逐步发展出基于原生内容二次创作的完整生态,拥有高质量互动弹幕,是中国弹幕文化的发源地;拥有大量超粘性的用户群体,产生输出了金坷垃、鬼畜全明星、我的滑板鞋、小苹果等大量网络流行文化,也是中国二次元文化的发源地。 B站 全称“哔哩哔哩(bilibili...

十个摸鱼,哦,不对,是炫酷(可以玩一整天)的网站!!!

文章目录前言正文**1、Kaspersky Cyberthreat real-time map****2、Finding Home****3、Silk – Interactive Generative Art****4、Liquid Particles 3D****5、WINDOWS93****6、Staggering Beauty****7、Ostagram图片生成器网址****8、全历史网址*...

我真的错了,我被跳槽后的高薪冲昏了头脑...

国内疫情已接近尾声,疫情对生活各个方面造成的影响,就是一场真实的“蝴蝶效应”。“全球最大安全套制造商因疫情停产,已造成一亿个安全套缺口”“口罩印钞机,月入千万的暴富神话”“百程旅行...

终于,月薪过5万了!

来看几个问题想不想月薪超过5万?想不想进入公司架构组?想不想成为项目组的负责人?想不想成为spring的高手,超越99%的对手?那么本文内容是你必须要掌握的。本文主要详解bean的生命...

​能让德国人放弃现金支付​,也没谁了

在新冠疫情中,德国人越来越多地选择在超市,加油站或其他商店付款时使用非接触式付款方式。德国信贷协会Deutschen Kreditwirtschaft (DK) 的一位发言人告诉德国新...

相关热词 c# 局部 截图 页面 c#实现简单的文件管理器 c# where c# 取文件夹路径 c# 对比 当天 c# fir 滤波器 c# 和站 队列 c# txt 去空格 c#移除其他类事件 c# 自动截屏
立即提问