如何利用python selenium 判断某个网页是否加载完毕

1、个人想利用python selenium(webdriver) 去拨测一些域名,域名不同,然后将这些域名返回的网页完全加载出来,再进行截图。
2、现在是利用selenium自动化访问无法判断每个页面是否完全加载出来,因为不同网页的元素与标签都不尽相同;若用“显示等待”发现这个条件个人设置不好,因为不是判断加载指定的一个元素。
例如:显示等待导入类如下
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

问题:现在就是想知道用这种方面如何判断将页面完全加载出来,谢谢!
利如百度、知乎、360域名等等

4个回答

只能说判断网页中是否存在某个元素,因为网页加载完毕在ajax时代已经变得模糊了。

举例来说,weibo可以不断向下拖动加载,什么时候算加载完?
在网页里的时钟,不断更新,什么时候加载完?
网页里的聊天,什么时候算加载完?

加载完只能是你人为定义的。

参考:https://www.cnblogs.com/vickey-wu/p/6740647.html

xue_11
xue_11 若不考虑向下拖动的滚动条呢,只考虑当前显示的页面否加载完成呢。我就想请求不同的网址,想确定是当前页面显示,主要是不确定当前页面如何才显示完
大约一年之前 回复

可以用浏览器打开链接(完整加载),通过“查看源” 找到要的数据(记住标记,比如某个元素),selenium+python获取到页面代码再去判断查找你的标记就知道是否加载完了。

xue_11
xue_11 浏览器打开链接(完整加载),这个完整加载如何定义?
大约一年之前 回复

用浏览器打开你那个连接(完整加载),通过 查看源 找到你要的数据(记住标记,比如某个元素),selenium+python获取到页面代码再去判断查找你的标记就知道是否加载完了。

sleep(10)
现在这些网页体验,不可能10s还没加载完的

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python的selenium如何等待整个页面加载完成

如题, 这里需要等待整个页面加载完成再进行操作 不是time.sleep这种愚蠢的 也不是隐式等待implicitly_wait

python爬虫selenium+phantomjs获取JS动态网页

网页有大量数据在不断加载,如何连续获取这些内容,使用time.sleep()修改不同时间,但是得到的结果还是一样的,只有几个数据,这个问题怎么解决啊,求打救

python+selenium爬取ie浏览器数据,怎么等待数据下载完成,文件下载窗口弹出

用python+selenium爬取ie10浏览器的数据,点击download之后,数据加载需要一定的时间,数据需要一两分钟才能下载成功并弹出“是否打开或保存文件”的窗口,目前是用time.sleep(),然后用autolt3写的脚本处理文件下载窗口的。 问题是:所爬取的网站不稳定,有时下载的时间长,有时很短的时间就下载好了,time.sleep太死板,也想过用selenium的wait,但是找不到文件下载窗口的源代码,不知道要wait什么元素,求大神指点迷津,非常感谢~

python爬虫,使用selenium爬取某宝数据,爬虫代码能正常运行,但是控制台只打印了一个商品的信息

1、 环境:pycharm 浏览器:chrome 描述:使用selenium爬取某宝数据,爬虫代码能正常运行(可以对元素进行定位,可以下拉滑动条、可以通过修改url去到下一页),但是控制台只打印了一个商品的信息,其余爬取的信息没有被打印出来 2、代码如下: ``` """ 爬取淘宝商品步骤: 1、打开谷歌浏览器,访问淘宝网站:找到淘宝的 url 2、定位搜索框和搜索按钮(F12,使用元素选择器进行定位,复制 XPath),要完成的动作→输入要搜索的商品,然后点击搜索按钮 3、在登陆界面停留 10 秒,手机扫码登陆(需手动),高级一点的方法可以自送输入账号密码登陆 4、进入搜索结果页面,模仿人浏览商品时的动作→下拉滑动条到页面的最后,拉5次,拉的过程有暂停 """ from selenium import webdriver # 需要一款浏览器,访问淘宝网址 import time import re # 找到 输入框 找到 按钮 # 元素(输入框、按钮等) 定位 def search_product(): driver.find_element_by_xpath('//*[@id="q"]').send_keys(kw) driver.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click() # # 强行阻止程序运行 10s的时间 time.sleep(5) # 获取搜索结果页面的总页码 token = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]').text token = int(re.compile('(\d+)').search(token).group(1)) return token # 元素定位 他没有前提吗?你的网速比较慢,如果元素没有加载完毕,那么你能够去定位没有加载的数据吗?没有加载出来 # 也就是说,这个加载的过程 是因为我拉动了下滑条! # 步骤:登录 拉动下滑条 采集数据 下一页 拉动下滑条 再采集数据,按这个循环! def drop_down(): # 一次拉一部分,拉的时候有暂停 range 得出 1 3 5 7 9 五个数 for x in range(1, 11, 2): time.sleep(0.5) # j 代表滑动条的五个位置:1/10、3/10、5/10、7/10、9/10 j = x/10 # 下面的 js 是 JavaScript 的语法,可以当作万能公式解决大部分网站问题 js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j driver.execute_script(js) def get_product(): # 首先获取所有的 div ,然后遍历所有的 div ,得到一个div 再去一个 div 里面寻找需要的数据 # // 代表任意位置(任意一个位置的属性属于 class="items" 的 div) # //div[@]/div[@] 代表要获取的 div 的路径 divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq item-ad "]') for div in divs: # . 代表当前目录, .// 当前目录下的任意 div标签 下的 a标签 下的 img标签 下的 src info = div.find_element_by_xpath('.//div[@class="row row-2 title"]').text price = div.find_element_by_xpath('.//div[@class="price g_price ' 'g_price-highlight"]/strong').text + '元' deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text image = div.find_element_by_xpath('.//div[@class="pic"]/a/img').get_attribute('src') # name = div.find_element_by_xpath('.//div[@class="shop"/a/span[1]').text address = div.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="location"]').text # 定义一个字典 product = {'标题': info, '价格': price, '订单量': deal, '图片': image, '地址': address} print(product) # 淘宝的反爬很严重,所以尽量不要模拟多次点击下一页 # 采用改 url 的方法可以避免反爬:通过分析淘宝页面的 url→https://s.taobao.com/search?q=Python&s=88 # 可以得知下一页就是在 url 后面的值 +44。即第4页的 url 为 https://s.taobao.com/search?q=Python&s=132 def next_page(): token = search_product() drop_down() get_product() num = 1 while num != token: driver.get('https://s.taobao.com/search?q={}&s={}'.format(kw, 44*num)) num += 1 # time.sleep(4) 。这个方法延迟太慢了,改用下面的只能等待方法 # 隐视等待,智能等待,最高等待时间为10s,如果超过10s,抛出异常 driver.implicitly_wait(10) # 无限循环进入网页,可能造成网页卡顿!导致数据加载不出来,解决方法是加一个延迟,等数据先加载出来再操作 drop_down() get_product() if __name__ == '__main__': kw = input('请输入你想查询的商品:') driver = webdriver.Chrome() driver.get('https://www.taobao.com/') next_page() # 这个程序可以无限制地爬取内容,淘宝无法检测出来而反爬 ``` 3、代码能正常运行,打印信息如下: ![图片说明](https://img-ask.csdn.net/upload/202003/28/1585363085_99864.jpg) 4、求各位大神帮忙解决一下T-T

webdriver如何获取ajax加载出来的数据?

使用chrome webdriver 访问网页后,ajax能自动访问到数据,但是页面只会显示其中一部分,我想获取ajax返回的全部内容? 请问哪位大大能帮忙解决下???? Thanks♪(・ω・)ノ

Selenium-svg元素节点定位不到

1.selenium 查找svg中的节点找不到,已经正确的切入到iframe页。 ![图片说明](https://img-ask.csdn.net/upload/201901/17/1547711807_153653.png) 2.driver.pagesouce()打印出来的信息,只能加载到embed前的元素,后面的svg节点也没有。 ![图片说明](https://img-ask.csdn.net/upload/201901/17/1547712065_854347.png) 3.等待了30s,等待svg加载完成,通过driver.find_element_by_id("//svg")也没有找到,当然通过[*name()='svg']这种也没有找到。请大家帮忙看看这个怎么解决。

python如何抓取Ajax请求的页面?

抓取facebook首页是返回的对象只有首屏的内容,实际访问了一下 其他页面是鼠标滚动事件请求加载的,请大神帮忙解释一下:怎么抓取鼠标滚动事件加载的页面。

appium测试Android APP,启动后app后 自定义显示等待 登录页面加载完成,总是报错

最近在实践appium自动化测试Android app,之前写过selenium webdriver的相关脚本,接触到appium后,就开始混淆不太懂了: 比如 什么时候用 WebDriver,AndroidDriver, WebElement,AndroidElement …… 定位方式也是多种多样, by…… findby…… uiselector…… uiautomato…… appium定位方法写好后也不能像selenium那样借助xpath插件验证定位写法对不对,appium java-client、selenium 版本繁多,也看到网上有些问题说是版本引起的,就更头大了 ,接触有2周左右还是比较混乱。希望各路大神点播点播学习方向。 接下来说问题吧,之前是java-client4x的版本,就像selenium 里面一样webdriverwait 写法,启动app后可以实现自定义显示等待登录页面显示完成,由于使用的po设计模式,在页进入到到 其他 页面 ,页返回回新页面时类总是出错,也没找到解决办法,于是更新了 java-client版本5.0.0, selenium-java 3.5.2版本,无论是参照 https://www.cnblogs.com/tobecrazy/p/4596214.html 这位的方法 还是 selenium 里面的写法,都报错返回类型转换不匹配WebElement 的问题 ,看了看相关源码,可能现在能力不足 ,还是无计可施 问题贴出来给大家看看,有遇到过类似困扰的 已解决的大牛们 求指点。 ![图片说明](https://img-ask.csdn.net/upload/201711/29/1511945999_275318.jpeg)

python使用asyncio+aiohttp加载速度过快 如何进行限速

import aiohttp import asyncio import time import multiprocessing as mp import requests from bs4 import BeautifulSoup import socket import re import pprint import os import pymongo url = 'https://osu.ppy.sh/rankings/mania/performance?page='#+pageNum+'#scores' page = [1, 5] # 开始页数-结束页数 badRequest = {} # pageNum:resCode htmls=[] colls={} headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Encoding':'gb2312,utf-8', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0', 'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 'Connection':'Keep-alive' } #way store in mongoDB : collection: {"_id":"1", "Rank":"1","Player Name":"Jakads","Accuracy":"97.59%","Play Count":"" #"Performance":"17288pp"} async def getPages(pageNum): #每1秒获取一个页面当做缓存 conn = aiohttp.TCPConnector(limit=4) global url #global badRequest #global htmls async with aiohttp.ClientSession() as session: try: print('开始get网页,pageNum=',pageNum) async with session.get(url=url +str(pageNum)+'#scores',headers=headers, timeout=10) as res: print(url +str(pageNum)+'#scores') await asyncio.sleep(5) txt=await res.text() resCode= res.status # 如果res不等于200 重试3次 count = 0 #print(res.status_code) while (resCode != 200 and count <= 3): res = await session.get(url=url +str(pageNum)+'#scores',headers=headers, timeout=10) resCode=res.status txt=await res.text() print('restart get') count += 1 if (resCode == 200): print(str(pageNum)+' done') return {str(pageNum):txt} else: print('pageNum : ', pageNum, '返回码 : ', resCode) if(resCode==200): #print(res.url) #writez(res.text) print(str(pageNum) + ' done') return {str(pageNum):txt} else: print( 'pageNum : ', pageNum, '返回码 : ', resCode) return {str(pageNum):resCode} except Exception as e: print(e) return None def findTags(html,startNum): soup = BeautifulSoup(html, features='lxml') tables = soup.findAll('table') # print(len(tables)) for t in tables: sec = 0 #table顺序 for tr in t.tbody.findAll('tr'): # print('sec:',sec) td_sec = 0 #table内顺序 for td in tr.findAll('td'): text = td.get_text().strip() # print(len(text)) if (td_sec == 0): dict = {"rank": text} elif (td_sec == 1): dict.update({"Player Name": text}) elif (td_sec == 2): dict.update({"Accuracy": text}) elif (td_sec == 3): dict.update({"Play Count": text}) elif (td_sec == 4): dict.update({"Performance": text}) elif (td_sec == 5): dict.update({"SS": text}) elif (td_sec == 6): dict.update({"S": text}) elif (td_sec == 7): dict.update({"A": text}) td_sec += 1 #每一次遍历+1 colls[str(startNum+sec)] = dict sec += 1 #每一个用户+1 def writez(col):#写入文本文件tmp.txt if os.path.exists('tmp.txt'): os.remove('tmp.txt') with open('tmp.txt','a',encoding='utf-8') as f: for k,v in col.items(): for k2,v2 in v.items(): f.write(k2+" : "+v2+'\n') def mongoConnection(): conn=pymongo.MongoClient('127.0.0.1',27017) db=conn.osu collection=db.rank return collection def mongoCreateIndex(connect): idx_result = connect.create_index([('rank', pymongo.ASCENDING)], unique=True) return idx_result def mongoInsert(col,connect): tmpList = [] for k, v in col.items(): v.update({"_id":k}) tmpList.append(v) # print('ok') result = connect.insert_many(tmpList) return result def mongoCheckDuplicate(col,connect): for k,v in col.items(): for k2,v2 in v.items(): dictz={"rank":v2} result=connect.find_one(dictz) if(result!=None): res=connect.delete_one(dictz) print('check Duplicate ok') if __name__=='__main__': startTime = time.time() loop=asyncio.get_event_loop() tasks=[] results={} conn=aiohttp.TCPConnector(limit=4) for pageNum in range(page[0], page[1] + 1): tasks.append(asyncio.ensure_future(getPages(pageNum))) finished=loop.run_until_complete(asyncio.wait(tasks)) loop.close() for a in finished: for b in a: if(b.result()!=None): for k,v in b.result().items(): results[str(k)]=str(v) #print(b.result()) #f.write(b.result()) #print('共计完成 ',len(results),'页') osu = mongoConnection() startNum=1 #检索分析网页中的Tag for h in range(page[0], page[1] + 1): findTags(results[str(h)], startNum) startNum += 50 #重复值鉴定,如果重复就在数据库里删除 mongoCheckDuplicate(colls,osu) #插入 try: res=mongoInsert(colls,osu) print('insert res:',res) except Exception as e: print(e) #创建索引 # try: # res=mongoCreateIndex(osu) # print('index res:',res) # except Exception as e: # print(e) print('花费时间 : ', time.time() - startTime, 's') print('ok') 代码如上,,当我使用session.get()时返回码一直为403,换requests.get()就能正常获取网页..初步怀疑是之前爬的太快了被封号了。。但是为什么用requests还能获取呢?有什么办法限速吗 (我用过await asyncio.sleep(),aiohttp.TCPConnector(limit=4))并没有很好的效果。

WebDriverWait对象如果多次使用,超时时间是怎么计算的呢?

大家好! 我现在用Selenium的WebDriver的显式等待来判断元素是否出现,关于WebDriverWait对象定义的超时时间的计算方法我不太明白,请教一下: 如果Java的代码这样写: WebDriver webPage = new InternetExplorerDriver(); //验证网页title是否正确 try{ WebDriverWait waitTitle = new WebDriverWait(webPage,10); waitTitle.until(ExpectedConditions.titleIs("XX平台")); System.out.println("Title正确。"); } catch(TimeoutException t){ System.out.println("Title错误。"); } //检查banner是否可见 try{ WebDriverWait waitBanner = new WebDriverWait(webPage,10); waitBanner.until(ExpectedConditions.visibilityOf(webPage.findElement(By.cssSelector(".banner")))); System.out.println("banner可见。"); } catch(TimeoutException t){ System.out.println("banner不可见。"); } 这样写应该没问题,就是每检查一项内容,都要去new一个WebDriverWait对象。我刚开始学Java,还不太懂内存是怎么回收的。如果检查的内容较多,内存肯定会占用得越来越多。不知这些内存什么时候会被系统回收? 后来我想改成这样的写法: WebDriver webPage = new InternetExplorerDriver(); WebDriverWait wait = new WebDriverWait(webPage,10); //验证网页title是否正确 try{ wait.until(ExpectedConditions.titleIs("XX平台")); System.out.println("Title正确。"); } catch(TimeoutException t){ System.out.println("Title错误。"); } //检查banner是否可见 try{ wait.until(ExpectedConditions.visibilityOf(webPage.findElement(By.cssSelector(".banner")))); System.out.println("banner可见。"); } catch(TimeoutException t){ System.out.println("banner不可见。"); } 这样只实例化了一个WebDriverWait对象,内存倒是不会占用那么多了,但是我不太清楚超时时间是怎样计算的。在new WebDriverWait对象时,定义了超时时间是10秒,先判断网页title是否正确时,会占用一部分时间;那么,再判断banner是否可见,这个时间是重新从0开始计时,还是接着上一次消耗完了的时间继续计时呢?比如判断网页title耗掉了1秒,那么再判断banner是否可见,剩余可用的超时时间,是9秒,还是10秒呢?如果是接着上一次消耗的计时,即只剩9秒,就不是我的本意了,我想让每次判断都有10秒的超时时间,那是不是只能采用第一种写法?如果这样,内存需要控制吗?麻烦高人指教!谢谢!!!

爬虫爬取1688返回response成功但是内容为空?

今天尝试写了一个爬取1688商品页的爬虫,发现1688的代码已经不同于几年前了,前台的页面html代码居然是通过js请求返回json数据中的值解析而来,整个动态加载的html被全部封装。在网页前台浏览的时候也能明显感觉到,整个商品页不是全部一次加载完成,随着鼠标的下滑进行动态加载,直至翻页出现。找了一下网上的爬取代码,不是代码太旧就是使用selenium,因此我尝试从解析js角度来看看能否爬到数据。 我搜索的关键词为:大理石餐盘,访问的url为:https://s.1688.com/selloffer/offer_search.htm?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&n=y&netType=1%2C11&spm=a260k.635.3262836.d102 通过抓包可以发现实际上每个页面的动态加载通过如下的js文件加载: ![图片说明](https://img-ask.csdn.net/upload/201903/14/1552530583_824631.png) 同时可以看到头部信息为: ![图片说明](https://img-ask.csdn.net/upload/201903/14/1552530839_105546.jpg) 因此我编写了代码来请求此url,想要获取其中的数据 通过分析url,我发现其实只有几个关键的参数在发生作用,我修改了url如下: https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true 将比较关键的参数罗列:keywords,beginpage ,startindex(本页中以0.20.40循环),templateconfigname,async,enableasync 从页面请求的结果如下 https://s.1688.com/selloffer/rpc_async_render.jsonp?keywords=%B4%F3%C0%ED%CA%AF%B2%CD%C5%CC&beginPage=2&startIndex=40&templateConfigName=marketOfferresult&async=true&enableAsync=true ![图片说明](https://img-ask.csdn.net/upload/201903/14/1552531339_315690.jpg) 依据上面的分析我编写了代码: ``` ''' 得到单页商品信息 ''' try: print('正在爬取第%d页' % page) for startindex in range(0, 2): proxy = get_proxy() url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp' data = { 'keywords': KEYWORD, # 搜索关键词, 'beginpage': str(page), # 页数 'templateConfigName': TemplateConfigName, 'startIndex': str(startindex*20), 'async': 'true', 'enableAsync': 'true' } headers = { 'User_Agent': random.choice(USER_AGENT), 'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote( KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985', 'Cookie': COOKIE, } proxies = {"http": "http://{}".format(proxy)} response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5) time.sleep(1) if response.status_code == 200: print(response.text) data = response.json() get_info(data=data) except Exception as e: print(e.args) print('出现异常,重新爬取第%d页' % page) return get_one_page(page) ``` ``` 其中请求头是参照抓包的请求头进行了伪装,user_agent使用了随机代理池中的代理。 ip应用了代理池中的代理进行切换, 测试代码发现虽然返回成功,但是内容为空: 测试代码的结果如下: ``` ``` 正在爬取第1页_ ({ "hasError":false, "message":"success", "content":{ "offerResult":{ "html":"" }, "beaconP4Pid":"1552531611011186199615", "tracerId":"1191031861991552531610953000954", "end":0 } }) ``` 很明显服务器判断出来我是机器人,我检查了一下cookies还有ip以及header都没有问题 使用同样的参数在浏览器页面请求也能访问正常的结果,因此我决定增加更多的参数,也许是因为服务器 端验证会检测某个参数是否存在来判断请求来自机器人还是真正的用户,我将代码修改如下: ``` def get_one_page(page): ''' 得到单页商品信息 ''' try: print('正在爬取第%d页' % page) for startindex in range(0, 2): proxy = get_proxy() url = 'https://s.1688.com/selloffer/rpc_async_render.jsonp' data = { 'keywords': KEYWORD, # 搜索关键词, 'beginpage': str(page), # 页数 'templateConfigName': TemplateConfigName, 'startIndex': str(startindex*20), 'async': 'true', 'enableAsync': 'true', 'rpcflag': 'new', '_pageName_': 'market', 'offset': str(9), 'pageSize': str(60), 'asyncCount': str(20), 'n': 'y', 'netType': '1%2C11', 'uniqfield': 'pic_tag_id', 'qrwRedirectEnabled': 'false', 'filterP4pIds': '550656542618%2C554434844511%2C574540124248%2C568185683625%2C567623615791%2C536778930216%2C577066747130%2C555894336804', 'leftP4PIds': '', 'pageOffset': str(3) } headers = { 'User_Agent': random.choice(USER_AGENT), 'Referer':'https://s.1688.com/selloffer/offer_search.htm?keywords=' + quote( KEYWORD) + '&n=y&netType=1%2C11&spm=a260k.635.3262836.d102&offset=9&filterP4pIds=580281266813,551252714239,554311584303,554434844511,576452898982,567623615791,1264995609,584747673985', 'Cookie': COOKIE, } proxies = {"http": "http://{}".format(proxy)} response = requests.get(url=url, headers=headers, params=data, proxies=proxies, timeout=5) time.sleep(1) if response.status_code == 200: print(response.text) data = response.json() get_info(data=data) except Exception as e: print(e.args) print('出现异常,重新爬取第%d页' % page) return get_one_page(page) ``` 测试的结果如下: ``` 正在爬取第1页 ({ "hasError":false, "message":"success", "content":{ "offerResult":{ "html":" \n \n <!-- 为打点计算 offerindex 值-->\n \n \n <!-- 用于异步请求 -->\n \n\n <div id=\"sm-maindata-script\">\n <script type=\"text\/javascript\">\n var coaseParam = {\n \'isCoaseOut\':true\n };\n <\/script>\n <script type=\"text\/javascript\">\n var rightP4P = {\n industryTagPath:\'\',\n leftP4PId:\'\',\n leftP4PLoginId:\'\',\n biaowangId:\'\'\n };\n var rightP4Poffer =[\n ];\n<\/script>\n <\/div>\n \n\n" }, "beaconP4Pid":"1552532048109186199394", "tracerId":"1191031861991552532048084000548", "end":0 } }) ``` 很遗憾结果并不理想,仍旧没有办法获得真正的数据。 我分析了还没有被我列进去的参数,因为无法寻找到其规律所以就没有加上去。 难道1688现在已经做到了,机器人无法爬的地步了吗,到底应该如何解决呢。有没有大神能够指点一下: 另外我同样的测试了一下1688的热销市场,同样的方式,没有问题可以爬取到js的内容,只不过数据是直接封装在json返回值中的,不是通过html代码二次封装。

大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

Java基础知识面试题(2020最新版)

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性?原理是什么Java语言有哪些特点什么是字节码?采用字节码的最大好处是什么什么是Java程序的主类?应用程序和小程序的主类有何不同?Java应用程序与小程序之间有那些差别?Java和C++的区别Oracle JDK 和 OpenJDK 的对比基础语法数据类型Java有哪些数据类型switc...

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Linux 会成为主流桌面操作系统吗?

整理 |屠敏出品 | CSDN(ID:CSDNnews)2020 年 1 月 14 日,微软正式停止了 Windows 7 系统的扩展支持,这意味着服役十年的 Windows 7,属于...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

学习总结之HTML5剑指前端(建议收藏,图文并茂)

前言学习《HTML5与CSS3权威指南》这本书很不错,学完之后我颇有感触,觉得web的世界开明了许多。这本书是需要有一定基础的web前端开发工程师。这本书主要学习HTML5和css3,看...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

新一代神器STM32CubeMonitor介绍、下载、安装和使用教程

关注、星标公众号,不错过精彩内容作者:黄工公众号:strongerHuang最近ST官网悄悄新上线了一款比较强大的工具:STM32CubeMonitor V1.0.0。经过我研究和使用之...

记一次腾讯面试,我挂在了最熟悉不过的队列上……

腾讯后台面试,面试官问:如何自己实现队列?

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

冒泡排序动画(基于python pygame实现)

本项目效果初始截图如下 动画见本人b站投稿:https://www.bilibili.com/video/av95491382 本项目对应github地址:https://github.com/BigShuang python版本:3.6,pygame版本:1.9.3。(python版本一致应该就没什么问题) 样例gif如下 ======================= 大爽歌作,mad

Redis核心原理与应用实践

Redis核心原理与应用实践 在很多场景下都会使用Redis,但是到了深层次的时候就了解的不是那么深刻,以至于在面试的时候经常会遇到卡壳的现象,学习知识要做到系统和深入,不要把Redis想象的过于复杂,和Mysql一样,是个读取数据的软件。 有一个理解是Redis是key value缓存服务器,更多的优点在于对value的操作更加丰富。 安装 yum install redis #yum安装 b...

现代的 “Hello, World”,可不仅仅是几行代码而已

作者 |Charles R. Martin译者 | 弯月,责编 | 夕颜头图 |付费下载自视觉中国出品 | CSDN(ID:CSDNnews)新手...

带了6个月的徒弟当了面试官,而身为高级工程师的我天天修Bug......

即将毕业的应届毕业生一枚,现在只拿到了两家offer,但最近听到一些消息,其中一个offer,我这个组据说客户很少,很有可能整组被裁掉。 想问大家: 如果我刚入职这个组就被裁了怎么办呢? 大家都是什么时候知道自己要被裁了的? 面试软技能指导: BQ/Project/Resume 试听内容: 除了刷题,还有哪些技能是拿到offer不可或缺的要素 如何提升面试软实力:简历, 行为面试,沟通能...

!大部分程序员只会写3年代码

如果世界上都是这种不思进取的软件公司,那别说大部分程序员只会写 3 年代码,恐怕就没有程序员这种职业。

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

HTTP与HTTPS的区别

面试官问HTTP与HTTPS的区别,我这样回答让他竖起大拇指!

程序员毕业去大公司好还是小公司好?

虽然大公司并不是人人都能进,但我仍建议还未毕业的同学,尽力地通过校招向大公司挤,但凡挤进去,你这一生会容易很多。 大公司哪里好?没能进大公司怎么办?答案都在这里了,记得帮我点赞哦。 目录: 技术氛围 内部晋升与跳槽 啥也没学会,公司倒闭了? 不同的人脉圈,注定会有不同的结果 没能去大厂怎么办? 一、技术氛围 纵观整个程序员技术领域,哪个在行业有所名气的大牛,不是在大厂? 而且众所...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《经典算法案例》01-08:如何使用质数设计扫雷(Minesweeper)游戏

我们都玩过Windows操作系统中的经典游戏扫雷(Minesweeper),如果把质数当作一颗雷,那么,表格中红色的数字哪些是雷(质数)?您能找出多少个呢?文中用列表的方式罗列了10000以内的自然数、质数(素数),6的倍数等,方便大家观察质数的分布规律及特性,以便对算法求解有指导意义。另外,判断质数是初学算法,理解算法重要性的一个非常好的案例。

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

01、Java入门(Getting Started);02、集成开发环境(IDE);03、项目结构(Eclipse JavaProject);04、类和对象(Classes and Objects);05:词法结构(Lexical Structure);06:数据类型和变量(Data Type and Variables);07:运算符(Operators);08:控制流程语句(Control Flow Statements);

立即提问
相关内容推荐