执行爬虫,拿到response,状态码是200,但是打印文本报的是这个结果,请问一下原因 10C

代码:
response = requests.post(url=url, headers=headers, data=form_data)
content = response.text
print("content=" + content)

代码结果:
content=<?xml version="1.0" ?>
由于不活动状态, 您的会话已超时且不再活动。请单击“确定”可重新加载此页。

3个回答

人家反爬检测到你不是用浏览器访问的

你可以在访问的时候设置浏览器的agent,在访问时设置好延时,不然会检测到,如果是做大型的,要配置IP代理池,使用不同的ip进行爬取

因为你是post请求,它提示你会话超时,你可以试试用request的session

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
爬虫返回的状态码是200,但打印json数据时报错
之前写的12306查票, 直接都能运行,最近打开突然json报错,查看了一下返回的状态码是200,网上也有返回json数据,但电脑上获取就报错。上网查了半天找不到原因,有大佬帮忙看一下吗 ![图片说明](https://img-ask.csdn.net/upload/201912/27/1577436145_326366.png)![图片说明](https://img-ask.csdn.net/upload/201912/27/1577436155_414096.png)
python scrapy 爬虫图片新手求助
求问大神 我这个data她怎么了 报错: 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: meizitu) 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 22:22:05) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.17763-SP0 2020-02-07 09:24:55 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'meizitu', 'NEWSPIDER_MODULE': 'meizitu.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['meizitu.spiders']} 2020-02-07 09:24:55 [scrapy.extensions.telnet] INFO: Telnet Password: 0936097982b9bcc8 2020-02-07 09:24:55 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] Unhandled error in Deferred: 2020-02-07 09:24:56 [twisted] CRITICAL: Unhandled error in Deferred: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 184, in crawl return self._crawl(crawler, *args, **kwargs) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 188, in _crawl d = crawler.crawl(*args, **kwargs) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1613, in unwindGenerator return _cancellableInlineCallbacks(gen) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1529, in _cancellableInlineCallbacks _inlineCallbacks(None, g, status) --- <exception caught here> --- File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed builtins.SyntaxError: unexpected EOF while parsing (pipelines.py, line 22) 2020-02-07 09:24:56 [twisted] CRITICAL: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed File "E:\python_work\爬虫\meizitu\meizitu\pipelines.py", line 22 f.write(data) ^ SyntaxError: unexpected EOF while parsing 代码如下: pipeline ``` import requests class MeizituPipeline(object): def process_item(self, item, spider): print("main_title:",item['main_title']) print("main_image:", item['main_image']) print("main_tags:", item['main_tags']) print("main_meta:", item['main_meta']) print("page:", item['main_pagenavi']) url = requests.get(item['main_image']) print(url) try: with open(item['main_pagenavi'] +'.jpg','wb') as f: data = url.read() f.write(data) ``` image.py ``` import scrapy from scrapy.http import response from ..items import MeizituItem class ImageSpider(scrapy.Spider): #定义Spider的名字scrapy crawl meiaitu name = 'SpiderMain' #允许爬虫的域名 allowed_domains = ['www.mzitu.com/203554'] #爬取的首页列表 start_urls = ['https://www.mzitu.com/203554'] #负责提取response的信息 #response代表下载器从start_urls中的url的到的回应 #提取的信息 def parse(self,response): #遍历所有节点 for Main in response.xpath('//div[@class = "main"]'): item = MeizituItem() #匹配所有节点元素/html/body/div[2]/div[1]/div[3]/p/a content = Main.xpath('//div[@class = "content"]') item['main_title'] = content.xpath('./h2/text()') item['main_image'] = content.xpath('./div[@class="main-image"]/p/a/img') item['main_meta'] = content.xpath('./div[@class="main-meta"]/span/text()').extract() item['main_tags'] = content.xpath('./div[@class="main-tags"]/a/text()').extract() item['main_pagenavi'] = content.xpath('./div[@class="main_pagenavi"]/span/text()').extract_first() yield item new_links = response.xpath('.//div[@class="pagenavi"]/a/@href').extract() new_link =new_links[-1] yield scrapy.Request(new_link,callback=self.parse) ``` setting ``` BOT_NAME = 'meizitu' SPIDER_MODULES = ['meizitu.spiders'] NEWSPIDER_MODULE = 'meizitu.spiders' ROBOTSTXT_OBEY = True #配置默认请求头 DEFAULT_REQUEST_HEADERS = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36", 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' } ITEM_PIPELINES = { 'meizitu.pipelines.MeizituPipeline':300, } IMAGES_STORE = 'E:\python_work\爬虫\meizitu' IMAGES_MIN_HEIGHT = 1050 IMAGES_MIN_WIDTH = 700 ```
python爬虫:为什么用requests可以爬到数据,用scrapy爬到数据为空?
"http://detail.zol.com.cn/index.php?c=SearchList&keyword=%C8%FD%D0%C7&page=1" 用requests可以爬到数据,scrapy爬的状态码是200,但响应没有数据,什么原因?
爬虫(python):为什么验证码总是验证失败(内有描述)?
#这是一个试图模拟12306登陆的程序,只到验证码部分 import urllib.request as U import urllib.parse as P import http.cookiejar as C import ssl import chardet as cd ssl._create_default_https_context = ssl._create_unverified_context #无视证书的有效性 opener = U.build_opener(U.HTTPCookieProcessor(C.CookieJar())) U.install_opener(opener) #创建一个访问者(具有cookie功能) req = U.Request("https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1581337391968&callback=jQuery19109972447551572461_1581326959299&_=1581326959322") req.headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362" res = opener.open(req) #申请验证码 url = "data:image/jpg;base64," + res.read().decode("utf-8").split('({"image":"')[1].split('","result_message"')[0] #12306分为申请验证码和生成两部分,这是根据两部分的URL规律,生成的验证码图片的URL req = U.Request(url) req.headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362" res = opener.open(req) code_img = res.read() with open("D:\\py\\测试_练习综合体\\py练习\\imagecode12306.png","wb") as f: f.write(code_img) #获取验证码 pass_code = input("请输入验证码(坐标):") #根据图片获取验证码坐标 data = {"callback":"jQuery19109972447551572461_1581326959299","answer":pass_code,"rand":"sjrand","login_site":"E","_":"1581326959323"} data = P.urlencode(data).encode("utf-8") req = U.Request("https://kyfw.12306.cn/passport/captcha/captcha-check?callback=jQuery19109972447551572461_1581326959299&answer=188%2C49%2C30%2C39&rand=sjrand&login_site=E&_=1581326959323") req.headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362" res = opener.open(req,data = data) html = res.read().decode("utf-8") #验证码验证 #疑问:为什么验证码验证总是失败了(通过html获得结果)
Scrapy response 请求200 但是返回的页面不完整
python 爬虫抓取数据时,请求状态码200,但是返回的页面信息不完整
Python requests模块爬取https网站使用代理的问题
请问在Python使用requests库做爬虫爬取https协议的网站的时候,代理要怎么设置呢? 官方文档的说明如下 import requests proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080",} requests.get("http://example.org", proxies=proxies) 我的第一个问题是,为什么 "https": "http://10.10.1.10:1080" 这里对应的ip前面不是https而也是用http呢? 另外,我爬取了http://www.xsdaili.com 上的代理,按照上面的方式通过访问https://httpbin.org/get 验证,但是结果都是代理无法访问(代码如下,d\_ip是示例,实际抓取的ip请见附件)不知道是不是代理的用法有问题。还是所有的代理都无效... 编程新手,对于web相关知识也很有限。希望各位能帮忙解答。 谢谢! import random import requests d_ip = {"https": [ "47.112.200.175:8000", "121.237.149.33:3000", "123.149.136.43:9999"]} headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'} proxies = {"https" : "http://" + random.choice(d_ip["https"])} r = requests.get("https://httpbin.org/get", headers=headers, proxies=proxies) # 错误如下 ProxyError: HTTPSConnectionPool(host='httpbin.org', port=443): Max retries exceeded with url: /get (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x000001E87F7E7F28>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。')))
爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?
1、爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥? ``` import requests from lxml import etree url = "https://tieba.baidu.com/f?fr=wwwt&kw=%E4%B8%8D%E8%89%AF%E4%BA%BA" headers = { "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" } response = requests.get(url,headers=headers).content.decode() print(response) html_str = etree.HTML(response) print(etree.tostring(html_str).decode()) # li = html_str.xpath("//ul[@id='thread_list']/li[@class='j_thread_list clearfix']") # print(li) ```
爬虫爬取图片时出现FileNotFoundError: [Errno 2] No such file or directory: 'D:/Python35/myweb/part6/img1/11.jpg'
使用爬虫爬取京东网页的图片,但是会显示FileNotFoundError: [Errno 2] No such file or directory: 'D:/Python35/myweb/part6/img1/11.jpg' 感觉像是第11个图片无法储存,但不知道应该如何修改代码。求大神解!![图片说明](https://img-ask.csdn.net/upload/202002/12/1581490421_262970.png) ![图片说明](https://img-ask.csdn.net/upload/202002/12/1581490433_463758.png)
python安装chromedriver时关于版本号的问题?
想安装chromedriver来爬虫,但是我的Chrome的版本为80.0.3987.100,在寻找版本时发现没有这个版本,还有我的电脑是64位,看那些安装包只有32位的,有哪位大佬能解决一下问题?
Python爬虫抓取信息存储到excel表格后,怎么实行数据可视化
我用python爬去了起点中文网的一些信息,并且存储到excel中,现在想要实现数据可视化怎么写应该 import requests from lxml import etree from openpyxl import Workbook class Book(): def __init__(p): p.url = 'https://www.qidian.com/rank/hotsales?page={页数}' p.wb = Workbook() # class实例化 p.ws = p.wb.active # 激活工具表 p.ws.append(['书名', '作者', '类型', '连载状态']) # 添加对应的表头 def geturl(p): url = [p.url.format(页数 =i) for i in range(1,15)] return url def parse_url(p,url): response =requests.get(url,timeout = 5) return response.content.decode('utf-8','ignore') def get_list(p,html_str): html = etree.HTML(html_str) connect_list = [] lists = html.xpath("//div[@class='book-img-text']/ul/li//div[@class='book-mid-info']") for list in lists: item = {} item['书名'] = ''.join(list.xpath("./h4/a/text()")) item['作者'] = ''.join(list.xpath("./p[@class='author']/a[1]/text()")) item['类型'] = ''.join(list.xpath("./p[@class='author']/a[2]/text()")) item['连载状态'] = ''.join(list.xpath("./p[@class='author']/span/text()")) connect_list.append(item) return connect_list def save_list(p, connects): for connect in connects: p.ws.append([connect['书名'], connect['作者'], connect['类型'], connect['连载状态']]) print('保存小说信息成功') def run(p): url_list = p.geturl() for url in url_list: html_url =p.parse_url(url) connects = p.get_list(html_url) p.save_list(connects[:]) p.wb.save('book.xlsx') if __name__=='__main__': spider = Book() spider.run()
Python 爬虫 status 200 但得不到数据
想爬取赢商网的一些信息,response中是存在信息的。想用request.post来爬,但是得不到信息。 ``` import requests import json #%% url = 'http://yzs.winshangdata.com/wsapi/brand/getBrandTuoZhanProvinces' headers = { 'Content-Type': 'application/json;charset=UTF-8', 'Cookie': 'UM_distinctid=16f40179a3117f-08f154d235ffb8-6701b35-11442c-16f40179a322bd; Hm_lvt_f48055ef4cefec1b8213086004a7b78d=1577425731,1577425985,1577426204,1577427086; winfanguser=uid=shumiao888&nid=shumiao888_105711714&logNum=10467&err163=2dde6523ff7cdc29&pwd=06915a38d9e9e87f5ffe745c51d659&headerImg=http://user.winshangdata.com/image/default_20161129.png&sex=0&Email=&IsCompany=0; eyeuser=uid%3dshumiao888%26nid%3dshumiao888_105711714%26logNum%3d10467%26err163%3d2dde6523ff7cdc29%26pwd%3d06915a38d9e9e87f5ffe745c51d659%26headerImg%3dhttp%3a%2f%2fuser.winshangdata.com%2fimage%2fdefault_20161129.png%26sex%3d0%26Email%3d%26IsCompany%3d0; mode=mode; Hm_lpvt_f48055ef4cefec1b8213086004a7b78d=1577430750; JSESSIONID=C6734BEB6CAC2CAEB1DA02BD524B24AF; Hm_lvt_742e37d60ea288bb1d1f445eab6ce50b=1577365684,1577430757,1577430765,1577430801; Hm_lpvt_742e37d60ea288bb1d1f445eab6ce50b=1577430801', 'platform': 'yzs', 'Referer': 'http://yzs.winshangdata.com/', 'Token': 'C334D3A3244400C2E53B431BCF0A6F17.B04B0D7A106EC8A6B9F5704BCE4A9CC9.2019-12-27 15:12:37', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' } payload = { 'brandId': "4680" } #%% res = requests.post(url, headers, json=payload) #%% result = res.content.decode('utf-8') ``` 错误是这样的。 ![图片说明](https://img-ask.csdn.net/upload/201912/27/1577432213_96048.png)
XPath无法准确获取怎么办
参照《从零开始学网络爬虫》案例,爬取豆瓣图书Top250的信息 https://book.douban.com/top250 爬取前需要用XPath获取书名、作者等标签信息,在浏览器中检查网页信息,并右击,copy XPath获取元素的XPath ![图片说明](https://img-ask.csdn.net/upload/202002/15/1581778537_466127.png) 书中原版代码如下 ``` import csv from lxml import etree import requests headers = { 'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36' } urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)] wenben = open('E:\demo.csv','wt',newline='',encoding='utf-8') writer = csv.writer(wenben) writer.writerow(('name','url','author','publisher','date','price','rate','comment')) for url in urls: html = requests.get(url,headers=headers) selector = etree.HTML(html.text) infos = selector.xpath('//tr[@class="item"]') for info in infos: name = info.xpath('td/div/a/@title')[0] url = info.xpath('td/div/a/@href')[0] book_infos = info.xpath('td/p/text()')[0] author = book_infos.split('/')[0] publisher = book_infos.split('/')[-3] date = book_infos.split('/')[-2] price = book_infos.split('/')[-1] rate = info.xpath('td/div/span[2]/text()')[0] comments = info.xpath('td/div/span[2]/text()')[0] comment = comments[0] if len(comments) != 0 else "空" writer.writerow((name,url,author,publisher,date,price,rate,comment)) print(name) wenben.close() print("输出完成!") ``` 可以发现,以书名为例,原版中获取的XPath如下 ``` 'td/div/a/@title' ``` 但是我通过浏览器检查元素获取到的XPath如下 ``` *[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a ``` 而且按照自己获取的XPath进行爬取,并不能爬取到网页信息。只有按照原版的XPath才能正确爬取到网页信息。 请问各位大神,为什么从浏览器端获取的XPath与案例并不一致,如何自行获取正确的XPath
Xpath爬虫获取数据不完整
尝试学习Xpath爬虫,通过Xpath helper获得数据99条,其中最后一条为“$PORT”,如图 ![图片说明](https://img-ask.csdn.net/upload/202001/15/1579057925_476322.png) 代码如下,使用这个Xpath路径只能返回"$PORT",其他98条数据没了....... ``` import requests import csv from lxml import etree url = 'https://www.msccruisesusa.com/webapp/wcs/stores/servlet/MSC_SearchCruiseManagerRedirectCmd?storeId=12264&langId=-1004&catalogId=10001&monthsResult=&areaFilter=MED%40NOR%40&embarkFilter=&lengthFilter=&departureFrom=01.11.2020&departureTo=04.11.2020&ships=&category=&onlyAvailableCruises=true&packageTrf=false&packageTpt=false&packageCrol=false&packageCrfl=false&noAdults=2&noChildren=0&noJChildren=0&noInfant=0&dealsInput=false&tripSpecificationPanel=true&shipPreferencesPanel=false&dealsPanel=false' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'} source = requests.get(url,headers=headers).content.decode('UTF-8') html = etree.HTML(source) portList = html.xpath('//*[@class="cr-city-name"]') for port in portList: print(port.xpath('string()')) ``` 求各位大神搭救,不知道是哪里出了问题......网上遍寻不到相似的情况
scrapy框架下使用xpath报错??
# 初次学习使用scrapy框架,在用xpath时一使用就报错 ## 不加xpath ``` import scrapy class QiuqiuSpider(scrapy.Spider): # 爬虫的名字 name = 'qiuqiu' # 允许的域名,是一个列表,里面可以放多个,一般都做限制 allowed_domains = ['https://wengpa.com/','http://www.baidu.com/'] # 起始url,是一个列表,一般追写一个 start_urls = ['http://www.baidu.com/'] # 解析函数,重写这个方法这个函数对返回值有要求,必须返回一个可迭代的对象 def parse(self, response): print('*'*50)![图片说明](https://img-ask.csdn.net/upload/202002/05/1580889008_420133.png) ``` ![图片说明](https://img-ask.csdn.net/upload/202002/05/1580889107_475349.png) ## 添加xpath ``` import scrapy class QiuqiuSpider(scrapy.Spider): # 爬虫的名字 name = 'qiuqiu' # 允许的域名,是一个列表,里面可以放多个,一般都做限制 allowed_domains = ['https://wengpa.com/','http://www.baidu.com/'] # 起始url,是一个列表,一般只写一个 start_urls = ['http://www.baidu.com/'] # 解析函数,重写这个方法这个函数对返回值有要求,必须返回一个可迭代的对象 def parse(self, response): print('*'*50) # div_list=response.xpath('//div') # div_lists = response.xpath('//div[@id="s_fm"]') # print('div_list') for oil in div_list: print('*'*50) exit() face = oil.xpath('.//span/img/@src')[0] print(face.extract()) print('*'*50) exit() ``` ![图片说明](https://img-ask.csdn.net/upload/202002/05/1580889126_417495.png) 在scrapy shell 下能找到
python实现新浪微博爬虫
详细简单的解决: !新浪微博爬虫的登陆问题(立即上手有效的,拒绝复制粘贴文章) 后面的内容爬取解析我自己来
php爬虫问题(目标网站刷新太慢,导致抓取不到)
由于应用限制,只能用php做接口。 功能:爬取目标网站的图片然后并下载到本地 问题:目标网站由于要js动态渲染页面,但是刷新的速度太慢导致php爬虫爬取不到图片。 目标网站截图:![图片说明](https://img-ask.csdn.net/upload/202001/10/1578666920_85770.png) PHP代码: ``` <?php class download_image{ //抓取图片的保存地址 public $save_path; //抓取图片的大小限制(单位:字节) 只抓比size比这个限制大的图片 public $img_size=0; //定义一个静态数组,用于记录曾经抓取过的的超链接地址,避免重复抓取 public static $a_url_arr=array(); /** * @param String $save_path 抓取图片的保存地址 * @param Int $img_size */ public function __construct($save_path,$img_size){ $this->save_path=$save_path; $this->img_size=$img_size; if(!file_exists($save_path)){ mkdir($save_path,0775); } } /** * 递归下载抓取首页及其子页面图片的方法 ( recursive 递归) * @param String $capture_url 用于抓取图片的网址 */ public function recursive_download_images($capture_url){ if (!in_array($capture_url,self::$a_url_arr)){ //没抓取过 self::$a_url_arr[]=$capture_url; //计入静态数组 } else { //抓取过,直接退出函数 return; } $this->download_current_page_images($capture_url); //下载当前页面的所有图片 //用@屏蔽掉因为抓取地址无法读取导致的warning错误 $content=@file_get_contents($capture_url); //匹配a标签href属性中?之前部分的正则 $a_pattern = "|<a[^>]+href=['\" ]?([^ '\"?]+)['\" >]|U"; preg_match_all($a_pattern, $content, $a_out, PREG_SET_ORDER); $tmp_arr=array(); //定义一个数组,用于存放当前循环下抓取图片的超链接地址 foreach ($a_out as $k => $v) { /** * 去除超链接中的 空'','#','/'和重复值 * 1: 超链接地址的值 不能等于当前抓取页面的url, 否则会陷入死循环 * 2: 超链接为''或'#','/'也是本页面,这样也会陷入死循环, * 3: 有时一个超连接地址在一个网页中会重复出现多次,如果不去除,会对一个子页面进行重复下载) */ if ( $v[1] && !in_array($v[1],self::$a_url_arr) &&!in_array($v[1],array('#','/',$capture_url) ) ) { $tmp_arr[]=$v[1]; } } foreach ($tmp_arr as $k => $v){ //超链接路径地址 if ( strpos($v, 'http://')!==false ){ //如果url包含http://,可以直接访问 $a_url = $v; }else{ //否则证明是相对地址, 需要重新拼凑超链接的访问地址 $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1); $a_url=$domain_url.$v; } $this->recursive_download_images($a_url); } } /** * 下载当前网页下的所有图片 * @param String $capture_url 用于抓取图片的网页地址 * @return Array 当前网页上所有图片img标签url地址的一个数组 */ public function download_current_page_images($capture_url){ $content=@file_get_contents($capture_url); //屏蔽warning错误 //匹配img标签src属性中?之前部分的正则 $img_pattern = "|<img[^>]+src=['\" ]?([^ '\"?]+)['\" >]|U"; preg_match_all($img_pattern, $content, $img_out, PREG_SET_ORDER); $photo_num = count($img_out); //匹配到的图片数量 echo $capture_url . "共找到 " . $photo_num . " 张图片\n"; foreach ($img_out as $k => $v){ $this->save_one_img($capture_url,$v[1]); } } /** * 保存单个图片的方法 * @param String $capture_url 用于抓取图片的网页地址 * @param String $img_url 需要保存的图片的url */ public function save_one_img($capture_url,$img_url){ //图片路径地址 if ( strpos($img_url, 'http://')!==false ){ // $img_url = $img_url; }else{ $domain_url = substr($capture_url, 0,strpos($capture_url, '/',8)+1); $img_url=$domain_url.$img_url; } $pathinfo = pathinfo($img_url); //获取图片路径信息 $pic_name=$pathinfo['basename']; //获取图片的名字 if (file_exists($this->save_path.$pic_name)){ //如果图片存在,证明已经被抓取过,退出函数 echo $img_url.'该图片已经抓取过!'."\n"; return; } //将图片内容读入一个字符串 $img_data = @file_get_contents($img_url); //屏蔽掉因为图片地址无法读取导致的warning错误 if ( strlen($img_data) > $this->img_size ){ //下载size比限制大的图片 $img_size = file_put_contents($this->save_path . $pic_name, $img_data); if ($img_size){ echo $img_url.'图片保存成功!'."\n"; } else { echo $img_url.'图片保存失败!'."\n"; } } else { echo $img_url.'图片读取失败!'."\n"; } } } set_time_limit(120); //设置脚本的最大执行时间 根据情况设置 $download_img=new download_image('imgages/',0); //实例化下载图片对象 //$download_img->recursive_download_images('http://www.oschina.net/'); //递归抓取图片方法 //$download_img->download_current_page_images($_POST['capture_url']); //只抓取当前页面图片方法 $download_img->download_current_page_images('http://127.0.0.1:808/yoyo/word/php/1.html'); //只抓取当前页面图片方法 ?> ```
爬虫 在网页定位验证码,然后显示出来,手动输入验证码,求代码
爬虫,在网页定位验证码,然后不管在哪里显示出来都行,然后手动输入验证码,继续爬,不需要登录,但是需要搜索功能,跪求完整代码,可以想象爬有验证码的百度。
【求教】使用pycharm编写python爬虫,连接不上本地MySQL服务器
#小白自学修炼中,在编写python爬虫时,需要连接上本地MySQL服务器,将爬取的内容存放。 求教问题描述>>> 问题: #pycharm编写的程序连接不上本地MySQL服务 ### 环境: * python3.6 * ide:pycharm * 本地mysql服务已开启。 mysql版本:5.7 ## 源代码: ``` # 导入开发包 from bs4 import BeautifulSoup as bs from urllib.request import urlopen import re import pymysql # 获得数据库的连接 connection = pymysql.connect( host='localhost', user='root', password='123456', db='baidu', charset='utf8mb4' ) try: # 获得会话指针 with connection.cursor() as cursor: # 创建sql语句 sql = "insert into urls ('urlname','urlhref') values (%s,%s)" # 向baiduurls表提交操作 cursor.execute(sql, ("1", "1")) # 提交操作 connection.commit() finally: connection.close() ``` ## ## 出现的问题 ``` Traceback (most recent call last): File "C:/Pycharm/pro_2020/百度百科爬虫/craw_url.py", line 12, in <module> db='baidu' raise exc pymysql.err.OperationalError: (2003, "Can't connect to MySQL server on 'localhost' (timed out)") ``` 无法连接本地mysql数据库,另外数据库我在第三方工具上创建了一个名为“baidu”的数据库;我在命令行下查询了,确实创建着有。只是在pycharm里连接不到本地MySQL。 ## 尝试过、并失败了的的方法 ``` 防火墙已关闭,依然连接失败; net start mysql MySQL服务器doc命令行尝试连接,依然连接失败; host = 127.0.0.1,依然连接失败; ``` 真心在线求各位老哥老姐教教弟弟,不胜感激!
python爬取动态网页时为什么动态网页的url的源码和网页源码不一样?
想用python爬虫爬burberry官网https://cn.burberry.com/mens-new-arrivals-new-in/ 的最新上架衣服图片,但网页是动态加载的(有一个查看全部按钮) ![图片说明](https://img-ask.csdn.net/upload/202001/30/1580376878_572107.png) 点击查看更多后有一个XHR请求如图![图片说明](https://img-ask.csdn.net/upload/202001/30/1580377156_337769.png) 修改爬虫header后访问该请求的url,得到的html和在原网页上按f12显示的源码不相同,如图(图一为原网页点击加载全部后的源码,图二为访问url得到的源码) ![图片说明](https://img-ask.csdn.net/upload/202001/30/1580378691_309192.png) ![图片说明](https://img-ask.csdn.net/upload/202001/30/1580378757_166656.png) 为什么会不一样呢????而且不一样的话按照url得到的格式我就没法用美丽汤了,只能正则找图片链接,怎么样得到原网页点击加载全部后的源码呢???(小白刚学爬虫,希望大佬指教)
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私有的数
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。 补充 有不少读者留言说本文章没有用,因为天气预报直接打开手机就可以收到了,为何要多此一举发送到邮箱呢!!!那我在这里只能说:因为你没用,所以你没用!!! 这里主要介绍的是思路,不是天气预报!不是天气预报!!不是天气预报!!!天气预报只是用于举例。请各位不要再刚了!!! 下面是我会用到的两个场景: 每日下
面试官问我:什么是消息队列?什么场景需要他?用了会出现什么问题?
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸,打败了无数
8年经验面试官详解 Java 面试秘诀
    作者 | 胡书敏 责编 | 刘静 出品 | CSDN(ID:CSDNnews) 本人目前在一家知名外企担任架构师,而且最近八年来,在多家外企和互联网公司担任Java技术面试官,前后累计面试了有两三百位候选人。在本文里,就将结合本人的面试经验,针对Java初学者、Java初级开发和Java开发,给出若干准备简历和准备面试的建议。   Java程序员准备和投递简历的实
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外
大学四年自学走来,这些珍藏的「实用工具/学习网站」我全贡献出来了
知乎高赞:文中列举了互联网一线大厂程序员都在用的工具集合,涉及面非常广,小白和老手都可以进来看看,或许有新收获。
《阿里巴巴开发手册》读书笔记-编程规约
Java编程规约命名风格 命名风格 类名使用UpperCamelCase风格 方法名,参数名,成员变量,局部变量都统一使用lowerCamelcase风格 常量命名全部大写,单词间用下划线隔开, 力求语义表达完整清楚,不要嫌名字长 ...
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
你知道的越多,你不知道的越多 点赞再看,养成习惯 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。 前前言 为啥今天有个前前言呢? 因为你们的丙丙啊,昨天有牌面了哟,直接被微信官方推荐,知乎推荐,也就仅仅是还行吧(心里乐开花)
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca
Python爬虫精简步骤1 获取数据
爬虫的工作分为四步: 1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。 2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 3.提取数据。爬虫程序再从中提取出我们需要的数据。 4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。 这一篇的内容就是:获取数据。 首先,我们将会利用一个强大的库——requests来获取数据。 在电脑上安装
Python绘图,圣诞树,花,爱心 | Turtle篇
1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle() circle.shape('circle') circle.color('red') circle.speed('fastest') circle.up() square = turtle.Turtle()
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东
破14亿,Python分析我国存在哪些人口危机!
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。 猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。 今天我们就来分析一下我们国家的人口数据吧! 更多有趣分析教程,扫描下方二维码关注vx公号「裸睡的猪」 即可查看! 一、背景 1.人口突破14亿 2020年1月17日,国家统计局发布
听说想当黑客的都玩过这个Monyer游戏(1~14攻略)
第零关 进入传送门开始第0关(游戏链接) 请点击链接进入第1关: 连接在左边→ ←连接在右边 看不到啊。。。。(只能看到一堆大佬做完的留名,也能看到菜鸡的我,在后面~~) 直接fn+f12吧 &lt;span&gt;连接在左边→&lt;/span&gt; &lt;a href="first.php"&gt;&lt;/a&gt; &lt;span&gt;←连接在右边&lt;/span&gt; o
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ......
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!
别低估自己的直觉,也别高估自己的智商
所有群全部吵翻天,朋友圈全部沦陷,公众号疯狂转发。这两周没怎么发原创,只发新闻,可能有人注意到了。我不是懒,是文章写了却没发,因为大家的关注力始终在这次的疫情上面,发了也没人看。当然,我...
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。   再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。   下文是原回答,希望能对你能有所启发。   如果我说,这个世界上人真的分三六九等,
为什么听过很多道理,依然过不好这一生?
记录学习笔记是一个重要的习惯,不希望学习过的东西成为过眼云烟。做总结的同时也是一次复盘思考的过程。 本文是根据阅读得到 App上《万维钢·精英日课》部分文章后所做的一点笔记和思考。学习是一个系统的过程,思维模型的建立需要相对完整的学习和思考过程。以下观点是在碎片化阅读后总结的一点心得总结。
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合
如何优雅地打印一个Java对象?
你好呀,我是沉默王二,一个和黄家驹一样身高,和刘德华一样颜值的程序员。虽然已经写了十多年的 Java 代码,但仍然觉得自己是个菜鸟(请允许我惭愧一下)。 在一个月黑风高的夜晚,我思前想后,觉得再也不能这么蹉跎下去了。于是痛下决心,准备通过输出的方式倒逼输入,以此来修炼自己的内功,从而进阶成为一名真正意义上的大神。与此同时,希望这些文章能够帮助到更多的读者,让大家在学习的路上不再寂寞、空虚和冷。 ...
雷火神山直播超两亿,Web播放器事件监听是怎么实现的?
Web播放器解决了在手机浏览器和PC浏览器上播放音视频数据的问题,让视音频内容可以不依赖用户安装App,就能进行播放以及在社交平台进行传播。在视频业务大数据平台中,播放数据的统计分析非常重要,所以Web播放器在使用过程中,需要对其内部的数据进行收集并上报至服务端,此时,就需要对发生在其内部的一些播放行为进行事件监听。 那么Web播放器事件监听是怎么实现的呢? 01 监听事件明细表 名
3万字总结,Mysql优化之精髓
本文知识点较多,篇幅较长,请耐心学习 MySQL已经成为时下关系型数据库产品的中坚力量,备受互联网大厂的青睐,出门面试想进BAT,想拿高工资,不会点MySQL优化知识,拿offer的成功率会大大下降。 为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上 随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢 数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计
Linux 命令(122)—— watch 命令
1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 [1] watch(1) manual
Linux 命令(121)—— cal 命令
1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 [1] cal(1) manual
记jsp+servlet+jdbc实现的新闻管理系统
1.工具:eclipse+SQLyog 2.介绍:实现的内容就是显示新闻的基本信息,然后一个增删改查的操作。 3.数据库表设计 列名 中文名称 数据类型 长度 非空 newsId 文章ID int 11 √ newsTitle 文章标题 varchar 20 √ newsContent 文章内容 text newsStatus 是否审核 varchar 10 news...
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(三)发送篇
今天介绍的项目是使用 Itchat 发送统计报告 项目功能设计: 定时爬取疫情数据存入Mysql 进行数据分析制作疫情报告 使用itchat给亲人朋友发送分析报告(本文) 基于Django做数据屏幕 使用Tableau做数据分析 来看看最终效果 目前已经完成,预计2月12日前更新 使用 itchat 发送数据统计报告 itchat 是一个基于 web微信的一个框架,但微信官方并不允
相关热词 c# 时间比天数 c# oracle查询 c# 主动推送 事件 c# java 属性 c# 控制台 窗体 c# 静态类存值 c#矢量作图 c#窗体调用外部程式 c# enum是否合法 c# 如何卸载引用
立即提问

相似问题

2
爬虫爬取1688返回response成功但是内容为空?
2
爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?
1
爬虫为什么只能爬到一部分内容?
2
爬虫 根据F12拿到了Form data却得不到数据
0
python,爬虫遇到重定向页面,如何获取动向后地址的response headers里的内容?
1
一个百度拇指医生爬虫,想要先实现爬取某个问题的所有链接,但是爬不出来东西。求各位大神帮忙看一下这是为什么?
2
scrapy 一个项目 多爬虫 如何分别用自身的爬虫名 命名产生的log文件?
1
python实现新浪微博爬虫
2
Python 爬虫 status 200 但得不到数据
2
爬虫返回的状态码是200,但打印json数据时报错
2
还是这个爬虫问题,请指教,可以连上个问答c币一起拿走
1
最近练习爬虫,获取携程 机票的信息 遇到了验证请问怎么处理
0
python 爬虫遇到问题了,这个问题怎么办
1
Python爬虫抓取信息存储到excel表格后,怎么实行数据可视化
4
爬虫遇到没有访问权限一般都是因为什么引起的
3
写爬虫时,需要的html和用requests.get返回的html不一样导致无法进行下一步,请问怎么解决??
1
学习爬虫时候'ascii' codec can't encode characters报错,百度各种方法都试过了,测试后发现是ascii转不了utf-8
2
python爬虫:为什么用requests可以爬到数据,用scrapy爬到数据为空?
1
php爬虫问题(目标网站刷新太慢,导致抓取不到)
1
Xpath爬虫获取数据不完整