python 爬虫 怎么获取标签中的注释?我用得lxml解析html
 <span>当前第9127页&nbsp;<!--共136904条-->&nbsp;&nbsp;</span>

怎么才能获取注释里的值呢?

tree=etree.HTML(page)
pagenumber=tree.xpath(xpathStr)
for i in pagenumber:
           totalpage=filter(str.isdigit,str(i))

1个回答

注释不属于xml格式了,你拿到span节点后获取它的内容,然后用字符串解析来获取注释。

fuyunkaka
fuyunkaka span节点之后获取内容,只能用正则表达式?
接近 4 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python之lxml输出原xml中注释问题
原XML中注释如下,经过中间的lxml代码处理后,注释部分跟原xml不一致了, “<![CDATA[@displayText:ip#@obtainType:1]]>变成了@displayText:ip#@obtainType:1”,没找到解决方法: 原XML: <test> <![CDATA[@displayText:ip#@obtainType:1]]> </test> 处理代码: from lxml import etree tree = etree.parse("test.xml") fileHandler = open("out1.xml", "wb") tree.write(fileHandler, encoding="utf-8", xml_declaration=True, pretty_print=True) fileHandler.close() 处理后输出xml: <?xml version='1.0' encoding='utf-8'?> <test> @displayText:ip#@obtainType:1 </test>
python lxml解析xslt文件,多出一行没有加标签的内容
我在用lxml解析自己写的xslt文件,将源文件转换成另一种xml格式,但是转换的结果出现了一行没有带标签的。 感觉是自己的xslt文件出来问题了,但是不知道是哪里有问题,求大神帮忙! 源文件截图: ![源文件](https://img-ask.csdn.net/upload/201811/08/1541669100_35461.png) 要提取的是concept下title和shortdesc里面的内容 我写的xslt文件: ``` <?xml version="1.0" encoding="UTF-8"?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <xsl:output indent="yes"/> <xsl:variable name="x" select="concept/shortdesc"/> <xsl:template match="concept/title"> <category> <pattern><xsl:value-of select="."/></pattern> <template><xsl:value-of select="$x"/></template> </category> </xsl:template> <xsl:template match="conbody"> <xsl:for-each select="section"> <category> <pattern><xsl:value-of select="title"/></pattern> <template><xsl:value-of select="p"/></template> </category> </xsl:for-each> </xsl:template> </xsl:stylesheet> ``` 最后出来的效果: ![图片说明](https://img-ask.csdn.net/upload/201811/08/1541669242_396220.png) 图片里画红线的哪一行应该是不出现的,不知道哪行为什么会显示两遍。
python爬虫中用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位?谢谢~
用python爬虫,代码用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位? 1.想要获取下面网址中的 债券基本信息 ,试了很多xpath的路径都失败了,都是空的_(¦3」∠)_,下面贴出测试用的代码,希望大家能帮我看下xpath那部分为什么不对(倒数第二行),也可能是其他问题o(╥﹏╥)o ``` import requests from lxml import html url = 'http://www.chinamoney.com.cn/chinese/zqjc/?bondDefinedCode=1000040278' page = requests.Session().get(url) tree = html.fromstring(page.text) result = tree.xpath('//tbody//tr//th/text()') print(result) ``` 2.想要获取下面网址中的一个href属性 (截图中阴影部分,就是查询结果的网址),也试了很多xpath的路径也都失败了,不知道@href前应该写什么。 ![图片说明](https://img-ask.csdn.net/upload/201903/27/1553648799_758977.png) ``` url = 'http://www.chinamoney.com.cn/chinese/qwjsn/?searchValue=14中关村集MTN001' ``` 第一次提问,有什么不合适的希望谅解,工作需要,时间比较急切,麻烦大家了。━((*′д`)爻(′д`*))━!!!!
centos 两个python版本导致无法import lxml
在centos服务器上,将默认的2.6版本的python升级为2.7.3版本的,并设置2.7.3为默认的,使用sudo yum install python-lxml安装lxml时 提示如下: ![图片说明](https://img-ask.csdn.net/upload/201511/19/1447924149_670381.jpg) 但当我在默认的升级后的python2.7.3里import lxml时出错了,如下 ![图片说明](https://img-ask.csdn.net/upload/201511/19/1447924328_366680.jpg) 当我使用旧的python版本2.6来import lxml时却有用,如下 ![图片说明](https://img-ask.csdn.net/upload/201511/19/1447924405_967865.jpg) 也就是说我安装的lxml在旧版的python上有用,在升级替换后的新版的python没用, 但是我的lxml是我在升级python后安装的,使用python命令也可以看到默认的python 使用的是我新安装的版本,请问如何解决呢?谢谢。
请问我的Python爬虫代码 哪里出现了问题?(要求:爬取猫眼电影top100榜单的信息)
代码如下: ``` import requests from requests.exceptions import RequestException import time from bs4 import BeautifulSoup def get_one_page(url): try: headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} response = requests.get(url,headers=headers) if response.status_code==200: return response.text return None except RequestException: return None def page(offset): url='http://maoyan.com/board/6?offset='+str(offset) return url for j in range(10): html_doc = get_one_page(page(j*10)) soup = BeautifulSoup(html_doc,'lxml') i = 1 for dd in soup.select("dd"): print(dd.find("i","board-index board-index-"+str(i+j*10)).get_text() +dd.find("p","name").get_text() +dd.find("p","star").get_text().strip() +dd.find("p","releasetime").string +dd.find("p","score").get_text()+'\n') i = i + 1 time.sleep(1) ``` 运行反馈结果为: ``` Traceback (most recent call last): File "<ipython-input-8-95f75b1c7bd0>", line 1, in <module> runfile('H:/程序语言学习用文件夹/Spider/beautifulSoup.py', wdir='H:/程序语言学习用文件夹/Spider') File "C:\Users\pc1\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 705, in runfile execfile(filename, namespace) File "C:\Users\pc1\Anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py", line 102, in execfile exec(compile(f.read(), filename, 'exec'), namespace) File "H:/程序语言学习用文件夹/Spider/beautifulSoup.py", line 29, in <module> soup = BeautifulSoup(html_doc,'lxml') File "C:\Users\pc1\Anaconda3\lib\site-packages\bs4\__init__.py", line 192, in __init__ elif len(markup) <= 256 and ( TypeError: object of type 'NoneType' has no len() ```
python3爬虫登陆需要验证码时的相关问题
最近学习python的爬虫,用的是lxml库。 然后如果要用爬虫登陆带验证码的网站,需要通过-检查-network-(登陆的信息)-from data,来构造爬虫。然后,from-data里面的信息是以字典的形式储存的,但是如下图:![图片说明](https://img-ask.csdn.net/upload/201905/13/1557736848_710314.jpg) 这个from-data里面,有两个名字一样的健,只是对应的值不一样,但是根本没有办法构造名字相同的两个键值对,这种情况要怎么操作,求助。。。。
python scrapy 爬虫图片新手求助
求问大神 我这个data她怎么了 报错: 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: meizitu) 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 22:22:05) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.17763-SP0 2020-02-07 09:24:55 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'meizitu', 'NEWSPIDER_MODULE': 'meizitu.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['meizitu.spiders']} 2020-02-07 09:24:55 [scrapy.extensions.telnet] INFO: Telnet Password: 0936097982b9bcc8 2020-02-07 09:24:55 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] Unhandled error in Deferred: 2020-02-07 09:24:56 [twisted] CRITICAL: Unhandled error in Deferred: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 184, in crawl return self._crawl(crawler, *args, **kwargs) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 188, in _crawl d = crawler.crawl(*args, **kwargs) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1613, in unwindGenerator return _cancellableInlineCallbacks(gen) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1529, in _cancellableInlineCallbacks _inlineCallbacks(None, g, status) --- <exception caught here> --- File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed builtins.SyntaxError: unexpected EOF while parsing (pipelines.py, line 22) 2020-02-07 09:24:56 [twisted] CRITICAL: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed File "E:\python_work\爬虫\meizitu\meizitu\pipelines.py", line 22 f.write(data) ^ SyntaxError: unexpected EOF while parsing 代码如下: pipeline ``` import requests class MeizituPipeline(object): def process_item(self, item, spider): print("main_title:",item['main_title']) print("main_image:", item['main_image']) print("main_tags:", item['main_tags']) print("main_meta:", item['main_meta']) print("page:", item['main_pagenavi']) url = requests.get(item['main_image']) print(url) try: with open(item['main_pagenavi'] +'.jpg','wb') as f: data = url.read() f.write(data) ``` image.py ``` import scrapy from scrapy.http import response from ..items import MeizituItem class ImageSpider(scrapy.Spider): #定义Spider的名字scrapy crawl meiaitu name = 'SpiderMain' #允许爬虫的域名 allowed_domains = ['www.mzitu.com/203554'] #爬取的首页列表 start_urls = ['https://www.mzitu.com/203554'] #负责提取response的信息 #response代表下载器从start_urls中的url的到的回应 #提取的信息 def parse(self,response): #遍历所有节点 for Main in response.xpath('//div[@class = "main"]'): item = MeizituItem() #匹配所有节点元素/html/body/div[2]/div[1]/div[3]/p/a content = Main.xpath('//div[@class = "content"]') item['main_title'] = content.xpath('./h2/text()') item['main_image'] = content.xpath('./div[@class="main-image"]/p/a/img') item['main_meta'] = content.xpath('./div[@class="main-meta"]/span/text()').extract() item['main_tags'] = content.xpath('./div[@class="main-tags"]/a/text()').extract() item['main_pagenavi'] = content.xpath('./div[@class="main_pagenavi"]/span/text()').extract_first() yield item new_links = response.xpath('.//div[@class="pagenavi"]/a/@href').extract() new_link =new_links[-1] yield scrapy.Request(new_link,callback=self.parse) ``` setting ``` BOT_NAME = 'meizitu' SPIDER_MODULES = ['meizitu.spiders'] NEWSPIDER_MODULE = 'meizitu.spiders' ROBOTSTXT_OBEY = True #配置默认请求头 DEFAULT_REQUEST_HEADERS = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36", 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' } ITEM_PIPELINES = { 'meizitu.pipelines.MeizituPipeline':300, } IMAGES_STORE = 'E:\python_work\爬虫\meizitu' IMAGES_MIN_HEIGHT = 1050 IMAGES_MIN_WIDTH = 700 ```
python3.5.0安装lxml,导入lxml.html和lxml.etree出错
系统是win7,安装的是python3.5.0版本,lxml安装的是lxml-3.7.1-cp35-cp35m-win_amd64.whl(通过pip安装的)。安装成功后import lxml没有报错,但import lxml.html 和 lxml.etree时就报错了,报错信息如下: >>> import lxml.html Traceback (most recent call last): File "<pyshell#11>", line 1, in <module> import lxml.html File "C:\Program Files\Python 3.5\lib\site-packages\lxml\html\__init__.py", line 54, in <module> from .. import etree File "type.pxd", line 9, in init lxml.etree (src\lxml\lxml.etree.c:220742) ValueError: builtins.type has the wrong size, try recompiling. Expected 840, got 864 >>> import lxml.etree Traceback (most recent call last): File "<pyshell#13>", line 1, in <module> import lxml.etree File "type.pxd", line 9, in init lxml.etree (src\lxml\lxml.etree.c:220742) ValueError: builtins.type has the wrong size, try recompiling. Expected 840, got 864
python 爬虫 用xpath抓取多行文本,如何实现多重遍历?
萌新学习python爬虫,在爬取网贷之家平台信息的时候,通过xpath将某一平台的网友印象三个关键词保存在一个数组中,输出到excel中。 现在我希望能够把该页面上25个平台信息都爬取到并保存,请问xpath怎么写循环?这里的25个信息代码结构是一模一样的,只有li从[1]-[25]。谢谢 ``` import requests import pandas as pd from lxml import etree from fake_useragent import UserAgent ua = UserAgent() headers['User-Agent']=ua.random url = 'https://www.wdzj.com/dangan/search?filter=e1&currentPage=1' response = requests.get(url,headers = headers).text s = etree.HTML(response) file_yinxiang = [] file_yinxiang1 = s.xpath('//*[normalize-space(@id)="showTable"]/ul/li[1]/div[2]/a/div[5]/span/text()')#实现li从1-25的循环 file_yinxiang.append(file_yinxiang1) df = pd.DataFrame(file_yinxiang) df.to_excel('wdzj_p2p.xlsx') ``` 网上查了很多资料,并不是很清楚,目前不循环是这个结果: ![图片说明](https://img-ask.csdn.net/upload/201903/18/1552887724_381412.png) 这是网页上我要爬取的内容: ![图片说明](https://img-ask.csdn.net/upload/201903/18/1552887858_653935.png)
Python爬虫抓取信息存储到excel表格后,怎么实行数据可视化
我用python爬去了起点中文网的一些信息,并且存储到excel中,现在想要实现数据可视化怎么写应该 import requests from lxml import etree from openpyxl import Workbook class Book(): def __init__(p): p.url = 'https://www.qidian.com/rank/hotsales?page={页数}' p.wb = Workbook() # class实例化 p.ws = p.wb.active # 激活工具表 p.ws.append(['书名', '作者', '类型', '连载状态']) # 添加对应的表头 def geturl(p): url = [p.url.format(页数 =i) for i in range(1,15)] return url def parse_url(p,url): response =requests.get(url,timeout = 5) return response.content.decode('utf-8','ignore') def get_list(p,html_str): html = etree.HTML(html_str) connect_list = [] lists = html.xpath("//div[@class='book-img-text']/ul/li//div[@class='book-mid-info']") for list in lists: item = {} item['书名'] = ''.join(list.xpath("./h4/a/text()")) item['作者'] = ''.join(list.xpath("./p[@class='author']/a[1]/text()")) item['类型'] = ''.join(list.xpath("./p[@class='author']/a[2]/text()")) item['连载状态'] = ''.join(list.xpath("./p[@class='author']/span/text()")) connect_list.append(item) return connect_list def save_list(p, connects): for connect in connects: p.ws.append([connect['书名'], connect['作者'], connect['类型'], connect['连载状态']]) print('保存小说信息成功') def run(p): url_list = p.geturl() for url in url_list: html_url =p.parse_url(url) connects = p.get_list(html_url) p.save_list(connects[:]) p.wb.save('book.xlsx') if __name__=='__main__': spider = Book() spider.run()
python3 Lxml和BeautifulSoup解析网页出问题输出有问题, 求指教!
各位大神好: 下面这几句代码输出网页解析的结果为什么结果很难看: ``` import lxml.html broken_html = '<ul class=country><li>area<li>population</ul>' tree = lxml.html.fromstring(broken_html) cc = lxml.html.tostring(tree, pretty_print=True, method='html').decode() print(cc) ``` 下面是输出结果: ``` <ul class="country"> <li>area</li> <li>population</li> </ul> ``` 尽管闭合了标签,但是完全看不出嵌套关系了。上面的decode()是为了将前面的输出bytes类型转换成str类型。 而使用BeautifulSoup同样出错 ``` from bs4 import BeautifulSoup soup = BeautifulSoup(broken_html, 'html.parser') ccc = soup.prettify() print(ccc) ``` 结果,标签都补错了: ``` ”<ul class="country"> <li> area <li> population </li> </li> </ul>” ``` 第一次发帖,求各位大神给我解释下,多谢!
python爬虫的奇葩错误,socket.gaierror: [Errno 11001] getaddrinfo failed
```''' 文件名:爬取斗鱼直播间信息到jsonline文件.py ''' from __future__ import unicode_literals import multiprocessing import socket import time import re import requests from bs4 import BeautifulSoup import json # 配置socket的ip和端口 client = socket.socket(socket.AF_INET, socket.SOCK_STREAM) host = socket.gethostbyname("openbarrage.douyutv.com") port = 8601 client.connect((host, port)) # 获取用户昵称及弹幕信息的正则表达式 danmu = re.compile(b'type@=chatmsg.*?/nn@=(.*?)/txt@=(.*?)/.*?/level@=(.*?)/.*?/bnn@=(.*?)/bl@=(.*?)/') def sendmsg(msgstr): ''' 客户端向服务器发送请求的函数,集成发送协议头的功能 msgHead: 发送数据前的协议头,消息长度的两倍,及消息类型、加密字段和保密字段 使用while循环发送具体数据,保证将数据都发送出去 ''' msg = msgstr.encode('utf-8') data_length = len(msg) + 8 code = 689 msgHead = int.to_bytes(data_length, 4, 'little') \ + int.to_bytes(data_length, 4, 'little') + int.to_bytes(code, 4, 'little') client.send(msgHead) sent = 0 while sent < len(msg): tn = client.send(msg[sent:]) sent = sent + tn def start(roomid): ''' 发送登录验证请求后,获取服务器返回的弹幕信息,同时提取昵称及弹幕内容 登陆请求消息及入组消息末尾要加入\0 ''' msg = 'type@=loginreq/roomid@={}/\0'.format(roomid) sendmsg(msg) msg_more = 'type@=joingroup/rid@={}/gid@=-9999/\0'.format(roomid) sendmsg(msg_more) print('---------------欢迎连接到{}的直播间---------------'.format(get_name(roomid))) while True: data = client.recv(1024) danmu_more = danmu.findall(data) if not data: break else: with open(format(get_name(roomid)) + time.strftime('%Y.%m.%d', time.localtime(time.time())) + '直播弹幕', 'a') as f: try: for i in danmu_more: dmDict = {} # print(i) dmDict['昵称'] = i[0].decode(encoding='utf-8', errors='ignore') dmDict['弹幕内容'] = i[1].decode(encoding='utf-8', errors='ignore') dmDict['等级'] = i[2].decode(encoding='utf-8', errors='ignore') dmDict['徽章昵称'] = i[3].decode(encoding='utf-8', errors='ignore') dmDict['徽章等级'] = i[4].decode(encoding='utf-8', errors='ignore') dmJsonStr = json.dumps(dmDict, ensure_ascii=False) + '\n' # print(dmDict['昵称']) print(dmDict['弹幕内容']) f.write(dmJsonStr) danmuNum = danmuNum + 1 except: continue def keeplive(): ''' 发送心跳信息,维持TCP长连接 心跳消息末尾加入\0 ''' while True: msg = 'type@=mrkl/\0' sendmsg(msg) time.sleep(45) def get_name(roomid): ''' 利用BeautifulSoup获取直播间标题 ''' r = requests.get("http://www.douyu.com/" + roomid) soup = BeautifulSoup(r.text, 'lxml') return soup.find('a', {'class', 'Title-anchorName'}).string # 启动程序 if __name__ == '__main__': room_id = input('请输入房间ID: ') p1 = multiprocessing.Process(target=start, args=(room_id,)) p2 = multiprocessing.Process(target=keeplive) p1.start() p2.start() ```在别人电脑可以运行,但是在自己的电脑上就报错 附上报错截图,有大神可以帮忙处理一下吗?万分感谢 报错: E:\pythonzzz\venv\Scripts\python.exe E:/pythonzzz/爬虫/z3.py Traceback (most recent call last): File "E:/pythonzzz/爬虫/z3.py", line 17, in <module> host = socket.gethostbyname("openbarrage.douyutv.com") socket.gaierror: [Errno 11001] getaddrinfo failed Process finished with exit code 1
python爬虫时为什么网页源码经过xpth处理后无法解析了呢
## 在爬取一个小说网站的时候我发现在网页的response中可以看到相关的值,但是在获取的时候就出现了问题 ### 具体问题是这样的, - 爬取的网站链接为:https://www.qiushuzw.com/t/38890/10253657.html ``` from lxml import etree import requests class Xiaoshuospider: def __init__(self): self.start_url = 'https://www.qiushuzw.com/t/38890/10253656.html' self.headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", "Cache-Control": "max-age=0", "Connection": "keep-alive", "Cookie": "BAIDU_SSP_lcr=https://www.80txt.com/txtml_38890.html; Hm_lvt_c0ce681e8e9cc7e226131131f59a202c=1554447305; Hm_lpvt_c0ce681e8e9cc7e226131131f59a202c=1554447305; UM_distinctid=169ec4788554ea-0eba8d0589d979-1a201708-15f900-169ec4788562c1; CNZZDATA1263995655=929605835-1554443240-https%253A%252F%252Fwww.80txt.com%252F%7C1554443240", "Host": "www.qiushuzw.com", "If-Modified-Since": "Thu, 31 Jan 2019 03:00:17 GMT", "If-None-Match": 'W/"5c5264c1 - 3f30"', "Referer": "https://www.80txt.com/txtml_38890.html", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36", } def parse(self): res = requests.get(self.start_url,headers=self.headers).content.decode() html = etree.HTML(res) content = html.xpath("div[@class='book_content']/text()") print(content) def run(self): self.parse() if __name__ == '__main__': xiaoshuo = Xiaoshuospider() xiaoshuo.run() ``` - 根据xpath规则我将这些信息处理以后无法找到相应小说文本内容,小说的详细信息无法使用xpath提取出来 ## 有没有哪位大佬也遇到相应的问题
python爬虫爬取数据存储进数据库的问题
一直说我主键已存在,无法进行存储 我做的爬虫是csdn爬虫,针对于论坛一个版块,爬取某几页的所有帖子 我用的是flask-sqlalchemy来进行操作数据库,下面是三个需要用到的模型: ``` class Topic(db.Model): answer = relationship('Answer', backref='topic', lazy='dynamic') author_id = Column(String(30), ForeignKey('user.id')) id=Column(String(30),primary_key=True) title = Column(String(30)) author_name=Column(String(30)) create_time = Column('create_time', Integer) answer_nums=Column(Integer,default=0) content=Column(Text) click_nums=Column(String(30),default='0') parised_nums=Column(Integer,default=0) score=Column(Integer,default=0) status=Column(String(30)) jtl=Column(String(30),default='0.0') ``` **_上面是帖子模型,跟answer模型相关联,answer模型就是一个帖子内的所有回答,而同时author_id是作为外键跟user模型相关联 **_ ``` class Answer(db.Model): id=Column(String(30),primary_key=True) topic_name=Column(String(30)) author_name=Column(String(30)) author_id=Column(String(30)) content=Column(Text) create_time = Column('create_time', Integer) parised_nums=Column(Integer,default=0) topic_id=Column(String(30),ForeignKey('topic.id')) ``` 上面是针对每一个回答的模型 ``` class User(db.Model): topic=relationship('Topic',backref='user',lazy='dynamic') id=Column(String(30),primary_key=True) click_nums=Column(String(30),default='0') original_nums=Column(Integer,default=0) #原创数 forward_nums=Column(Integer,default=0) #转发数 rate=Column(Integer,default=-1) #排名 answer_nums=Column(Integer,default=0) #评论数 parised_nums=Column(Integer,default=0) #获赞数 desc=Column(Text) #描述 industry=Column(String(40)) #工作行业 location=Column(String(40)) follower_nums=Column(Integer,default=0) #粉丝数 following_nums=Column(Integer,default=0) #关注数 level=Column(Integer) ``` 上面就是用到的三大模型: 下面是进行存储数据的代码: ``` if page == 0: html = requests.get('https://bbs.csdn.net/forums/Mobile/recommend').text else: html=requests.get('https://bbs.csdn.net/forums/Mobile/recommend',params={'page':page}).text bsoj = BeautifulSoup(html, 'lxml') tags= bsoj.find('div', class_='forums_table_c').tbody.find_all('tr') ''' 爬取这一页的帖子,至于第几页根据传进来的page所定义 tags就是里面帖子的集合 ''' for tag in tags: status=self.get_status(tag) score=self.get_score(tag) answer_nums,click_nums=self.get_click_nums_and_answer_nums(tag) ''' 上面这三个是需要爬取的几个东西,不需要理会 ''' url='https://bbs.csdn.net'+self.get_url(tag) ''' 这个url就是每一个帖子的url ''' topic=Topic(url,score,status,click_nums,int(answer_nums)) topic_db = Topic_Model(topic) ''' 初始化topic,这个topic_db就是topic模型的对象 ''' user = User(topic.author_id) user_db = User_Model(user) ''' user就是user模型的对象 ''' self.onhand(url,topic,topic_db,user_db,user) def onhand(self,url,topic,topic_db,user_db,user): html=requests.get(url).text bsoj=BeautifulSoup(html,'lxml') tags=bsoj.find_all('div',class_='mod_topic_wrap post') answers=[] ''' 这一步是为了抓取一个帖子内所有的回答 ''' for tag in tags: answer=Answer(topic,tag) answer_db=Answer_Model(answer) answers.append(answer_db) ''' 抓取所有回答,并将每一个回答实例化一个Answer模型的对象 ''' topic_db.answer=answers ''' 关联数据库,将所有的answer对象都放在topic里面 ''' user_db.topic.append(topic_db) ''' user与topic关联 这里是有问题的,因为如果user已经存在再数据库里,那么就不会提交,那么这个topic增加就没意义了,但是我不知道如何解决 ''' if User_Model.query.filter_by(id=user.id).first() is None: db.session.add(user_db) db.session.commit() ''' 判断是否要存储到数据库里 ''' db.session.add(topic_db) db.session.commit() for data in answers: db.session.add(data) db.session.commit() ''' 将answer集合里的所有answer提交到数据库中 ''' ``` 下面是报错信息: ![图片说明](https://img-ask.csdn.net/upload/201904/22/1555936870_832821.png) 明明已经进行判断了,如果存在就不会进行存储,照样报错了,而且奇怪的是我debug时是这一句出现了错误: ``` db.session.add(topic_db) db.session.commit() ``` 不知道如何解决,求各位大佬帮忙
Python爬虫结果为空TT
新手修改了网上代码,想要爬百度新闻的标题和简介,不知道为什么运行结果是空。在mac自带的python2上运行: ``` from urllib import urlopen import csv import re from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding("utf-8") for k in range(1,36): url = "http://news.baidu.com/ns?word=低保&pn=%s&cl=2&ct=1&tn=news&rn=20&ie=utf-8&bt=0&et=0"% ((k-1)*20) csvfile = file("Dibao.csv", "ab+") writer = csv.writer(csvfile) content = urlopen(url).read() soup = BeautifulSoup(content,"lxml") list0 = [] list1 = [] list2 = [] list3 = [] for i in range(1,20): hotNews = soup.find_all("div", {"class", "result"})[i] a1=hotNews.find(name="a", attrs={"target": re.compile("_blank")}) list0.append(a1.text) a2=hotNews.find(name="p", attrs={"class": re.compile("c-author")}) t1=a2.text.split()[0] list1.append(t1) t2 = a2.text.split()[1] list2.append(t2) if t2.find(u"年") == 4: t3 = a2.text.split()[2] list3.append(t3) else: list3.append(" ") #将数据写入csv data = [] for i in range(0,20): data.append((list0[i], list1[i], list2[i],list3[i])) writer.writerows(data) csvfile.close() print "第" + str(k) + "页完成" ``` 报错: Traceback (most recent call last): File "<stdin>", line 12, in <module> IndexError: list index out of range 不懂参数过范围什么意思,新闻一共37页,每页20条。 希望有大神能帮忙看一下,多谢啦~
渣渣请教python爬虫xpath问题
各位大神,小弟我最近爬取闲鱼商品的时候出现个问题: 这个是网页源码截图,我想爬取里面这个赞数: ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950224_39834.jpg) 网页链接:https://2.taobao.com/item.htm?id=538626368021 下面是我的源码: ``` #! /usr/bin/env python #coding=utf-8 import urllib from bs4 import BeautifulSoup import re from lxml import etree """ https://s.2.taobao.com/list/list.htm?\ spm=2007.1000337.0.0.WOjjAq&st_trust=1&page=3&q=%C0%D6%B8%DF&ist=0 """ def get_html(page=1, q="lego"): """获取商品列表页源代码,返回源代码content""" params = { "spm":"2007.1000337.0.0.WOjjAq", "st_trust":"1", "page":page, "q":q, "ist":"0" } info = urllib.urlencode(params) url = "https://s.2.taobao.com/list/list.htm?" + info html = urllib.urlopen(url) content = html.read() html.close() return content def get_url(content): """从商品列表页源代码中获取商品页url,返回url的列表""" soup = BeautifulSoup(content, "lxml") div_box = soup.find_all('div', class_='item-info') url_list = [] for div in div_box: url=div.find('h4', class_='item-title').a['href'] url_c = "https:" + url url_list.append(url_c) return url_list def get_product(url): html = urllib.urlopen(url) content = html.read() html.close() content1 = content.decode('gbk').encode('utf-8') rempat = re.compile('&') content1 = re.sub(rempat,'&amp;',content1) root = etree.fromstring(content1) zan = root.xpath('.//div[@id="J_AddFav"]/em/text()]') return zan if __name__ == '__main__': content = get_html(1,"lego") url_list = get_url(content) url1 = url_list[1] print url1 print get_product(url1) ``` 问题出现在这里: ``` root = etree.fromstring(content1) ``` ![图片说明](https://img-ask.csdn.net/upload/201609/15/1473950415_793148.jpg) 除了将&替换成&amp;外没有对网页源码进行改动,不知为何源码会报错…… 谢谢各位大神了,我是技术渣(我是学化学的……最近工作需要,拿闲鱼来练手,结果卡在这里一天了)
python爬虫爬取的图片存在错误打不开
python3写的不知道哪里错了,求教大家帮看看 import requests from bs4 import BeautifulSoup ''' https://www.mzitu.com/ ''' def get_girls(url): headers = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36" } Picreferer = {'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36" } path = 'D:/mzitu/' html = requests.get(url,headers=headers).text all_list = BeautifulSoup(html,'lxml').find('ul',id="pins").find_all('li') for _ in all_list: girl_title = _.get_text() girl_url = _.find('img')['data-original'] print("{}:{}".format(girl_title,girl_url)) response = requests.get(girl_url,headers=headers) fileName = girl_title + '.jpg' print('正在保存图片' + fileName) with open(fileName,'wb') as f: f.write(response.content) if __name__ =="__main__": for page in range(1,229): url = 'https://www.mzitu.com/page/%s/' % page get_girls(url)
python爬虫爬取斗图啦上的图片,打开爬取的图片显示图片错误
![图片说明](https://img-ask.csdn.net/upload/201908/03/1564803739_452406.png) ```![图片说明](https://img-ask.csdn.net/upload/201908/03/1564803394_897302.png) import requests,re,os from bs4 import BeautifulSoup def get_url(url): headers={ 'User_Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Referrer':url } res = requests.get(url,headers=headers) text = res.text soup = BeautifulSoup(text,'lxml') divs = soup.find('div',class_='page-content text-center') a_s = divs.find_all('a',attrs={'class': 'col-xs-6 col-sm-3'}) for a in a_s: #print(a) herf = a['href'] img = a.find('img') print(img) #获取最内层标签方法如下 if a.img['class']==['gif']: pass else: alt = a.img['alt'] alt = re.sub(r'[,@??!!:。]','',alt) #print(alt) data = a.img['data-original'] print(data) datastr = '.'+data.split('.')[-1] filename = alt + datastr #print(filename) #print(os.getcwd()) if os.path.exists(os.getcwd() + "\斗图啦\\"+filename): print('文件已经存在') else: filename = os.getcwd() + "\斗图啦\\"+filename print(filename) with open(filename,'w') as fp: fp.write(data) def main(): if os.path.exists(os.getcwd()+'\斗图啦\\'): print('文件夹已存在') else: os.mkdir(os.getcwd() + "\斗图啦\\") #for x in range(1,101): # url = 'http://www.doutula.com/photo/list/?page=%d' %x # get_url(url) url = 'http://www.doutula.com/photo/list/?page=1' get_url(url) if __name__ == '__main__': main() ``` ```
Python 在安装lxml库的时候 一直搞不定
![图片说明](https://img-ask.csdn.net/upload/201603/02/1456909161_93198.png) 各位哥哥 哥哥们,不知道这是什么原因,也不知道我是否安装成功了 lxml 我也下载了 setuptools-20.2.2 ,按步骤安装的,可是还是不行,请各位哥哥 哥哥们帮小弟解决一下吧~ 痛苦中……
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私有的数
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。 补充 有不少读者留言说本文章没有用,因为天气预报直接打开手机就可以收到了,为何要多此一举发送到邮箱呢!!!那我在这里只能说:因为你没用,所以你没用!!! 这里主要介绍的是思路,不是天气预报!不是天气预报!!不是天气预报!!!天气预报只是用于举例。请各位不要再刚了!!! 下面是我会用到的两个场景: 每日下
面试官问我:什么是消息队列?什么场景需要他?用了会出现什么问题?
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸,打败了无数
8年经验面试官详解 Java 面试秘诀
    作者 | 胡书敏 责编 | 刘静 出品 | CSDN(ID:CSDNnews) 本人目前在一家知名外企担任架构师,而且最近八年来,在多家外企和互联网公司担任Java技术面试官,前后累计面试了有两三百位候选人。在本文里,就将结合本人的面试经验,针对Java初学者、Java初级开发和Java开发,给出若干准备简历和准备面试的建议。   Java程序员准备和投递简历的实
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外
大学四年自学走来,这些珍藏的「实用工具/学习网站」我全贡献出来了
知乎高赞:文中列举了互联网一线大厂程序员都在用的工具集合,涉及面非常广,小白和老手都可以进来看看,或许有新收获。
《阿里巴巴开发手册》读书笔记-编程规约
Java编程规约命名风格 命名风格 类名使用UpperCamelCase风格 方法名,参数名,成员变量,局部变量都统一使用lowerCamelcase风格 常量命名全部大写,单词间用下划线隔开, 力求语义表达完整清楚,不要嫌名字长 ...
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
你知道的越多,你不知道的越多 点赞再看,养成习惯 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。 前前言 为啥今天有个前前言呢? 因为你们的丙丙啊,昨天有牌面了哟,直接被微信官方推荐,知乎推荐,也就仅仅是还行吧(心里乐开花)
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca
Python爬虫精简步骤1 获取数据
爬虫的工作分为四步: 1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。 2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 3.提取数据。爬虫程序再从中提取出我们需要的数据。 4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。 这一篇的内容就是:获取数据。 首先,我们将会利用一个强大的库——requests来获取数据。 在电脑上安装
Python绘图,圣诞树,花,爱心 | Turtle篇
1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle() circle.shape('circle') circle.color('red') circle.speed('fastest') circle.up() square = turtle.Turtle()
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东
破14亿,Python分析我国存在哪些人口危机!
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。 猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。 今天我们就来分析一下我们国家的人口数据吧! 更多有趣分析教程,扫描下方二维码关注vx公号「裸睡的猪」 即可查看! 一、背景 1.人口突破14亿 2020年1月17日,国家统计局发布
听说想当黑客的都玩过这个Monyer游戏(1~14攻略)
第零关 进入传送门开始第0关(游戏链接) 请点击链接进入第1关: 连接在左边→ ←连接在右边 看不到啊。。。。(只能看到一堆大佬做完的留名,也能看到菜鸡的我,在后面~~) 直接fn+f12吧 &lt;span&gt;连接在左边→&lt;/span&gt; &lt;a href="first.php"&gt;&lt;/a&gt; &lt;span&gt;←连接在右边&lt;/span&gt; o
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ......
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!
别低估自己的直觉,也别高估自己的智商
所有群全部吵翻天,朋友圈全部沦陷,公众号疯狂转发。这两周没怎么发原创,只发新闻,可能有人注意到了。我不是懒,是文章写了却没发,因为大家的关注力始终在这次的疫情上面,发了也没人看。当然,我...
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。   再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。   下文是原回答,希望能对你能有所启发。   如果我说,这个世界上人真的分三六九等,
为什么听过很多道理,依然过不好这一生?
记录学习笔记是一个重要的习惯,不希望学习过的东西成为过眼云烟。做总结的同时也是一次复盘思考的过程。 本文是根据阅读得到 App上《万维钢·精英日课》部分文章后所做的一点笔记和思考。学习是一个系统的过程,思维模型的建立需要相对完整的学习和思考过程。以下观点是在碎片化阅读后总结的一点心得总结。
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合
如何优雅地打印一个Java对象?
你好呀,我是沉默王二,一个和黄家驹一样身高,和刘德华一样颜值的程序员。虽然已经写了十多年的 Java 代码,但仍然觉得自己是个菜鸟(请允许我惭愧一下)。 在一个月黑风高的夜晚,我思前想后,觉得再也不能这么蹉跎下去了。于是痛下决心,准备通过输出的方式倒逼输入,以此来修炼自己的内功,从而进阶成为一名真正意义上的大神。与此同时,希望这些文章能够帮助到更多的读者,让大家在学习的路上不再寂寞、空虚和冷。 ...
雷火神山直播超两亿,Web播放器事件监听是怎么实现的?
Web播放器解决了在手机浏览器和PC浏览器上播放音视频数据的问题,让视音频内容可以不依赖用户安装App,就能进行播放以及在社交平台进行传播。在视频业务大数据平台中,播放数据的统计分析非常重要,所以Web播放器在使用过程中,需要对其内部的数据进行收集并上报至服务端,此时,就需要对发生在其内部的一些播放行为进行事件监听。 那么Web播放器事件监听是怎么实现的呢? 01 监听事件明细表 名
3万字总结,Mysql优化之精髓
本文知识点较多,篇幅较长,请耐心学习 MySQL已经成为时下关系型数据库产品的中坚力量,备受互联网大厂的青睐,出门面试想进BAT,想拿高工资,不会点MySQL优化知识,拿offer的成功率会大大下降。 为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上 随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢 数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计
Linux 命令(122)—— watch 命令
1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 [1] watch(1) manual
Linux 命令(121)—— cal 命令
1.命令简介 2.命令格式 3.选项说明 4.常用示例 参考文献 [1] cal(1) manual
记jsp+servlet+jdbc实现的新闻管理系统
1.工具:eclipse+SQLyog 2.介绍:实现的内容就是显示新闻的基本信息,然后一个增删改查的操作。 3.数据库表设计 列名 中文名称 数据类型 长度 非空 newsId 文章ID int 11 √ newsTitle 文章标题 varchar 20 √ newsContent 文章内容 text newsStatus 是否审核 varchar 10 news...
Python新型冠状病毒疫情数据自动爬取+统计+发送报告+数据屏幕(三)发送篇
今天介绍的项目是使用 Itchat 发送统计报告 项目功能设计: 定时爬取疫情数据存入Mysql 进行数据分析制作疫情报告 使用itchat给亲人朋友发送分析报告(本文) 基于Django做数据屏幕 使用Tableau做数据分析 来看看最终效果 目前已经完成,预计2月12日前更新 使用 itchat 发送数据统计报告 itchat 是一个基于 web微信的一个框架,但微信官方并不允
相关热词 c#导入fbx c#中屏蔽键盘某个键 c#正态概率密度 c#和数据库登陆界面设计 c# 高斯消去法 c# codedom c#读取cad文件文本 c# 控制全局鼠标移动 c# temp 目录 bytes初始化 c#
立即提问