python scrapy爬虫 抓取的内容只有一条,怎么破??

目标URL:http://218.92.23.142/sjsz/szxx/Index.aspx(工作需要)
主要目的是爬取网站中的信件类型、信件主题、写信时间、回复时间、回复状态以及其中链接里面的具体内容,然后保存到excel表格中。里面的链接全部都是POST方法,没有出现一个具体的链接,所以我感觉非常恼火。
目前碰到的问题:
1、 但是我只能抓到第一条的信息,后面就抓不到了。具体是这条:市长您好: 我是一名事...
2、 scrapy运行后出现的信息是:
15:01:33 [scrapy] INFO: Scrapy 1.0.3 started (bot: spider2)
2016-01-13 15:01:33 [scrapy] INFO: Optional features available: ssl, http11
2016-01-13 15:01:33 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'spider2.spiders', 'FEED_URI': u'file:///F:/\u5feb\u76d8/workspace/Pythontest/src/Scrapy/spider2/szxx.csv', 'SPIDER_MODULES': ['spider2.spiders'], 'BOT_NAME': 'spider2', 'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5', 'FEED_FORMAT': 'CSV'}
2016-01-13 15:01:36 [scrapy] INFO: Enabled extensions: CloseSpider, FeedExporter, TelnetConsole, LogStats, CoreStats, SpiderState
2016-01-13 15:01:38 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2016-01-13 15:01:38 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2016-01-13 15:01:38 [scrapy] INFO: Enabled item pipelines:
2016-01-13 15:01:38 [scrapy] INFO: Spider opened
2016-01-13 15:01:38 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-01-13 15:01:38 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: None)
2016-01-13 15:01:39 [scrapy] DEBUG: Filtered duplicate request: - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
2016-01-13 15:01:39 [scrapy] DEBUG: Redirecting (302) to from
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
2016-01-13 15:01:39 [scrapy] DEBUG: Scraped from
第一条的信息(太多了,就省略了。。。。)
2016-01-13 15:01:39 [scrapy] DEBUG: Crawled (200) (referer: http://218.92.23.142/sjsz/szxx/Index.aspx)
…………
后面的差不多,就不写出来了
2016-01-13 15:01:41 [scrapy] INFO: Stored csv feed (1 items) in: file:///F:/快盘/workspace/Pythontest/src/Scrapy/spider2/szxx.csv
2016-01-13 15:01:41 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 56383,
'downloader/request_count': 17,
'downloader/request_method_count/GET': 3,
'downloader/request_method_count/POST': 14,
'downloader/response_bytes': 118855,
'downloader/response_count': 17,
'downloader/response_status_count/200': 16,
'downloader/response_status_count/302': 1,
'dupefilter/filtered': 120,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2016, 1, 13, 7, 1, 41, 716000),
'item_scraped_count': 1,
'log_count/DEBUG': 20,
'log_count/INFO': 8,
'request_depth_max': 14,
'response_received_count': 16,
'scheduler/dequeued': 17,
'scheduler/dequeued/memory': 17,
'scheduler/enqueued': 17,
'scheduler/enqueued/memory': 17,
'start_time': datetime.datetime(2016, 1, 13, 7, 1, 38, 670000)}
2016-01-13 15:01:41 [scrapy] INFO: Spider closed (finished)

具体的代码如下(代码写的不好,误喷):
import sys, copy

reload(sys)
sys.setdefaultencoding('utf-8')
sys.path.append("../")

from scrapy.spiders import CrawlSpider
from scrapy.http import FormRequest, Request
from scrapy.selector import Selector
from items import Spider2Item

class Domeszxx(CrawlSpider):
name = "szxx"
allowed_domain = ["218.92.23.142"]
start_urls = ["http://218.92.23.142/sjsz/szxx/Index.aspx"]
item = Spider2Item()

def parse(self, response):

    selector = Selector(response)

    # 获得下一页的POST参数
    viewstate = ''.join(selector.xpath('//input[@id="__VIEWSTATE"]/@value').extract()[0])
    eventvalidation = ''.join(selector.xpath('//input[@id="__EVENTVALIDATION"]/@value').extract()[0])
    nextpage = ''.join(
            selector.xpath('//input[@name="ctl00$ContentPlaceHolder1$GridView1$ctl12$txtGoPage"]/@value').extract())
    nextpage_data = {
        '__EVENTTARGET': 'ctl00$ContentPlaceHolder1$GridView1$ctl12$cmdNext',
        '__EVENTARGUMENT': '',
        '__VIEWSTATE': viewstate,
        '__VIEWSTATEGENERATOR': '9DEFE542',
        '__EVENTVALIDATION': eventvalidation,
        'ctl00$ContentPlaceHolder1$GridView1$ctl12$txtGoPage': nextpage
    }
    # 获得抓取当前内容的xpath
    xjlx = ".//*[@id='ContentPlaceHolder1_GridView1_Label2_"
    xjzt = ".//*[@id='ContentPlaceHolder1_GridView1_LinkButton5_"
    xxsj = ".//*[@id='ContentPlaceHolder1_GridView1_Label4_"
    hfsj = ".//*[@id='ContentPlaceHolder1_GridView1_Label5_"
    nextlink = '//*[@id="ContentPlaceHolder1_GridView1_cmdNext"]/@href'

    # 获取当前页面公开答复的行数
    listnum = len(selector.xpath('//tr')) - 2

    # 获得抓取内容
    for i in range(0, listnum):
        item_all = {}
        xjlx_xpath = xjlx + str(i) + "']/text()"
        xjzt_xpath = xjzt + str(i) + "']/text()"
        xxsj_xpath = xxsj + str(i) + "']/text()"
        hfsj_xpath = hfsj + str(i) + "']/text()"

        # 信件类型
        item_all['xjlx'] = selector.xpath(xjlx_xpath).extract()[0].decode('utf-8').encode('gbk')
        # 信件主题
        item_all['xjzt'] = str(selector.xpath(xjzt_xpath).extract()[0].decode('utf-8').encode('gbk')).replace('\n',
                                                                                                              '')
        # 写信时间
        item_all['xxsj'] = selector.xpath(xxsj_xpath).extract()[0].decode('utf-8').encode('gbk')
        # 回复时间
        item_all['hfsj'] = selector.xpath(hfsj_xpath).extract()[0].decode('utf-8').encode('gbk')

        # 获取二级页面中的POST参数
        eventtaget = 'ctl00$ContentPlaceHolder1$GridView1$ctl0' + str(i + 2) + '$LinkButton5'
        content_data = {
            '__EVENTTARGET': eventtaget,
            '__EVENTARGUMENT': '',
            '__VIEWSTATE': viewstate,
            '__VIEWSTATEGENERATOR': '9DEFE542',
            '__EVENTVALIDATION': eventvalidation,
            'ctl00$ContentPlaceHolder1$GridView1$ctl12$txtGoPage': nextpage
        }
        # 完成抓取信息的传递
        yield Request(url="http://218.92.23.142/sjsz/szxx/Index.aspx", callback=self.send_value,
                      meta={'item_all': item_all, 'content_data': content_data})

        # 进入页面中的二级页面的链接,必须利用POST方法才能提交,无法看到直接的URL,同时将本页中抓取的item和进入下一页的POST方法进行传递
        # yield Request(url="http://218.92.23.142/sjsz/szxx/Index.aspx", callback=self.getcontent,
        #               meta={'item': item_all})
        # yield FormRequest(url="http://218.92.23.142/sjsz/szxx/Index.aspx", formdata=content_data,
        #                   callback=self.getcontent)

    # 进入下一页
    if selector.xpath(nextlink).extract():
        yield FormRequest(url="http://218.92.23.142/sjsz/szxx/Index.aspx", formdata=nextpage_data,
                          callback=self.parse)

# 将当前页面的值传递到本函数并存入类的item中
def send_value(self, response):
    itemx = response.meta['item_all']
    post_data = response.meta['content_data']
    Domeszxx.item = copy.deepcopy(itemx)
    yield FormRequest(url="http://218.92.23.142/sjsz/szxx/Index.aspx", formdata=post_data,
                      callback=self.getcontent)
    return

# 将二级链接中值抓取并存入类的item中
def getcontent(self, response):
    item_getcontent = {
        'xfr': ''.join(response.xpath('//*[@id="lblXFName"]/text()').extract()).decode('utf-8').encode('gbk'),
        'lxnr': ''.join(response.xpath('//*[@id="lblXFQuestion"]/text()').extract()).decode('utf-8').encode(
                'gbk'),
        'hfnr': ''.join(response.xpath('//*[@id="lblXFanswer"]/text()').extract()).decode('utf-8').encode(
                'gbk')}
    Domeszxx.item.update(item_getcontent)
    yield Domeszxx.item
    return

1个回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python scrapy爬虫问题
初学爬虫,用Chrome浏览器如是xpath(“//span/a/@href”)可以得到想要的所有链接地址。 但是,测试爬虫时候,print response.xpath(“//span/a/@href”)是没有任何数据的,请问这个如何改呢,前段也刚刚在学。 帮帮忙大神们
python scrapy爬虫框架数据库数据量无法增加
python 3.6 ,scrapy爬虫框架,mysql数据库,workbench界面。 第一次运行捕获2w条数据,第二次运行的时候,确定可以获取目标网页新的数据,数据库也显示了新的数据库更新时间,但是数据总量却一直不变,新数据无法写入 请问有朋友遇到过这样的问题吗?
python3中async/await 爬虫与scrapy爬虫的疑惑
scrapy是python的异步爬虫框架,而async / await也是异步爬虫,这两者的效率上有什么区别吗?
python3 Scrapy报错问题
只要运行与Scrapy相关命令就报错 Error in sitecustomize; set PYTHONVERBOSE for traceback: AttributeError: module 'sys' has no attribute 'setdefaultencoding' 求助一下 怎么解决
请问scrapy爬虫使用代理的问题
我用scrapy爬虫来抓取数据,购买了一些代理,看scrapy文档上面介绍使用代理的话要编写Middleware,但是我不打算使用Middleware,我尝试了这样 ``` def start_requests(self): name = my_name password = password proxy = my proxy return[ FormRequest(url,formate={'account':my_name,'password':password}, meta={'proxy':proxy}, callback=self.after_login) ] def after_login(self, response): response.xpath ``` 但是返回了错误,请问各位老师如何不使用middleware然后可以使用代理?谢谢
scrapy如何循环抓取所有类似的页面
我是刚刚开始学习爬虫,模仿网上一个例子自己写了一个,想循环抓取所有页面新闻标题和链接,但是只能抓取到起始页面的。 这是抓取的起始页面 ![图片说明](https://img-ask.csdn.net/upload/201602/27/1456543523_760923.png) 从下面可以看到列表有很多,我想抓取所有的新闻条目,每一页的地址仅一个数字不同 ![图片说明](https://img-ask.csdn.net/upload/201602/27/1456543630_463064.png) spider文件夹下的关键代码如下所示 ``` # -*- coding:utf-8 -*- from scrapy.spiders import Spider from scrapy.selector import Selector from ahutNews.items import AhutnewsItem from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class AhutNewsSpider(Spider): name = 'ahutnews' allowed_domains="ahut.edu.cn" start_urls=['http://news.ahut.edu.cn/list.jsp?a7t=314&a7p=2&a7c=20&urltype=tree.TreeTempUrl&wbtreeid=1002'] rules=( Rule(LinkExtractor(allow=r"/list.jsp\?a7t=314&a7p=*"), callback="parse",follow=True), ) def parse(self, response): hxs = Selector(response) titles = hxs.xpath('//tr[@height="26"]') items = [] for data in titles: item = AhutnewsItem() title=data.xpath('td[1]/a/@title').extract() link=data.xpath('td[1]/a/@href').extract() item['title'] = [t.encode('utf-8') for t in title] item['link'] = "news.ahut.edu.cn" + [l.encode('utf-8') for l in link][0] items.append(item) return items ```
python scrapy框架中from_crawler的问题
from_crawler这个方法有什么作用,文档没翻译明白,我在一些例子中,几乎每个类里都有 @calssmethod 的from_crawler方法 和 from_settings方法,个人理解应该是一个初始化crawler的方法 ,我想知道他是在框架的哪里,什么时候调用的,不写这个方法而在__init__里初始化又有什么区别?初学新手被困扰了很久,看了几天就是没完全理解,,不弄明白感觉看其他地方就特别不顺,希望得到指教。
Python scrapy爬取网页解码问题
尝试爬取淘宝网页,在parse中解析response希望获得解码后的文本 使用response.text 会在log中记录有报错:有无法解码的信息 使用response.body.decode('utf-8','ignore')也会出现同样的问题 使用response.xpath('xxxxxx').extract()可以获取相关信息 但是希望使用正则表达式进行检索,希望大神帮助,如何能过跳过那些不规则的编码获取网页文本
scrapy爬虫内存占用过高
scrapy爬虫运行一段时间后内存占用就基本上满了,也通过scrapy提供的设置方式修改过,但是没有任何起色,求遇到同类问题的是怎么处理的?
python scrapy运行错误
scrapy安装路径为D:\Python soft,已经将D:\Python soft和D:\Python soft\Scripts加入到环境变量中了(win7,64位)。建立一个工程domz,进入到所建立的工程目录下再运行,即D:\Python soft\Scripts\tutorial,然后scrapy crawl domz,出现“scrapy 不是系统内部或外部命令,也不是可运行的程序或批处理文件“错误; 若在D:\Python soft\Scripts目录下运行scrapy crawl domz,结果出错:unknown command crawl。请问怎么解决?多谢
scrapy爬虫如何爬取表格 td 中带有“rowspan”标签的内容?
我使用的是Scrapy爬虫,目前需要爬取的网页格式内容如下: ![图片说明](https://img-ask.csdn.net/upload/201707/15/1500123572_591178.png) HTML代码如下: ![图片说明](https://img-ask.csdn.net/upload/201707/15/1500124547_3336.png) 除去标题外,一共是7行,即7个<tr>标签,但实际上显示的表格只有5行数据,因为有2个tr数据是一样的,如第二个“华南”中用到了"rowspan=2",那么第三个<tr></tr>就没写了。 现在我需要的形式是,我的item[ ]每一次循环tr的时候,都能获取到五个数据(也就是第一个tr中的五个td内容),我的Item如下: ![图片说明](https://img-ask.csdn.net/upload/201707/15/1500124634_618915.png) 那么请问在已知外循环tr数量的情况下,我该如何遍历获取?
cmd下执行scrapy爬虫程序,不报错也没有输出,求告知怎么回事
问题在这里,在开源中国写的,直接打开就行了。求告知怎么回事,万分感谢。 (https://www.oschina.net/question/3068158_2241004 "")
python-scrapy 爬虫运行不了
之前写的代码,爬过数据。<br>因为用的是mysql5.5,所以卸载后重新安装了mysql8.0.15。 不知道什么原因,现在运行出错,截图如下<br> ![图片说明](https://img-ask.csdn.net/upload/201904/22/1555943726_594710.jpg) <br> 什么问题?
scrapy爬虫相关 关于json数据的处理
![图片说明](https://img-ask.csdn.net/upload/201803/14/1521020614_838727.png)最近在做scrapy爬虫,发现有的网页好像需要爬json。我跟踪到了这个json文件,那么请问怎么爬取我需要的数据呢?xpath我理解了,但是json的数据不是很会啊。。 PS.简单来说就是怎么样把这些json的数据转化为xpath的地址啊?
scrapy能够实现先登录再抓取吗
想用python中的scrapy框架抓取网页,但是需要先登录才能显示抓取内容,登录即为一个post操作,但是scrapy中直接通过spider模块的start_url中的url在调度器中生成request,如果需添加post参数是在调试器里添加吗,另外在哪里可以打开并编辑调试器代码? 求用过scrapy的高手解答?_
scrapy运行时出现缺少parsel的错误。
在练习scrapy爬虫的过程中出现的问题,使用的是anaconda的虚拟环境,本以为根据提示将错误提示的parsel安装上就能解决,可还是提示同样的错误,求大佬解答。
使用python scrapy框架写爬虫如何爬取搜狐新闻的参与人数?
URL如下: http://quan.sohu.com/pinglun/cyqemw6s1/442631551 参与人数该如何爬取,找不到切入点,新手一头雾水…… 非常感谢!!
python scrapy 爬取的数据保存不了
# python scrapy 爬取的数据保存不了 上代码 spider代码: ``` from textsc.items import TextscItem from scrapy.selector import Selector from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class Baispider(CrawlSpider): name = "Baidu" allowed_domains = ["baidu.com"] start_urls = [ "https://zhidao.baidu.com/list" ] rules = ( Rule(LinkExtractor(allow=('/shop', ), deny=('fr', )), callback='parse_item'), ) def parse_item(self, response): sel= Selector(response) items=[] item=TextscItem() title=sel.xpath('//div[@class="shop-menu"]/ul/li/a/text()').extract() for i in title: items.append(i) item['TitleName'] = items print (item['TitleName']) return item ``` items.py代码 ``` import scrapy import json class TextscItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() TitleName = scrapy.Field() pass ``` scrapy的版本是1.4.0 运行没有报错 但是json文件里面什么都没有 求解答 谢过!..
flask+scrapy的爬虫问题
刚刚开始学习爬虫,现在已经可以通过scrapy crawl myscrapy的方式启动一个爬虫, 现在我想实现这样一个功能:用flask定义一个接口,别人调用这个接口的时候传递一个 url参数,拿到这个参数之后自动启动爬虫进行爬取数据,爬取到的数据以json数组的形式 返回给调用接口的人。想问下大家有什么实现思路吗?拜托了,感谢各位。
爬虫福利二 之 妹子图网MM批量下载
爬虫福利一:27报网MM批量下载    点击 看了本文,相信大家对爬虫一定会产生强烈的兴趣,激励自己去学习爬虫,在这里提前祝:大家学有所成! 目标网站:妹子图网 环境:Python3.x 相关第三方模块:requests、beautifulsoup4 Re:各位在测试时只需要将代码里的变量 path 指定为你当前系统要保存的路径,使用 python xxx.py 或IDE运行即可。
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、PDF搜索网站推荐 对于大部
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 顺便拉下票,我在参加csdn博客之星竞选,欢迎投票支持,每个QQ或者微信每天都可以投5票,扫二维码即可,http://m234140.nofollow.ax.
Vue + Spring Boot 项目实战(十四):用户认证方案与完善的访问拦截
本篇文章主要讲解 token、session 等用户认证方案的区别并分析常见误区,以及如何通过前后端的配合实现完善的访问拦截,为下一步权限控制的实现打下基础。
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入  假设现有4个人
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 欢迎 改进 留言。 演示地点跳到演示地点 html代码如下`&lt;!DOCTYPE html&gt; &lt;html&gt; &lt;head&gt; &lt;title&gt;music&lt;/title&gt; &lt;meta charset="utf-8"&gt
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。 1. for - else 什么?不是 if 和 else 才
数据库优化 - SQL优化
前面一篇文章从实例的角度进行数据库优化,通过配置一些参数让数据库性能达到最优。但是一些“不好”的SQL也会导致数据库查询变慢,影响业务流程。本文从SQL角度进行数据库优化,提升SQL运行效率。 判断问题SQL 判断SQL是否有问题时可以通过两个表象进行判断: 系统级别表象 CPU消耗严重 IO等待严重 页面响应时间过长
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 c/c++ 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7
通俗易懂地给女朋友讲:线程池的内部原理
餐厅的约会 餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”我楞了一下,心里想女朋友今天是怎么了,怎么突然问出这么专业的问题,但做为一个专业人士在女朋友面前也不能露怯啊,想了一下便说:“我先给你讲讲我前同事老王的故事吧!” 大龄程序员老王 老王是一个已经北漂十多年的程序员,岁数大了,加班加不动了,升迁也无望,于是拿着手里
经典算法(5)杨辉三角
写在前面: 我是 扬帆向海,这个昵称来源于我的名字以及女朋友的名字。我热爱技术、热爱开源、热爱编程。技术是开源的、知识是共享的。 这博客是对自己学习的一点点总结及记录,如果您对 Java、算法 感兴趣,可以关注我的动态,我们一起学习。 用知识改变命运,让我们的家人过上更好的生活。 目录一、杨辉三角的介绍二、杨辉三角的算法思想三、代码实现1.第一种写法2.第二种写法 一、杨辉三角的介绍 百度
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹
面试官:你连RESTful都不知道我怎么敢要你?
面试官:了解RESTful吗? 我:听说过。 面试官:那什么是RESTful? 我:就是用起来很规范,挺好的 面试官:是RESTful挺好的,还是自我感觉挺好的 我:都挺好的。 面试官:… 把门关上。 我:… 要干嘛?先关上再说。 面试官:我说出去把门关上。 我:what ?,夺门而去 文章目录01 前言02 RESTful的来源03 RESTful6大原则1. C-S架构2. 无状态3.统一的接
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看
SQL-小白最佳入门sql查询一
一 说明 如果是初学者,建议去网上寻找安装Mysql的文章安装,以及使用navicat连接数据库,以后的示例基本是使用mysql数据库管理系统; 二 准备前提 需要建立一张学生表,列分别是id,名称,年龄,学生信息;本示例中文章篇幅原因SQL注释略; 建表语句: CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // dosho
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,
程序员:我终于知道post和get的区别
IT界知名的程序员曾说:对于那些月薪三万以下,自称IT工程师的码农们,其实我们从来没有把他们归为我们IT工程师的队伍。他们虽然总是以IT工程师自居,但只是他们一厢情愿罢了。 此话一出,不知激起了多少(码农)程序员的愤怒,却又无可奈何,于是码农问程序员。 码农:你知道get和post请求到底有什么区别? 程序员:你看这篇就知道了。 码农:你月薪三万了? 程序员:嗯。 码农:你是怎么做到的? 程序员:
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
      11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1
程序员把地府后台管理系统做出来了,还有3.0版本!12月7号最新消息:已在开发中有github地址
第一幕:缘起 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员…… 996程序员做的梦: 第一场:团队招募 为了应对地府管理危机,阎王打算找“人”开发一套地府后台管理系统,于是就在地府总经办群中发了项目需求。 话说还是中国电信的信号好,地府都是满格,哈哈!!! 经常会有外行朋友问:看某网站做的不错,功能也简单,你帮忙做一下? 而这次,面对这样的需求,这个程序员
Android 9.0系统新特性,对刘海屏设备进行适配
其实Android 9.0系统已经是去年推出的“老”系统了,这个系统中新增了一个比较重要的特性,就是对刘海屏设备进行了支持。一直以来我也都有打算针对这个新特性好好地写一篇文章,但是为什么直到拖到了Android 10.0系统都发布了才开始写这篇文章呢?当然,一是因为我这段时间确实比较忙,今年几乎绝大部分的业余时间都放到写新书上了。但是最主要的原因并不是这个,而是因为刘海屏设备的适配存在一定的特殊性
网易云6亿用户音乐推荐算法
网易云音乐是音乐爱好者的集聚地,云音乐推荐系统致力于通过 AI 算法的落地,实现用户千人千面的个性化推荐,为用户带来不一样的听歌体验。 本次分享重点介绍 AI 算法在音乐推荐中的应用实践,以及在算法落地过程中遇到的挑战和解决方案。 将从如下两个部分展开: AI 算法在音乐推荐中的应用 音乐场景下的 AI 思考 从 2013 年 4 月正式上线至今,网易云音乐平台持续提供着:乐屏社区、UGC
【技巧总结】位运算装逼指南
位算法的效率有多快我就不说,不信你可以去用 10 亿个数据模拟一下,今天给大家讲一讲位运算的一些经典例子。不过,最重要的不是看懂了这些例子就好,而是要在以后多去运用位运算这些技巧,当然,采用位运算,也是可以装逼的,不信,你往下看。我会从最简单的讲起,一道比一道难度递增,不过居然是讲技巧,那么也不会太难,相信你分分钟看懂。 判断奇偶数 判断一个数是基于还是偶数,相信很多人都做过,一般的做法的代码如下
日均350000亿接入量,腾讯TubeMQ性能超过Kafka
整理 | 夕颜出品 | AI科技大本营(ID:rgznai100) 【导读】近日,腾讯开源动作不断,相继开源了分布式消息中间件TubeMQ,基于最主流的 OpenJDK8开发的
8年经验面试官详解 Java 面试秘诀
    作者 | 胡书敏 责编 | 刘静 出品 | CSDN(ID:CSDNnews) 本人目前在一家知名外企担任架构师,而且最近八年来,在多家外企和互联网公司担任Java技术面试官,前后累计面试了有两三百位候选人。在本文里,就将结合本人的面试经验,针对Java初学者、Java初级开发和Java开发,给出若干准备简历和准备面试的建议。   Java程序员准备和投递简历的实
面试官如何考察你的思维方式?
1.两种思维方式在求职面试中,经常会考察这种问题:北京有多少量特斯拉汽车? 某胡同口的煎饼摊一年能卖出多少个煎饼? 深圳有多少个产品经理? 一辆公交车里能装下多少个乒乓球? 一
相关热词 c#选择结构应用基本算法 c# 收到udp包后回包 c#oracle 头文件 c# 序列化对象 自定义 c# tcp 心跳 c# ice连接服务端 c# md5 解密 c# 文字导航控件 c#注册dll文件 c#安装.net
立即提问