2 u011928912 u011928912 于 2017.01.04 13:59 提问

scrapy response解析不全打印结果缺失
# -*- coding: utf-8 -*-
import scrapy

from scrapy.conf import settings


class ContentSpider(scrapy.Spider):
    name = "content"
    allowed_domains = ["pkulaw.cn"]
    start_urls = (
        'http://www.pkulaw.cn/',
    )
    headers = settings.get('HEADERS')
    surl = 'http://www.pkulaw.cn/fulltext_form.aspx?Db=chl&Gid=58178&keyword=&EncodingName=&Search_Mode=accurate'
    def parse(self, response):
        yield scrapy.Request(url=self.surl,
                             headers=self.headers,
                             callback=self.parse_con
                                        )


    def parse_con(self, response):
        content = ''.join(response.xpath('.//*[@id="div_content"]').extract())
        self.logger.info("--content--:%s" % content) 

图片说明

人才市场管理规定

(2001年9月11日人事部、国家工商行政管理总局令第1号发布 2005年3月22日根据《人事部、国家工商行政管理总局关于修改<人才市场管理规定>的决定》修正 2005年3月22日人事部、国家工商行政管理总局令第4号发布)

打印结果”<人才管理规定>“不存在,有什么解决办法吗

1个回答

oyljerry
oyljerry   Ds   Rxr 2017.01.04 19:44

这个需要看看这个字符串是不是异步JavaScript插入的。直接的response中没有包含。

u011928912
u011928912 我打印了response.body有是解析出错了,我换用css选择器也不行,有什么其他办法吗
一年多之前 回复
u011928912
u011928912 我打印了response.body有是解析出错了
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
scrapy学习笔记--解析结果存储
在上一篇中已经得到了想要的mame,但是并没有将获取的结果保存,仅仅是打印出来了而已。 那么现在我们将使用到最初定义的Item对象。 Item对象是一个自定义的字典。所以操作Item与正常操作一个字典是一样的。 字典里面的字段就是之前定义的属性,本文中就是name属性。 # -*- coding: utf-8 -*- from _elementtree import parse impor
scrapy抓取中文输出乱码解决方案
3 changed files imax/pipelines.pyimax/settings.pyimax/spiders/imax_spider.py imax/pipelines.py ... ... @@ -3,6 +3,15 @@ 3 3 # Don't forget to add your pipelin
Scrapy-Request和Response(请求和响应)
请求和响应 Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。 上面一段话比较拗口,有web经验的同学,应该都了解的,不明白看下面的图大概理解下。 爬虫->Request:创建 Request->Resp
Scrapy:抓取返回数据格式为JSON的网站内容
http://stackoverflow.com/questions/18171835/scraping-a-json-response-with-scrapy
如何使scrapy爬取信息不打印在命令窗口中
通常,我们使用这条命令运行自己的scrapy爬虫:scrapy crawl spider_name         但是,由这条命令启动的爬虫,会将所有爬虫运行中的debug信息及抓取到的信息打印在运行窗口中。很乱,也不方便查询。所以,可使用该命令代替: scrpay crawl spider_name -s LOG_FILE=all.log 就会将原本打印在窗口的所有信息保存在all
scrapy学习笔记——HTML页面解析
一、Scrapy Selectors简介 scrapy提供了本身提供了一种基于XPath和CSS 表达式的选择器,叫做Scrapy Selectors。 XPath是一种类似于层级选择的方式,与JQuery选择器有几分相似之处。 /html/head/title :选择head标签内的title标签 /html/head/title/text():选择title的文字 //td:选择
Scrapy FormResponse对象
FormRequest对象 FormRequest对象继承于 父类 Request ,功能是处理html Form表单。它使用  lxml.html forms 从respose类来安装表单部分。
scrapy中解决中文乱码问题
场景一:输出到文件中spiders/test.pydef parse(self, response): response.css('title::text').extract()[0] # 重要1import json import codecsclass TestPipeline(object): def open_spider(self, spider): self
scrapy-response.xpath中无法获取标签内容的问题
春天到了,又是交配、咳咳找工作的季节,各种招聘网站也开始活跃起来,为了服务身边的程序员朋友,于是用scrapy写了一个简单的招聘网站的爬取程序,用来自动获取更新招聘信息。 scrapy使用熟练了,用起来还是挺简单,利索的创建项目,编写spider文件,大体框架搭好,打开拉勾(https://www.lagou.com/zhaopin/Android/),然后分析网页结构,使用 chrom
scrapy crawl xxx 利用scrapy.shell.inspect_response 输出爬虫运行信息
在scrapy框架中利用inspect_response在cmd上进入shell import scrapy from scrapy.shell import inspect_response class MySpider(scrapy.Spider): name = "example" start_urls = [ "http://example.org"