扫把新星 2017-01-04 05:59 采纳率: 0%
浏览 3470

scrapy response解析不全打印结果缺失

# -*- coding: utf-8 -*-
import scrapy

from scrapy.conf import settings


class ContentSpider(scrapy.Spider):
    name = "content"
    allowed_domains = ["pkulaw.cn"]
    start_urls = (
        'http://www.pkulaw.cn/',
    )
    headers = settings.get('HEADERS')
    surl = 'http://www.pkulaw.cn/fulltext_form.aspx?Db=chl&Gid=58178&keyword=&EncodingName=&Search_Mode=accurate'
    def parse(self, response):
        yield scrapy.Request(url=self.surl,
                             headers=self.headers,
                             callback=self.parse_con
                                        )


    def parse_con(self, response):
        content = ''.join(response.xpath('.//*[@id="div_content"]').extract())
        self.logger.info("--content--:%s" % content) 

图片说明

人才市场管理规定

(2001年9月11日人事部、国家工商行政管理总局令第1号发布 2005年3月22日根据《人事部、国家工商行政管理总局关于修改<人才市场管理规定>的决定》修正 2005年3月22日人事部、国家工商行政管理总局令第4号发布)

打印结果”<人才管理规定>“不存在,有什么解决办法吗

  • 写回答

1条回答

  • oyljerry 2017-01-04 11:44
    关注

    这个需要看看这个字符串是不是异步JavaScript插入的。直接的response中没有包含。

    评论

报告相同问题?

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料