扫把新星 2017-01-04 05:59 采纳率: 0%
浏览 3470

scrapy response解析不全打印结果缺失

# -*- coding: utf-8 -*-
import scrapy

from scrapy.conf import settings


class ContentSpider(scrapy.Spider):
    name = "content"
    allowed_domains = ["pkulaw.cn"]
    start_urls = (
        'http://www.pkulaw.cn/',
    )
    headers = settings.get('HEADERS')
    surl = 'http://www.pkulaw.cn/fulltext_form.aspx?Db=chl&Gid=58178&keyword=&EncodingName=&Search_Mode=accurate'
    def parse(self, response):
        yield scrapy.Request(url=self.surl,
                             headers=self.headers,
                             callback=self.parse_con
                                        )


    def parse_con(self, response):
        content = ''.join(response.xpath('.//*[@id="div_content"]').extract())
        self.logger.info("--content--:%s" % content) 

图片说明

人才市场管理规定

(2001年9月11日人事部、国家工商行政管理总局令第1号发布 2005年3月22日根据《人事部、国家工商行政管理总局关于修改<人才市场管理规定>的决定》修正 2005年3月22日人事部、国家工商行政管理总局令第4号发布)

打印结果”<人才管理规定>“不存在,有什么解决办法吗

  • 写回答

1条回答

  • oyljerry 2017-01-04 11:44
    关注

    这个需要看看这个字符串是不是异步JavaScript插入的。直接的response中没有包含。

    评论

报告相同问题?

悬赏问题

  • ¥15 django项目运行报编码错误
  • ¥15 请问这个是什么意思?
  • ¥15 STM32驱动继电器
  • ¥15 Windows server update services
  • ¥15 关于#c语言#的问题:我现在在做一个墨水屏设计,2.9英寸的小屏怎么换4.2英寸大屏
  • ¥15 模糊pid与pid仿真结果几乎一样
  • ¥15 java的GUI的运用
  • ¥15 我想付费需要AKM公司DSP开发资料及相关开发。
  • ¥15 怎么配置广告联盟瀑布流
  • ¥15 Rstudio 保存代码闪退