scrapy response解析不全打印结果缺失

# -*- coding: utf-8 -*-
import scrapy

from scrapy.conf import settings


class ContentSpider(scrapy.Spider):
    name = "content"
    allowed_domains = ["pkulaw.cn"]
    start_urls = (
        'http://www.pkulaw.cn/',
    )
    headers = settings.get('HEADERS')
    surl = 'http://www.pkulaw.cn/fulltext_form.aspx?Db=chl&Gid=58178&keyword=&EncodingName=&Search_Mode=accurate'
    def parse(self, response):
        yield scrapy.Request(url=self.surl,
                             headers=self.headers,
                             callback=self.parse_con
                                        )


    def parse_con(self, response):
        content = ''.join(response.xpath('.//*[@id="div_content"]').extract())
        self.logger.info("--content--:%s" % content)

人才市场管理规定

（2001年9月11日人事部、国家工商行政管理总局令第1号发布　2005年3月22日根据《人事部、国家工商行政管理总局关于修改<人才市场管理规定>的决定》修正　2005年3月22日人事部、国家工商行政管理总局令第4号发布）

打印结果”<人才管理规定>“不存在，有什么解决办法吗

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2017-01-04 11:44
关注
这个需要看看这个字符串是不是异步JavaScript插入的。直接的response中没有包含。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy怎么没打印数据？ python
2021-07-21 12:31

回答 3 已采纳 allowed_domains = ["jobui.com"] 好像是不要WWW 或者这个直接不写 allowed_domains = ["jobui.com"]
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 19:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
Scrapy: 为什么xpath和css明明是对的，但却爬不到任何内容？
2018-02-13 09:46

la_vie_est_belle的博客解决办法很简单，改变自己的一个观念就好：Scrapy爬虫看到的页面结构与我们自己在浏览器看到的可能并不一样。所以scrapy shell这种工具就非常有用了，Scrapy官方文档对它的说明是： The...
为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 11:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
python爬虫-scrapy
2023-03-04 16:41

哈都婆的博客 scrapy这个框架到底有多牛b首先当然你得需要有啊。
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
关于Scrapy 框架运行不出结果的问题，好像没有报错 python 正则表达式
2020-05-09 18:12

回答 3 已采纳如图：如果你完整的看完scrapy的日志（第一张图），根本原因：你设置了robotstxt服从为真，直接原因：目标网站的robot限制了你的访问
scrapy项目中找不到xpath属性爬虫
2023-03-13 19:43

回答 2 已采纳节点是none吧，你看你解析的节点，存不存在？不存在他也会报这个错误
爬虫——Scrapy框架 (初步学习+简单案例)
2023-06-09 18:56

枫丶桦的博客定义了爬取结果的数据结构，爬取的结果会被赋值成Item对象，每个Item都是一个类，类里面定义了爬取结果的数据字段，可以理解为用来规定数据的存储格式。5. Downloader（下载器）：负责下载Engine发送的所有请求，将...
scrapy 中xpath路径获取不到内容 chrome python 前端有问必答
2022-09-05 12:07

回答 2 已采纳 a标签不仅仅含有文本，那么没有其它节点可以定位了吗
Python爬虫基础：scrapy框架简介及第一个scrapy爬虫
2022-09-21 15:10

TT图图的博客解析数据 import scrapy def parse(se1f，response) : quotes = response.css('.quote ') for quote in quotes: text = quote.css( '.text: :text ' ).extract_first() auth = quote.css( '.author : :text ' )....
scrapy框架实战
2022-05-14 21:09

i新木优子的博客什么是全站数据crawling呢，顾名思义就是将一个网站的全部数据都crawling下来，这里我采用scrapy框架，这里我提供了很多方式，可以挑选自己喜欢的玩一玩接下来有请我们的幸运儿：不能说的网站名，我怕不过审 0️...
没有解决我的问题, 去提问

悬赏问题

¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用
¥15 我想付费需要AKM公司DSP开发资料及相关开发。
¥15 怎么配置广告联盟瀑布流
¥15 Rstudio 保存代码闪退