关于python爬虫问题，我想我走错思路了。

这是我代码

 import scrapy
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors import LinkExtractor
class Myspider(CrawlSpider):
    name="baidu"
    allowed_domains=['yuedu.baidu.com']
    start_urls=['http://yuedu.baidu.com']

    rules=(Rule(LinkExtractor(allow=('http://yuedu.baidu.com/book/list/15002',)),callback=('parse')),)
    def parse(self,response):
        self.log=('hi this is an item page! ~~~~~~~~~~~~~~~~~%s'% response.url)
        print self.log
        item=[]
        item=response.xpath('//span[@class="title"]/text()').extract()
        print item

然后运行scrapy crawl baidu
图片说明

看见了没hi this is an item page 下面是【】空的搞了2小时了怎么办啊按照scrapy官方文档来的不知道怎么错了希望大神们解答！！！感激！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
勿语星空丶 2015-04-25 08:39
关注
为什么抓取class="title"里面的文字抓去不了？？？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客大家好，我是辣条。上次整理的爬虫教程反响不错，但是还是有小伙伴表示不够细致，今天带了升级版，全文很长，建议先收藏下来。一、爬虫基础爬虫概述知识点：了解爬虫的概念了解爬虫的作用 ...
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
selenium用法详解【从入门到实战】【Python爬虫】【4万字】
2021-10-09 14:17

Dream丶Killer的博客在爬虫领域 selenium 同样是一把利器，能够解决大部分的网页的反爬问题。下面就进入正式的 study 阶段。 selenium安装打开 cmd，输入下面命令进行安装。 pip install -i https://pypi.douban.com/simple selenium ...
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
关于python 爬虫的报错 python
2023-01-26 10:04

回答 1 已采纳是不是被反爬，你可以把articles输出看看有没有值就知道了。看样子有可能是你从articles中取值那里有问题。articles.data.items
python爬虫
2023-01-16 17:23

shdwak....sad的博客删除了部分内容，不包含web逆向，毕竟用的不是很多，包含一些基本的爬虫以及我注意到的一些东西，权当查表吧
关于Python爬虫爬百度文库的url python 爬虫
2021-08-09 16:26

回答 1 已采纳可以在浏览器开发者工具里面ctrl+f搜索文章的关键词找到该请求。
python爬虫某招聘数据进行可视化
2022-10-11 02:06

小羊只会print的博客继续 2、数据清洗进行可视化 3、成品展示俩天没见，大家的爬虫能力如何了？不知道大家的能力如何，反正我的代码结果依旧很乱，这次我爬的是某聘wang，数据分析的前10页岗位内容，多的不说少的不唠，上代码！！！ ...
python 爬虫（项目实操）
2022-01-10 21:55

阳光少年.的博客练习 - 豆瓣电影爬虫解密吴氏私厨，意思就是到吴枫的厨房去看一看，看一看有没有什么好吃的。希望你会喜欢这一关。惯例，我们要进入全屏操作（win：F11；苹果电脑：control+command+F）；惯例，我们要做一个...
没有解决我的问题, 去提问

悬赏问题

¥15 用windows做服务的同志有吗
¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图

关于python爬虫问题，我想我走错思路了。

4条回答 默认 最新

悬赏问题

4条回答默认最新