python初学爬取网站的子网页获取标题

想要获取所有子网页的标题，但是为什么只有一小部分标题获取成功，而大部分都为空？？（url可以全部得到）
代码如下

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from tutorial.items import TutorialItem


class herbSpider(scrapy.Spider):

    name = 'herbalism'
    allowed_domins = ['pharmnet.com']
    start_urls = ['http://www.pharmnet.com.cn/tcm/knowledge/ycrs/']

    def parse(self, response):

        url_list = response.xpath('//td[@height="22"]/a[@target="_blank"]/@href').extract()
        for url in url_list:
            yield Request(url,callback=self.parse_name)

        for i in range(1,10):
            page_url = 'http://www.pharmnet.com.cn/tcm/knowledge/ycrs/index{}.html'.format(i)
            yield Request(page_url,callback=self.parse)

    def parse_name(self,response):
        items = TutorialItem()
        items['title'] = response.xpath('//font[@color="#300901"]/h1/text()').extract()

        items['link'] = response.url
        yield items

：
运行结果：

求教，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2017-08-02 16:48
关注
下断电，调试下response返回的网页是什么，和你的正则是否匹配

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
初学python爬虫，爬取不到网页的阅读数是怎么回事？求大神解答 python
2021-03-07 11:27

回答 3 已采纳数据是js动态渲染的，scrapy需结合splash使用，用selenium速度虽慢点，但是对js加载数据的获取准确性较高。 driver.implicitly_wait(5) #page=dri
python爬虫初学者，网页手动打开过才显示数据，爬虫访问没打开过的网页，爬不到数据怎么办？ python 有问必答爬虫
2022-01-21 09:58

回答 2 已采纳将请求头的参数都设置进去，然后在独立设置cookie参数
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一...答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，这门语言入门挺简单的，特别是对于那些有其他编程语言经验的人。
求助：python爬取12306车票信息总是出现错误 python
2020-02-01 11:55

回答 3 已采纳抓包看下，返回的数据不是标准的json，可能是返回了错误提示信息，如果那样，先看下提示了什么。12306经常升级，你直接拷贝以前别人写的代码肯定不行，建议你抓包以后根据浏览器的提交，自己写，最好用 w
想用python 爬取一个网页上面的图片，初学者不太知道如何入手。 python
2019-02-26 16:36

回答 1 已采纳 import requests r = requests.get('图片url') with open('1.jpg','wb') as fp: fp.write(r.content
关于Python 网络数据爬虫爬取不到数据 python
2020-06-01 15:18

回答 1 已采纳抓包看看，尤其注意url上的参数、cookie、postdata、method(get/post)、referer、useragent和content-type
初学者-Python 网页爬取小说
2022-06-27 15:22

小顾同学丶的博客找到想看的小说的网站地址→爬取小说所有章节的网站地址→爬取每章小说的标题和内容→把内容保存到TXT文件确定小说的网站地址。python...
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
python爬取网页信息（主要为期刊影响因子、官网等），已有ISSN进行检索，但爬取过程找不到class该怎么办？ python 爬虫
2023-03-28 10:02

回答 5 已采纳你需要现在网页html中看下那些指标因子的html结构是什么，才知道怎么提取。你的数据是在一个表格中，你可以先定位到表格的html，然后通过前后html标签来定位到你要解析的数据。代码如下，已成功提取
Python爬取网页数据
2018-08-29 17:20

你缺少想象力的博客都说python爬网页数据方便，我们今天就来试试，python爬取数据到底有多方便简介爬取数据，基本都是通过网页的URL得到这个网页的源代码，根据源代码筛选出需要的信息准备 IDE：pyCharm 库：requests、...
用python语言分析一个CSV文件中，多个系列类型随日期变化，每个日期内，不同类型出现的频次 python
2022-04-16 13:18

回答 1 已采纳用pandas读取文件后，循环一下，把Module-A、Moudle-G 、Module-G2的数据分成三个表对每一个表df_a['MPA_area'].groupby(df_a['Creat tim
简单的python爬虫爬取图片【注意身体】.zip
2024-01-01 23:44

这个分享包涵了我开发的Python爬虫工具项目，主要用于合法爬取某些网页信息。以下是主要内容：源代码：包括Python代码和相关脚本。这些代码展示了如何使用Python进行网页抓取、解析和数据提取。项目文件：除了...
Python爬取新冠肺炎实时数据及其可视化分析
2020-12-22 05:28

点赞、关注再看，养成良好习惯 Life is short, U need Python 初学Python，快来点我吧案例：Python爬取新冠肺炎实时数据及其可视化分析作者：PyQuant ...案例中通过Python第三方库request获取网站实
没有解决我的问题, 去提问

悬赏问题

¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考
¥15 名为“Product”的列已属于此 DataTable
¥15 安卓adb backup备份应用数据失败

python初学 爬取网站的子网页获取标题

1条回答 默认 最新

悬赏问题

python初学爬取网站的子网页获取标题

1条回答默认最新