python初学 爬取网站的子网页获取标题

想要获取所有子网页的标题,但是为什么只有一小部分标题获取成功,而大部分都为空??(url可以全部得到)
代码如下

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from tutorial.items import TutorialItem


class herbSpider(scrapy.Spider):

    name = 'herbalism'
    allowed_domins = ['pharmnet.com']
    start_urls = ['http://www.pharmnet.com.cn/tcm/knowledge/ycrs/']

    def parse(self, response):

        url_list = response.xpath('//td[@height="22"]/a[@target="_blank"]/@href').extract()
        for url in url_list:
            yield Request(url,callback=self.parse_name)

        for i in range(1,10):
            page_url = 'http://www.pharmnet.com.cn/tcm/knowledge/ycrs/index{}.html'.format(i)
            yield Request(page_url,callback=self.parse)

    def parse_name(self,response):
        items = TutorialItem()
        items['title'] = response.xpath('//font[@color="#300901"]/h1/text()').extract()

        items['link'] = response.url
        yield items


运行结果:

图片说明
求教,谢谢!

1个回答

下断电,调试下response返回的网页是什么,和你的正则是否匹配

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐