ld136189 2017-08-02 10:57 采纳率: 0%
浏览 3760

python初学 爬取网站的子网页获取标题

想要获取所有子网页的标题,但是为什么只有一小部分标题获取成功,而大部分都为空??(url可以全部得到)
代码如下

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from tutorial.items import TutorialItem


class herbSpider(scrapy.Spider):

    name = 'herbalism'
    allowed_domins = ['pharmnet.com']
    start_urls = ['http://www.pharmnet.com.cn/tcm/knowledge/ycrs/']

    def parse(self, response):

        url_list = response.xpath('//td[@height="22"]/a[@target="_blank"]/@href').extract()
        for url in url_list:
            yield Request(url,callback=self.parse_name)

        for i in range(1,10):
            page_url = 'http://www.pharmnet.com.cn/tcm/knowledge/ycrs/index{}.html'.format(i)
            yield Request(page_url,callback=self.parse)

    def parse_name(self,response):
        items = TutorialItem()
        items['title'] = response.xpath('//font[@color="#300901"]/h1/text()').extract()

        items['link'] = response.url
        yield items


运行结果:

图片说明
求教,谢谢!

  • 写回答

1条回答 默认 最新

  • threenewbee 2017-08-02 16:48
    关注

    下断电,调试下response返回的网页是什么,和你的正则是否匹配

    评论

报告相同问题?

悬赏问题

  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?
  • ¥100 求三轴之间相互配合画圆以及直线的算法
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败