weixin_43383962 2023-02-17 09:21 采纳率: 100%
浏览 32
已结题

python爬虫一个小问题

下载出现问题,应该是name|+"zip"这里
可是不知道怎么办啊


```python
import wget
import requests   # 数据请求模块注意版本
import parsel  # 数据解析模块
# noinspection PyUnresolvedReferences
import csv

import csv
from lxml import etree
import csv
import time
from requests import Response






for page in range(2,3):
    print(f'正在采集第{page}页的内容')#提示行
    time.sleep(2)#间隔时间


        # 第一步网址
    url = f'http://www.zhongkao.com/zyk/czlxt/ceyw/index_{page}.shtml'#http://www.zhongkao.com/zyk/czlxt/ceyw/
                    # 第二步伪装
    headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
        }#易出昌号前后加引号,不要有空格
    response = requests.get(url=url,headers=headers)
    response.encoding = 'utf-8'
    #print(response)
    selector = parsel.Selector(response.text)#类型转换注意大写转换为selector对象
    #print(selector)
    lis = selector.css('.text_list1 li')
    #print(lis)
    for li in lis:
        wangzhi = li.css('.title a::attr(href)').get()
        response = requests.get(url=wangzhi, headers=headers)
        response.encoding = 'gb2312'
        selector = parsel.Selector(response.text)  # 类型转换注意大写转换为selector对象
        #print(selector)
        pic = selector.css('td a:nth-child(2)::attr(href)').get()
        name = selector.css(' td span::text').get()
        n= name +".zip"
        wget.download(pic, out=n)

```

  • 写回答

5条回答 默认 最新

  • 小小小小人水豚 2023-02-17 09:36
    关注

    你的原代码拷贝过来执行的话,name返回的是None,也就是说你的选择器没有找到你期望的内容,调试代码修改如下:

    img

    注意看打印输出的内容:

    img


    所以检查下css选择器的代码是否正确吧

    有帮助的话,请点采纳~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 2月25日
  • 已采纳回答 2月17日
  • 创建了问题 2月17日

悬赏问题

  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?
  • ¥15 求daily translation(DT)偏差订正方法的代码
  • ¥15 js调用html页面需要隐藏某个按钮
  • ¥15 ads仿真结果在圆图上是怎么读数的
  • ¥20 Cotex M3的调试和程序执行方式是什么样的?
  • ¥20 java项目连接sqlserver时报ssl相关错误
  • ¥15 一道python难题3
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler