python获取直面内指定内容并下载

根据指定网页页面爬取内容

遇到的现象和发生背景，请写出第一个错误信息

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

运行结果及详细报错内容

我的解答思路和尝试过的方法，不写自己思路的，回答率下降 60%

我想要达到的结果，如果你需要快速回答，请尝试 “付费悬赏”

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

素影·流年 2023-01-13 20:53

关注

参考一下，望采纳

import requests
import re
import os
import wget
import threading
import time
import random

Lock = threading.Lock()

post_dict = {
    'catalogue_id': '',
    'name':'',
    'comments':'',
    'var_nonvariable': 'on',
    'var_variable':'on',
    'var_periodic':'on',
    'var_pmin':'',
    'var_pmax':'',
    'action':'search',
    'type_0':'on',
    'type_1':'on',
    'type_2':'on',
    'type_3':'on',
    'type_4':'on',
    'type_5':'on',
    'type_6':'on',
    'type_7':'on',
    'orb_incl_min':'',
    'orb_incl_max':'',
    'orb_period_min':'',
    'orb_period_max':''
    }
header = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Cookie':'csrftoken=9jhoS62afWsXqv1DisuneTFkmWySczcN',
    'Host':'mmt.favor2.info',
    'Referer': 'http://mmt.favor2.info/satellites',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.76'
    }
def SetDict(id):
    global post_dict
    post_dict['catalogue_id'] = str(id)

def Download(url,savedir):
    print('%s 正在下载 将保存至 %s\n' % (url.strip(),savedir),end = '')
    wget.download(url,out = savedir)
    print('%s 已下载完毕 已保存至 %s\n' % (url.strip(),savedir),end = '')

def checkStatus(track_id):
    print('正在检查: %s\n' % (track_id),end = '')
    headers= {
        "User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; Tablet PC 2.0; wbx 1.0.0; wbxapp 1.0.0; Zoom 3.6.0)"
    }
    response = requests.get('http://mmt.favor2.info/satellites/track/%s' % (str(track_id)),headers = headers)
    text = response.text.encode(response.encoding).decode(response.apparent_encoding)
    tag = "<span class=\"text-default\">Periodic</span></td></tr><tr><td>Lightcurve period"
    if tag in text:
        global Lock
        global download
        print('%s 已通过检查\n' % (track_id),end = '')
        Lock.acquire()
        download.append(track_id)
        Lock.release()
    else:
        print('%s 未通过检查\n' % (track_id),end = '')

def LoadPage(url,savedir):
    headers= {
        "User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; Tablet PC 2.0; wbx 1.0.0; wbxapp 1.0.0; Zoom 3.6.0)"
    }
    response = requests.get(url,headers = headers)
    text = response.text.encode(response.encoding).decode(response.apparent_encoding)
    result = re.findall('<a href=\"/satellites/track/(.*)/download\" title=\"Downoad track\">T</a>',text)
    print('%s 中的下载地址已获取未筛选id(共%d项)' % (url,len(result)))
    threads = []
    global download
    download = []
    for sid in result:
        time.sleep(random.randint(1,10) / 10)
        thd = threading.Thread(target = checkStatus,args = (sid,))
        thd.start()
        threads.append(thd)
    while len(threads) != 0:
        threads[0].join()
        threads.pop(0)
    print('%s 中的下载地址已获取以筛选的id(共%d项)' % (url,len(download)))
    for sid in download:
        time.sleep(random.randint(1,10) / 10)
        thd = threading.Thread(target = Download,args = ('http://mmt.favor2.info/satellites/track/%s/download\n' % (sid),os.path.join(savedir,'track_%s.txt' % (sid)),))
        thd.start()
        threads.append(thd)
    while len(threads) != 0:
        threads[0].join()
        threads.pop(0)

def LoadDownSatelites(id,savedir):
    SetDict(id)
    global post_dict
    response = requests.post("http://mmt.favor2.info/satellites",post_dict)
##    with open("test.html","w") as f:
##        f.write(response.text)
##    with open("test.html","r") as f:
##        text = f.read()
    text = response.text.encode(response.encoding).decode(response.apparent_encoding)

    sid = re.findall('<a href=\"/accounts/login/\?next=/satellites/(.*)\">Log in</a></li>',text)[0]
    page = len(re.findall('/satellites/%s\?page=.' % (sid),text)) + 1
    
    print('查找到%d对应的编号%s,共%d页准备下载' % (id,sid,page))

    if not os.path.exists(os.path.join(savedir,str(id))):
        print('%s不存在,程序已自动创建' % (os.path.join(savedir,str(id))))
        os.makedirs(os.path.join(savedir,str(id)))
    
    for pg in range(1,page + 1):
        LoadPage('http://mmt.favor2.info/satellites/%s?page=%d' % (sid,pg),os.path.join(savedir,str(id)))

LoadDownSatelites(163,'./Data')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

Python机器学习：从入门到精通
2025-07-18 17:01

莲华君的博客本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂...
Python开发：从入门到精通
2025-07-16 08:45

莲华君的博客用 Python 以“道”驭“术”，将编程思想与实践应用相结合，引导读者不仅掌握Python语言，更能建立科学的编程世界观，最终达到知行合一的境界。
Python - 100天从新手到大师 - Day5
2025-07-22 17:00

Penry.asia的博客摘要：本文介绍了面向对象编程(OOP)的基本概念。OOP是一种将数据和操作封装为对象的编程范式，通过类定义对象的共同特征，对象是...Python中使用class关键字定义类，通过构造器语法创建对象，并调用对象方法实现功能。
Python深度学习：从入门到精通
2025-07-21 15:39

莲华君的博客深度学习（DL）是最内层的核心，它是机器学习技术中的一个极其强大且成果斐然的分支，它以深层神经网络为主要工具，实现了高效的层次化特征学习。现在，您可以自信地向他人解释：深度学习是实现机器学习的一种...
Python|装饰器|执行时间|递归|动态属性|静态方法和类|继承和多态|isinstance类型判断|溢出|“魔法”方法|语言基础50课：学习记录（6）-函数的高级应用、面向对象编程、进阶及应用
2023-03-28 12:17

打酱油的工程师的博客 Python|装饰器|执行时间|递归|类和对象|动态属性|静态方法和类|继承和多态|isinstance|溢出|“魔法”方法|语言基础50课：学习记录（6）-函数的高级应用、面向对象编程、进阶及应用
Python基础篇：面向对象怎样炼成的_定义一个类描述数字时钟python
2024-04-27 12:10

2401_84140707的博客在Python中，可以使用class关键字加上类名来定义类，通过缩进我们可以确定类的代码块，就如同定义函数那样。在类的代码块中，我们需要写一些函数，我们说过类是一个抽象概念，那么这些函数就是我们对一类对象共同的...
Python开发FastAPI从入门到精通
2025-01-24 10:31

莲华君的博客想用Python写API快到飞起？FastAPI就是你的“代码瑞士军刀”！这本书不讲玄学，只教真功夫——从零搭建高性能API，到微服务、分布式事务、熔断限流，连异步编程都能玩成魔法！小白也能变大神：路由、依赖注入、...
面试必备：一文理解 Java 内存模型
2021-12-04 19:23

过往记忆的博客面向实现者，JSR133限制了编译器和处理器的优化，如下图4: 图4 JSR133整体视图 3、JSR133的主要内容是什么 JSR133主要描述了JMM的主要的规则和限制，并详细阐述了一些同步原语的内存语义，详细的请查看下一章节，JSR...
python日常实用技能：使用python将大量数据导出到Excel中的
2020-05-27 21:59

程序员大成的博客（1）问题描述：为了更好地展示数据，Excel格式的数据文件往往比文本文件更具有优势，但是具体到python中，该如何导出数据到Excel呢？如果碰到需要导出大量数据又该如何操作呢？本文主要解决以上两个问题。（2）...
Python机器学习：从零基础到项目实战
2025-12-08 12:27

莲华君的博客本书将带您，以Python为舟，泛游于算法之海。我们不只传授“术”，更探求其后的“道”——从数据的生灭流转中观照规律，于模型的迭代演进里体悟得失。愿您合上书卷时，收获的不仅是驾驭数据的技能，更有一双洞悉复杂...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月13日

python获取直面内指定内容并下载

根据指定网页页面爬取内容

遇到的现象和发生背景，请写出第一个错误信息

用代码块功能插入代码，请勿粘贴截图。 不用代码块回答率下降 50%

运行结果及详细报错内容

我的解答思路和尝试过的方法，不写自己思路的，回答率下降 60%

我想要达到的结果，如果你需要快速回答，请尝试 “付费悬赏”

2条回答 默认 最新

问题事件

用代码块功能插入代码，请勿粘贴截图。不用代码块回答率下降 50%

2条回答默认最新