python爬数据代码

本人想在指定网站页面使用python脚本爬数据，网站http://mmt.favor2.info/satellites/1383(网站可手动更换，但是页面是一样的格式)，爬取内容为网站页面表哥内最后的T。

页面内所有红色标记都需要爬下来。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

素影·流年 2023-01-08 21:44

关注

我看看，稍等参数可以自己替换
望采纳

import requests
import re
import wget
import os
import threading

headers= {
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; Tablet PC 2.0; wbx 1.0.0; wbxapp 1.0.0; Zoom 3.6.0)"
}


def Download(url,savedir):
    print('%s 正在下载 将保存至 %s\n' % (url.strip(),savedir),end = '')
    wget.download(url,out = savedir)
    print('%s 已下载完毕 已保存至 %s\n' % (url.strip(),savedir),end = '')
    
def LoadPage(url,savedir):
    global headers
    response = requests.get(url,headers = headers)
    text = response.text.encode(response.encoding).decode(response.apparent_encoding)
    result = re.findall('<a href=\"/satellites/track/(.*)/download\" title=\"Downoad track\">T</a>',text)
    print('%s 中的下载地址已获取(共%d项)' % (url,len(result)))
    threads = []
    for sid in result:
        thd = threading.Thread(target = Download,args = ('http://mmt.favor2.info/satellites/track/%s/download\n' % (sid),os.path.join(savedir,'track_%s.txt' % (sid)),))
        thd.start()
        threads.append(thd)
    while len(threads) != 0:
        threads[0].join()
        threads.pop(0)
        

LoadPage('http://mmt.favor2.info/satellites/1383?page=3','./Data')

时间原因，只下载了三个，效果如上

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(7条)

报告相同问题？

关注问题

两列时间序列数据怎么用apriori算法做关联分析呢？(语言-python) python 数据分析算法
2022-06-01 14:01

回答 3 已采纳原始数据—>滑动窗口L=10截取原始数据得到N个子序列—>线性拟合—>标准化斜率—>子序列符号化处理—>Apriori算法我觉得这个说的挺清楚的啊，关联算法本身解决的是各
python自动化办公 python 大数据数据分析
2023-03-07 12:16

回答 3 已采纳该回答引用ChatGPT 请测试这个代码会对 input_folder_path 目录下的所有文件夹进行处理，并将处理后的数据分别保存到 output_folder_path 目录下以对应文件夹名
白葡萄酒品质分析处理，求最后思考题的代码怎么写(语言-python) python 有问必答
2022-03-17 12:12

回答 2 已采纳通过遍历来统计，代码可这样写： means=[x[-1] for x in mean_list] for (k,v),m in zip(content_dict.items(),means):
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客很多同学一听到 Python 或编程语言，可能条件反射就会觉得“很难”。但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要...
如何使用Python将0.25度乘0.25度的气象数据统一为0.5度乘0.5度的气象数据？ python
2021-03-23 13:16

回答 5 已采纳 for i in range(361): t2m = np.delete(t2m, num, axis=0) num = num + 1 第18行之后加个循环处理掉纬度
这是霍兰德人格分析图的代码，但解析器显示我有错误，请哪位看一下我哪里错了？ macos python 开发语言
2022-09-01 17:55

回答 2 已采纳遗漏对象未予封闭参考https://blog.csdn.net/iprobobo/article/details/123215345
为什么我的函数命令突然执行不了了呀？ python 开发语言
2022-01-25 13:52

回答 3 已采纳换个别的名字？
Python爬虫案例解析：五个实用案例及代码示例（学习爬虫看这一篇文章就够了）
2023-07-07 23:59

Eric，会点编程的博客结论：在本篇博客中，我们介绍了五个实用的Python爬虫案例，并提供了相应的代码示例和解析。这些案例涵盖了不同的应用场景，包括爬取天气数据、图片下载、电影评论、新闻文章爬取和文本分析，以及股票数据爬取和...
关于#python#的题目，请各位专家解答！ c语言 java python 有问必答
2021-10-06 18:48

回答 1 已采纳 9 class class1(): def __init__(self,num): self.num=num def function1(self): r
如何抽取TXT中的特定格式文本内容？ python 数据挖掘正则表达式自然语言处理
2020-04-08 14:54

回答 2 已采纳 ``` str1='卷之一治诸风透冰丹内容：治一切风毒……卷之一治诸风龙脑天麻煎内容：治……' import re txt1=re.findall('(.*?)(.*?)内容',str1)
大佬们，可以帮我做做这张试卷吗。很快考试了。做一道也可以，给个答案就行了， python 有问必答
2021-05-29 15:36

回答 4 已采纳大部分比较基础，操作题有点费点时间。一、选择题 1、D 2、C 3、B 4、A 5、B 6、C 7、C 8、B 9、A 10、D 11、C 12、A 13、D 14、D
python爬虫及数据可视化分析
2021-01-07 09:46

香菇炖鸡面-T的博客对于刚开始学习编程的小伙伴来说，肯定都对爬虫有一定的兴趣，对于新手来说，从Python爬虫如入门应该是简单易懂的。Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向...
ptthon词云图最简单的结果 python
2023-01-09 18:01

回答 3 已采纳
python是脚本还是编程语言_python语言是脚本语言吗
2020-11-29 19:26

weixin_39663605的博客 Python是一种编程语言还是脚本语言？Python是GuidoVanRossum开发的最著名的编程语言之一。Python在开发人员中很受欢迎，因为它具有清晰的语法和简单的代码，甚至对于初学者来说也是如此。对于那些刚刚完成职业生涯的...
Python实战实例代码-网络爬虫-数据分析-机器学习-图像处理
2023-09-25 05:30

华为奋斗者精神的博客 Python作为一种简洁、易学、高效的编程语言，被广泛应用于各个领域。这篇Python实战实例代码的部分内容，涵盖了网络爬虫、数据分析、机器学习、图像处理等多个领域。这些实例代码展示了Python在实际应用中的灵活性和...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月8日

悬赏问题

¥20 模型在y分布之外的数据上预测能力不好如何解决
¥15 processing提取音乐节奏
¥15 gg加速器加速游戏时，提示不是x86架构
¥15 python按要求编写程序
¥15 Python输入字符串转化为列表排序具体见图，严格按照输入
¥20 XP系统在重新启动后进不去桌面，一直黑屏。
¥15 opencv图像处理，需要四个处理结果图
¥15 无线移动边缘计算系统中的系统模型
¥15 深度学习中的画图问题
¥15 java报错:使用mybatis plus查询一个只返回一条数据的sql，却报错返回了1000多条

python爬数据代码

8条回答 默认 最新

问题事件

悬赏问题

8条回答默认最新