python爬数据代码

本人想在指定网站页面使用python脚本爬数据，网站http://mmt.favor2.info/satellites/1383(网站可手动更换，但是页面是一样的格式)，爬取内容为网站页面表哥内最后的T。

页面内所有红色标记都需要爬下来。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

8条回答默认最新

素影·流年 2023-01-08 21:44

关注

我看看，稍等参数可以自己替换
望采纳

import requests
import re
import wget
import os
import threading

headers= {
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; Tablet PC 2.0; wbx 1.0.0; wbxapp 1.0.0; Zoom 3.6.0)"
}


def Download(url,savedir):
    print('%s 正在下载 将保存至 %s\n' % (url.strip(),savedir),end = '')
    wget.download(url,out = savedir)
    print('%s 已下载完毕 已保存至 %s\n' % (url.strip(),savedir),end = '')
    
def LoadPage(url,savedir):
    global headers
    response = requests.get(url,headers = headers)
    text = response.text.encode(response.encoding).decode(response.apparent_encoding)
    result = re.findall('<a href=\"/satellites/track/(.*)/download\" title=\"Downoad track\">T</a>',text)
    print('%s 中的下载地址已获取(共%d项)' % (url,len(result)))
    threads = []
    for sid in result:
        thd = threading.Thread(target = Download,args = ('http://mmt.favor2.info/satellites/track/%s/download\n' % (sid),os.path.join(savedir,'track_%s.txt' % (sid)),))
        thd.start()
        threads.append(thd)
    while len(threads) != 0:
        threads[0].join()
        threads.pop(0)
        

LoadPage('http://mmt.favor2.info/satellites/1383?page=3','./Data')

时间原因，只下载了三个，效果如上

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(7条)

报告相同问题？

关注问题

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar
2022-05-01 09:47

（含源码及报告）本程序分析了自2016年到2021年（外加）每年我国原油加工的产量，并且分析了2020年全国各地区原油加工量等，含饼状图，柱状图，折线图，数据在地图上显示。运行本程序需要requests、bs4、csv、pandas...
Python编程动态爱心
2023-02-15 21:26

网络豆的博客 Python中的主要使用是让其掌握在程序中运用随机数的能力。random常见随机函数有9个:seed()、random()、randint()、getrandbits()、randrange()uniform()、choice()、shuffle()、sample().math 库是 Python 提供的...
爬虫为什么常用Python语言？
2024-06-29 11:23

凯森森讲Python的博客其他的编程语言不行吗？其实不同的编程语言都可以写爬虫，只是有些语言更适合于某些场合和目的。在这篇文章中，从性能、难度、功能、风险等方面来比较几种常见的编程语言在写爬虫方面的优缺点，并且给出我的建议和...
python爬虫及数据可视化分析
2021-01-07 09:46

香菇炖鸡面-T的博客对于刚开始学习编程的小伙伴来说，肯定都对爬虫有一定的兴趣，对于新手来说，从Python爬虫如入门应该是简单易懂的。Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向...
Python与传统编程语言的区别
2024-08-04 10:10

不会倒的鸡蛋的博客 Python与传统编程语言的区别
python趣味编程100例（99个）
2018-04-06 11:27

Python是一种广泛应用于科学计算、数据分析、人工智能以及web开发等领域的高级编程语言，因其简洁明了的语法特性，常被称为“胶水语言”，能够轻松地连接各种组件。"Python趣味编程100例（99个）"这个资源显然是为了...
【python】两种编程模式
2024-11-28 09:41

morris131的博客 Python作为一种灵活且功能强大的编程语言，提供了交互式编程和脚本式编程两种不同的编程方式。
python专利爬虫下载
2017-04-24 01:07

1. **Python爬虫**：Python是一种流行的编程语言，因其简洁的语法和丰富的库支持，在数据抓取方面非常受欢迎。常见的Python爬虫库包括requests（用于发送HTTP请求）、BeautifulSoup（解析HTML和XML文档）以及Scrapy...
Python最简单的图片爬虫，只用20行代码爬遍全网
2020-07-06 15:19

学术严谨的博客前言网络上的信息很多，有的时候我们需要关键字搜索才...python3 导入模块 import urllib.parse import json import requests import jsonpath 确定目标网址 url = 'https://www.duitang.com/napi/blog/list/by_.
python数据可视化代码示例
2022-10-19 11:45

unique_e的博客【代码】python数据可视化代码示例。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月8日

python爬数据代码

8条回答 默认 最新

问题事件

8条回答默认最新