需求:利用Requests库采集图片,图片地址如下
https://www.qqtn.com/tp/wmtp 1.html
要求:
1.采集10页的图片(包含该图片的详情页图片)并进行保存
详情页图片:就是网址第一张照片里面的div里面的div
需求:利用Requests库采集图片,图片地址如下
https://www.qqtn.com/tp/wmtp 1.html
要求:
1.采集10页的图片(包含该图片的详情页图片)并进行保存
详情页图片:就是网址第一张照片里面的div里面的div
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳:
要使用Python的Requests库来采集网页中的图片,你可以按照以下步骤进行:
以下是一个基本的代码实现示例:
import requests
from bs4 import BeautifulSoup
import os
# 创建保存图片的目录
if not os.path.exists('downloaded_images'):
os.makedirs('downloaded_images')
def download_image(image_url, folder):
response = requests.get(image_url)
if response.status_code == 200:
with open(os.path.join(folder, image_url.split('/')[-1]), 'wb') as f:
f.write(response.content)
def scrape_images_from_page(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
images = soup.find_all('img')
for img in images:
img_url = img.get('src')
if img_url:
download_image(img_url, 'downloaded_images')
def scrape_images_from_site(base_url, num_pages):
for i in range(1, num_pages + 1):
page_url = f"{base_url}.html" # 假设URL格式是base_url加上页码
scrape_images_from_page(page_url)
# 采集10页图片
base_url = 'https://www.qqtn.com/tp/wmtp'
scrape_images_from_site(base_url, 10)
# 采集详情页图片
# 假设详情页URL可以通过某种方式获得,这里以base_url为例
details_page_url = 'https://www.qqtn.com/tp/wmtp1.html'
scrape_images_from_page(details_page_url)
请注意,这个代码只是一个示例,实际使用时需要根据网页的具体结构调整解析规则。另外,由于网页结构可能随时变化,代码可能需要定期更新以适应这些变化。
参考资料:
注意事项:
robots.txt
文件规定,尊重网站的爬虫政策。