import requests
import csv
import time
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
}
url = 'https://www.mafengwo.cn/jd/10065/gonglve.html'
# 发送请求获取页面信息
response = requests.get(url, headers=headers)
# 解析页面信息,获取每个景点的链接
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')
jd_links = []
jd_names = []
for item in soup.select('.hot-list .item a.img'):
jd_links.append(item['href'])
jd_names.append(item['title'])
# 定义保存数据的文件名
filename = '青岛景点信息.csv'
# 打开文件,设置文件模式为w,即写入模式
with open(filename, mode='w', encoding='utf-8', newline='') as f:
# 创建csv写入对象
writer = csv.writer(f)
# 写入表头
writer.writerow(['景点名称', '经度', '纬度', '历史人流量', '消费金额', '评论数'])
for jd_link, jd_name in zip(jd_links, jd_names):
print(f'正在爬取景点:{jd_name}...')
# 发送请求获取景点页面信息
jd_response = requests.get(jd_link, headers=headers)
jd_soup = BeautifulSoup(jd_response.text, 'html.parser')
# 获取经纬度
try:
jd_lng, jd_lat = jd_soup.select('.bd-map-js')[0]['data-point'].split(',')
except:
jd_lng, jd_lat = None, None
# 获取历史人流量和消费金额
jd_info_items = jd_soup.select('.info-item')
jd_history_visitor_num = None
jd_consume_amount = None
for jd_info_item in jd_info_items:
if '历史人流量' in jd_info_item.text:
jd_history_visitor_num = jd_info_item.select('.num')[0].text
elif '人均消费' in jd_info_item.text:
jd_consume_amount = jd_info_item.select('.num')[0].text
# 获取评论数
try:
jd_comment_num = jd_soup.select('.rev-total')[0].text.split('条')[0]
except:
jd_comment_num = None
# 将数据写入csv文件
writer.writerow([jd_name, jd_lng, jd_lat, jd_history_visitor_num, jd_consume_amount, jd_comment_num])
# 休眠1秒,防止频繁访问被封IP
time.sleep(1)
print('数据爬取完成!')
关于#python#的问题:python爬虫
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
5条回答 默认 最新
- lshen01 2023-03-18 22:21关注
参考GPT和自己的思路:
关于这段Python爬虫的代码,看起来是对“马蜂窝网”的青岛景点信息进行爬取,并将获取到的数据写入到一个CSV文件中。其中,使用requests库发送HTTP请求获取页面信息,使用BeautifulSoup库解析页面信息,获取每个景点的链接,并对每个景点页面进行访问,获取各种景点信息。此外,还设置了一些防止被封IP的措施,比如设置请求头,每爬取完一个页面就休眠1秒等。该代码需要将两个库进行导入,所以需要提前确保这两个库在当前环境中可用。
解决 无用评论 打赏 举报
悬赏问题
- ¥50 微信聊天记录备份到电脑提示成功了,但还是没同步到电脑微信
- ¥15 python怎么在已有视频文件后添加新帧
- ¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
- ¥15 fluent里模拟降膜反应的UDF编写
- ¥15 MYSQL 多表拼接link
- ¥15 关于某款2.13寸墨水屏的问题
- ¥15 obsidian的中文层级自动编号
- ¥15 同一个网口一个电脑连接有网,另一个电脑连接没网
- ¥15 神经网络模型一直不能上GPU
- ¥20 wpf datagrid单元闪烁效果失灵