关于#python#的问题：python爬虫


import requests
import csv
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
}

url = 'https://www.mafengwo.cn/jd/10065/gonglve.html'

# 发送请求获取页面信息
response = requests.get(url, headers=headers)

# 解析页面信息，获取每个景点的链接
from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
jd_links = []
jd_names = []
for item in soup.select('.hot-list .item a.img'):
    jd_links.append(item['href'])
    jd_names.append(item['title'])

# 定义保存数据的文件名
filename = '青岛景点信息.csv'

# 打开文件，设置文件模式为w，即写入模式
with open(filename, mode='w', encoding='utf-8', newline='') as f:
    # 创建csv写入对象
    writer = csv.writer(f)
    # 写入表头
    writer.writerow(['景点名称', '经度', '纬度', '历史人流量', '消费金额', '评论数'])
    for jd_link, jd_name in zip(jd_links, jd_names):
        print(f'正在爬取景点：{jd_name}...')
        # 发送请求获取景点页面信息
        jd_response = requests.get(jd_link, headers=headers)
        jd_soup = BeautifulSoup(jd_response.text, 'html.parser')
        # 获取经纬度
        try:
            jd_lng, jd_lat = jd_soup.select('.bd-map-js')[0]['data-point'].split(',')
        except:
            jd_lng, jd_lat = None, None
        # 获取历史人流量和消费金额
        jd_info_items = jd_soup.select('.info-item')
        jd_history_visitor_num = None
        jd_consume_amount = None
        for jd_info_item in jd_info_items:
            if '历史人流量' in jd_info_item.text:
                jd_history_visitor_num = jd_info_item.select('.num')[0].text
            elif '人均消费' in jd_info_item.text:
                jd_consume_amount = jd_info_item.select('.num')[0].text
        # 获取评论数
        try:
            jd_comment_num = jd_soup.select('.rev-total')[0].text.split('条')[0]
        except:
            jd_comment_num = None
        # 将数据写入csv文件
        writer.writerow([jd_name, jd_lng, jd_lat, jd_history_visitor_num, jd_consume_amount, jd_comment_num])
        # 休眠1秒，防止频繁访问被封IP
        time.sleep(1)

print('数据爬取完成！')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lshen01 2023-03-18 22:21
关注
参考GPT和自己的思路：

关于这段Python爬虫的代码，看起来是对“马蜂窝网”的青岛景点信息进行爬取，并将获取到的数据写入到一个CSV文件中。其中，使用requests库发送HTTP请求获取页面信息，使用BeautifulSoup库解析页面信息，获取每个景点的链接，并对每个景点页面进行访问，获取各种景点信息。此外，还设置了一些防止被封IP的措施，比如设置请求头，每爬取完一个页面就休眠1秒等。该代码需要将两个库进行导入，所以需要提前确保这两个库在当前环境中可用。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存 python
2022-06-04 10:47

回答 1 已采纳 import sqlite3 import re import requests from lxml import html findlink = re.compile(r'<a href=
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
python爬虫的理解问题 chrome python selenium 爬虫
2018-02-23 03:04

回答 4 已采纳 1. 你的理解是对的 2. 我把我的理解说一下, 比如说一个网页显示了商品的价格, 而且这个价格信息是网页的js代码请求了价格信息对应的url之后显示出来的 - 我用requests库
Python爬虫系统：仿微博进行爬虫实验WechatSogou-master.zip
2024-05-30 16:50

### Python爬虫系统：仿微博进行爬虫实验 #### 概述 Python爬虫系统“WechatSogou-master”是一个专门为数据采集和分析设计的工具，特别针对社交媒体平台的内容爬取而开发。该系统主要模拟了微博（Weibo）的爬虫...
python网络爬虫 python 有问必答
2021-06-23 17:45

回答 2 已采纳建议参考文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 都是中文，很好理解如果对你有帮助，可以点击我
python编程问题，用pychorm python
2022-06-27 17:49

回答 1 已采纳没有找到./data/8_data.txt文件，查看一下执行python的路径是否正确
关于#BeautifulSoup#的.text的问题，请问如何解决？ python 爬虫
2022-08-11 16:59

回答 1 已采纳 soup.select("#main>#main_left>.book-mulu a")返回的是一个列表, 要加[0]访问列表的第一元素的.text另外.book-mulu 不是#main
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客很多同学一听到 Python 或编程语言，可能条件反射就会觉得“很难”。但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要...
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
selenium爬虫报错，请各位大大帮我看下是哪里问题 python 爬虫
2021-12-15 22:43

回答 1 已采纳 get_product()函数里的xpath语法全都有问题啊1、//*后面不能有div了，直接接属性及属性值了2、说实话你第一句//*div[@class="items"]/div[@class="i
Python爬虫第一课：了解爬虫与浏览器原理
2022-10-15 15:05

DangerousPerson的博客浏览器工作原理爬虫工作原理爬虫的四个步骤requests库。
Python爬虫是一种使用Python编程语言来自动化获取网页数据的技术这项技术主要涉及到向目标服务器发送请求，获取HTML页
2024-05-02 14:49

Python爬虫是一种利用Python编程语言实现自动化的网页数据抓取技术。它的工作原理主要包括以下几个步骤：首先向目标服务器发送HTTP请求；接着获取服务器返回的HTML页面内容；然后对HTML进行解析以提取所需的数据。...
Python 基础（一）：入门必备知识
2019-10-30 08:59

Python小二的博客 Python 入门必备知识，你都掌握了吗？
Python爬虫详解：原理、常用库与实战案例
2024-04-01 13:30

雪碧有白泡泡的博客通过本文的讲解，相信读者已经对Python爬虫有了较为全面的认识。爬虫技能在数据分析、自然语言处理等领域具有广泛的应用，希望读者能够动手实践，不断提高自己的技能水平。同时，请注意合法合规地进行爬虫，遵守相关...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月18日

悬赏问题

¥50 微信聊天记录备份到电脑提示成功了，但还是没同步到电脑微信
¥15 python怎么在已有视频文件后添加新帧
¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
¥15 fluent里模拟降膜反应的UDF编写
¥15 MYSQL 多表拼接link
¥15 关于某款2.13寸墨水屏的问题
¥15 obsidian的中文层级自动编号
¥15 同一个网口一个电脑连接有网，另一个电脑连接没网
¥15 神经网络模型一直不能上GPU
¥20 wpf datagrid单元闪烁效果失灵

关于#python#的问题：python爬虫

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新