怎么爬取马蜂窝美食前10位？

怎么爬取！

"""抓取 Top 小吃"""
    top_xiaochi_url = 'http://www.mafengwo.cn/cy/{}/tese.html'.format(city_code)
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Accept-Encoding': 'gzip, deflate, compress',
        'Accept-Language': 'en-us;q=0.5,en;q=0.3',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive',
        'Host': 'www.mafengwo.cn',
        'Cookie': Bs%3A11%3A%22cn.bing.com%22%3Bs%3A6%3A%22f_host%22%3Bs%3A3%3A%22www%22%3B%7D; __mfwuuid=660662ca-c6e3-d405-6c90-46376d2426ca; Hm_lvt_8288b2ed37e5bc9b4c9f7008798d2de0=1711694541; bottom_ad_status=0; __jsluid_h=e43cb7c52f99bcbaafcd83180cdcc680; __jsl_clearance_s=1711697831.314|0|p0FZSEozJNa5UJtKbTc53cvqEcE%3D; __mfwb=1873ff55f9bb.35.direct; __mfwlt=1711698446; Hm_lpvt_8288b2ed37e5bc9b4c9f7008798d2de0=1711698446',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0',
    }
    response = requests.get(top_xiaochi_url, headers=headers)
    response.encoding = 'utf8'
    soup = BeautifulSoup(response.text, 'lxml')
    list = soup.select('ol.list-rank')[0]
    items = list.select('li')

    top_xiaochi = []
    for item in items:
        img = item.img['src']
        name = item.h3.text.strip()
        top_xiaochi.append({'小吃': name, '图片': img})
    return top_xiaochi

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-03-29 19:26
关注
引自免费微信小程序：皆我百晓生

要爬取马蜂窝美食前10位，我们可以按照以下步骤进行：

首先，我们需要获取网页内容和HTML结构。这可以通过使用Python的BeautifulSoup库实现。下面是一个示例代码：

from bs4 import BeautifulSoup # 假设我们已经下载了HTML文件并保存为'mafeng_wow.html' html_content = open('mafeng_wow.html', 'r').read() soup = BeautifulSoup(html_content, 'lxml') top_xiaochi_list = soup.select('.list-rank') # 获取总共有多少条美食链接 total_links = len(top_xiaochi_list) # 按照热度从高到低排序美食链接 sorted_top_xiaochi = sorted(top_xiaochi_list, key=lambda x: int(x['rank-item']['topRank']), reverse=True) # 找到第10条美食链接 index = 0 for link in sorted_top_xiaochi[:10]: img_url = link.img['src'] name = link.h3.text.strip() # 提取图片URL img_url = img_url.replace('mfw_img-', '').replace('http:', '') # 获取链接内容 content = link.find('div', {'class': 'place-navbar'}).find('div', {'class': 'm-fw AccHide'}).find('div', {'class': 'place-navbar__menu__menu'}) if content is not None and 'main' in content.a.string.lower(): if content.a.string == '<a href="/places/' + name + '/detail/" rel="nofollow">'; # 图片URL匹配正确，可以获取真实图片路径 match = re.match(r'http[s]?://(.*?)/(.*?)/images/', img_url) if match: # 创建一个新的BeautifulSoup对象，并将img_url替换为实际图片URL new_soup = BeautifulSoup(match.group(1), 'lxml') # 如果是网络图片，则添加到模拟图中 if 'background-image' in new_soup.cssselect('div.bgImage'): simulate_image_path = new_soup.cssselect('div.bgImage').get('background-image')['url'] with open(simulate_image_path, 'rb') as f: sim 图像数据 soup.append({'小吃': name, '图片': simulate_image_path}) index += 1 # 打印出前10条美食链接 print('Top 10 Food Links:') for i, link in enumerate(sorted_top_xiaochi): print(f'{i+1}. {link["小吃"]}, {link["图片"]}')

这段代码首先读取HTML文件，然后使用BeautifulSoup解析页面内容。它会找到所有美食链接，并按照热度从高到低排序。对于每个排序后的美食链接，它会提取其名称、图片URL和其对应的实体标签（通过name属性和href属性获取）。然后，它检查这些实体标签是否包含main属性，这个属性通常代表了当前链接指向的实际美食详情页。如果元素包含main属性且其值为true，则表明该链接指向的是一个真正的美食详情页面。

如果在查找过程中遇到错误或不存在的实体标签，例如'main'属性不存在，代码将忽略这些链接并继续向下查找。接着，代码找到了第10条美食链接，并将其保存到一个字典中，其中包含了相应的美食名称、图片URL和模拟图路径。

注意：上述代码假设以下几点：

city_code变量包含目标城市的编码，比如北京的编码是'10000'。
在代码中使用了requests库来发送HTTP请求，如果需要爬取更复杂的HTML结构，可能需要使用第三方库如Scrapy等，这将更高效地处理网页中的复杂CSS和JavaScript样式。

最后，你需要将上述代码复制到Python环境中运行，例如使用如下命令：

python top_food_links.py

这个脚本将输出与马蜂窝网站顶部10个热门美食链接相关的字符串信息。如果你想在实际应用中使用此代码，还需要根据实际情况修改查询参数，包括目标城市代码、筛选美食类型（如地区、菜系等）、排名字段（如总分、评论数量等）以及获取相应美食详情页面的方式（如动态链接URL或手动打开）。同时，为了提供更好的用户体验，建议在获取美食详情页面后，使用适当的身份验证方式（如用户名和密码）登录美食平台，并确保API调用的安全性和性能。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 爬虫实战：爬取马蜂窝旅游攻略内容
2025-12-20 11:02

python 爬虫工程师的博客本文详细介绍了基于Python的马蜂窝旅游攻略爬虫开发方案。采用Requests+XPath技术栈，通过分析静态列表页和动态详情接口，实现了成都旅游攻略的批量抓取。文章涵盖目标页面分析、反爬机制应对、数据清洗存储等关键...
Springboot世界美食风情展示系统211wo（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。
2025-12-24 22:54

米雅噹的博客福建技术师范学院学报,2022,40(02):127-132.DOI:10.19977/j.cnki.jfpnu.20210121.[10]仓业金.基于Java的软件保护技术研究[J].电脑知识与技术,2022,18(23):29-30+52.DOI:10.14004/j.cnki.ckt.2022.1597.[14]宋文彬....
2026毕设ssm+vue基于H5的醉美南湾湖网站设计论文+程序
2025-11-12 00:11

2501_93322628的博客系统整合景点推荐、特色美食、酒店住宿和景区交通四大功能模块，采用"本地事件表+延迟队列"保障库存一致性，通过"内容推荐+知识图谱"混合策略解决冷启动问题。研究重点在于实现多域数据协同与高...
基于大数据爬虫+Hadoop+Spark的旅游推荐系统设计与实现开题报告
2026-01-19 19:26

JAVA编码选手的博客社交内容平台数据采集支持爬取抖音、小红书、微博、马蜂窝等平台的游记、攻略、短视频评论、图文内容等非结构化数据，提取用户偏好、景点特色、热门玩法等关键信息；公共服务平台数据采集支持爬取气象部门、交通部门...
python_flask重庆旅游推荐系统_4ojn0or1爬虫可视化
2026-03-02 10:09

豆包程序员的博客目标网站包括携程、马蜂窝等平台的景点、酒店、美食信息。通过分析网页结构定位数据节点，提取名称、评分、评论、地址等关键字段。 import requests from bs4 import BeautifulSoup def scrape_attractions(): url =...
JSP自动旅游线路生成网站r0hnp（程序+源码+数据库+调试部署+开发环境）
2025-07-28 15:34

sheji5423的博客研究内容涵盖需求分析（调研200名游客与10家旅行社规划痛点）、数据采集（爬取携程/马蜂窝景点数据、对接政府开放API）、算法选型（对比A*算法与强化学习效果）、系统架构设计（采用React+Django前后端分离）及压力...
基于知识图谱的汉英双语吉林文旅推荐系统的设计与实现
2026-01-16 13:11

pk_xz123456的博客 4.2 数据获取与处理数据源：吉林省文旅厅官网、马蜂窝/携程等平台的游记与点评、百度百科/Wikipedia词条、学术文献、地方志。处理流程：网络爬虫 -> 数据清洗（去重、去噪）-> 结构化（JSON/CSV）。 4.3 知识...
计算机毕业设计对标硕论Python+大模型旅游路线规划系统旅游路线推荐系统旅游路线规划助手(5种推荐算法) 大数据毕业设计源码+LW+PPT+讲解
2025-10-10 21:03

私信我自动获取源码的博客数据处理层数据采集：爬取公开旅游数据（如高德地图API、携程/马蜂窝景点库）、实时天气、交通拥堵信息。数据清洗：去重、标准化景点名称、坐标转换（如WGS84到GCJ02）。知识图谱构建：基于Neo4j或图数据库构建...
提示工程架构师必读：旅游行业的智能化解决方案
2025-08-16 03:40

AI应用开发实战派的博客用户端：需求模糊（“我想去放松的地方”）、信息过载（同一景点10种不同攻略）、实时性要求高（航班延误、酒店满房）企业端：用户意图难捕捉、服务成本高（人工客服人均处理30单/天）、动态决策滞后（价格调整周期>...
毕业设计：2023-2024年计算机专业毕业设计选题汇总（建议收藏）
2023-11-23 21:14

源码之家的博客博主介绍：✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久，选择我们就是选择放心、选择安心毕业✌ 由于篇幅限制，想要获取完整文章或者源码，或者...
[毕业设计]2023-2024年最新最全计算机专业毕设选题推荐汇总
2023-09-21 21:37

源码之家的博客博主介绍：✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久，选择我们就是选择放心、选择安心毕业✌ 由于篇幅限制，想要获取完整文章或者源码，或者...
智能旅行规划系统：算法架构与工程实践
2017-09-17 22:07

weixin_30542079的博客 3.2 购物推荐引擎商品库构建流程：爬取主流旅游平台的商品数据（马蜂窝、TripAdvisor等）人工标注特色商品标签（如"京都限定"、"机场免税"）建立价格波动模型（识别最佳购买时机）推荐逻辑示例： def ...
基于Azure AI构建智能旅行代理：从Agent原理到工程实践
2013-03-18 09:51

weixin_33675507的博客你得在十几个App和网站之间反复横跳，查攻略、比价格、看评价、订机票酒店、排行程路线……整个过程耗时耗力，信息还容易过时。而这个项目，正是试图用AI的力量，把这些碎片化的任务串联起来，形成一个智能化的、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月29日

怎么爬取马蜂窝美食前10位？

3条回答 默认 最新

问题事件

3条回答默认最新