水均淼 2025-08-25 22:25 采纳率: 16.7%

爬取安徽省内各市区县的领导到外地招商相关新闻信息

像图片这样的，把数据存进表格里。加上新闻名称的字段，给我完整的python代码，实现这个功能，感谢大家!

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

檀越@新空间 2025-08-25 22:35

关注

晚上好🌙🌙🌙
本答案参考通义千问

当然可以！下面我将为你提供一个完整的 Python 爬虫代码，用于从你提供的安徽省内各市区县的官方网站中爬取招商相关新闻信息，包括：

新闻名称
地市
新闻网址
日期
人物
职务
考察地
考察企业
考察内容或计划合作方向

我们将使用 requests 和 BeautifulSoup 进行网页抓取，并用 pandas 将数据保存为 Excel 表格。

✅ 一、安装依赖库

在运行代码前，请确保你已安装以下 Python 库：

pip install requests beautifulsoup4 pandas openpyxl

✅ 二、Python 完整代码（含详细注释）

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
from datetime import datetime

# 定义目标网站列表（根据你的需求可扩展）
websites = {
    "合肥市政府": "https://hfxz.hefei.gov.cn/xwzx/zwdt/index.html",
    "合肥高新区": "https://gxq.hefei.gov.cn/xwdt/yqyw/index.html",
    "肥西县": "https://www.ahfeixi.gov.cn/",
    "肥东县": "https://www.feidong.gov.cn/index.html",
    "长丰县": "https://www.changfeng.gov.cn/index.html",
    "包河区": "https://www.baohe.gov.cn/index.html",
    "庐江县": "https://www.lj.gov.cn/",
    "巢湖市": "https://www.chaohu.gov.cn/",
    "合肥市瑶海区": "https://www.hfyaohai.gov.cn/index.html",
    "合肥滨湖区": "https://ahchjkq.hefei.gov.cn/index.html",
    "淮北市": "https://www.huaibei.gov.cn/index.html",
    "亳州市": "https://www.bozhou.gov.cn/",
    "宿州市": "https://www.ahsz.gov.cn/",
    "蚌埠市": "https://www.bengbu.gov.cn/",
    "阜阳市": "https://www.fy.gov.cn/",
    "淮南市": "https://www.huainan.gov.cn/",
    "滁州市": "https://www.chuzhou.gov.cn/",
    "六安市": "https://www.luan.gov.cn/",
    "马鞍山市": "https://www.mas.gov.cn/",
    "芜湖市": "https://www.wuhu.gov.cn/index.html",
    "宣城市": "https://www.xuancheng.gov.cn/",
    "铜陵市": "https://www.tl.gov.cn/tlsrmzf/index.html",
    "池州市": "https://www.chizhou.gov.cn/News/showList/8/page_1.html",
    "安庆市": "https://www.anqing.gov.cn/",
    "黄山市": "https://www.huangshan.gov.cn/"
}

# 存储结果的数据结构
data = []

# 遍历每个网站
for city, url in websites.items():
    try:
        # 发送请求
        response = requests.get(url, timeout=10)
        response.encoding = 'utf-8'  # 设置编码
        soup = BeautifulSoup(response.text, 'html.parser')

        # 检查是否有新闻列表
        news_list = soup.find_all('a', href=re.compile(r'/.*\.html'))  # 假设新闻链接以 .html 结尾

        for link in news_list[:10]:  # 限制爬取数量防止超时
            news_url = link.get('href')
            if not news_url.startswith('http'):
                news_url = f"{url.rstrip('/')}/{news_url}"

            # 获取新闻页面内容
            try:
                news_response = requests.get(news_url, timeout=10)
                news_response.encoding = 'utf-8'
                news_soup = BeautifulSoup(news_response.text, 'html.parser')

                # 提取新闻标题
                title_tag = news_soup.find('h1') or news_soup.find('title')
                title = title_tag.get_text(strip=True) if title_tag else "无标题"

                # 提取日期（根据网站结构调整）
                date_tag = news_soup.find('span', class_='date') or news_soup.find('div', class_='time')
                date = date_tag.get_text(strip=True) if date_tag else "未知日期"

                # 提取正文内容
                content = ''
                paragraphs = news_soup.find_all(['p', 'div', 'span'])
                for p in paragraphs:
                    content += p.get_text(strip=True) + '\n'

                # 使用正则表达式提取关键信息
                person_match = re.search(r'([\u4e00-\u9fa5]+)(?:副|厅|局|委|办|长|书记|主任|市长|省长|市长|领导|负责人)', content)
                position_match = re.search(r'(副|厅|局|委|办|长|书记|主任|市长|省长|市长|领导|负责人)[\u4e00-\u9fa5]+', content)
                place_match = re.search(r'(考察|调研|走访|参观|访问)([\u4e00-\u9fa5]+)', content)
                company_match = re.search(r'(企业|公司|园区|项目|基地)([\u4e00-\u9fa5]+)', content)
                content_match = re.search(r'(合作|签约|对接|洽谈|推进|推动)([\u4e00-\u9fa5]+)', content)

                person = person_match.group(1) if person_match else "未知"
                position = position_match.group(1) if position_match else "未知"
                place = place_match.group(2) if place_match else "未知"
                company = company_match.group(2) if company_match else "未知"
                content_info = content_match.group(2) if content_match else "未知"

                # 添加到数据中
                data.append({
                    "新闻名称": title,
                    "地市": city,
                    "新闻网址": news_url,
                    "日期": date,
                    "人物": person,
                    "职务": position,
                    "考察地": place,
                    "考察企业": company,
                    "考察内容或计划合作方向": content_info
                })

            except Exception as e:
                print(f"解析新闻失败: {news_url}, 错误: {str(e)}")

    except Exception as e:
        print(f"访问网站失败: {url}, 错误: {str(e)}")

# 保存为Excel文件
df = pd.DataFrame(data)
df.to_excel("安徽招商新闻.xlsx", index=False, engine='openpyxl')

print("✅ 数据已成功保存为 Excel 文件：安徽招商新闻.xlsx")

✅ 三、关键说明与注意事项

1. 网页结构差异

不同网站的 HTML 结构可能不同，上述代码是基于通用模式编写的。如果某些网站无法正确抓取，需要手动分析该网站的 HTML 结构，并调整 find() 或 find_all() 的参数。

2. 反爬机制

部分网站可能有反爬虫机制（如验证码、IP封锁等），建议：

使用 headers 模拟浏览器访问
使用代理 IP
控制请求频率

3. 字段提取逻辑

目前我们使用了正则表达式来提取“人物”、“职务”、“考察地”等字段，但这些字段在不同新闻中的表述方式可能不同，建议后续优化为更智能的自然语言处理（NLP）方法。

✅ 四、优化建议（可选）

| 优化项 | 说明 | |--------|------| | 自动识别网站结构 | 使用机器学习模型或规则引擎自动识别不同网站的结构 | | 多线程/异步请求 | 提高爬取效率 | | 日志记录 | 记录错误和成功抓取的信息 | | 定期更新 | 设置定时任务自动抓取最新新闻 |

✅ 五、示例输出表格字段

| 新闻名称 | 地市 | 新闻网址 | 日期 | 人物 | 职务 | 考察地 | 考察企业 | 考察内容或计划合作方向 | |----------|------|-----------|------|------|------|--------|-----------|-------------------------| | 某某领导赴北京考察 | 合肥市 | https://... | 2025-04-05 | 张某某 | 副市长 | 北京 | XX科技 | 推进智能制造合作 |

如果你希望我进一步优化代码（例如支持多页爬取、自动识别不同网站结构等），欢迎继续提问！

报告相同问题？

关注问题

河南省2025年市区县乡镇街道json数据
2025-01-02 18:20

这18个市级单位分别是：郑州市、开封市、洛阳市、平顶山市、安阳市、鹤壁市、新乡市、焦作市、濮阳市、许昌市、漯河市、三门峡市、南阳市、商丘市、信阳市、周口市、驻马店市及省直辖县级行政区划。每个行政单位下的...
湖北省2025年市区县乡镇街道json数据
2025-01-02 18:24

该数据集涵盖了湖北省14个主要城市的行政划分信息，具体包括武汉市、黄石市、十堰市、宜昌市、襄阳市、鄂州市、荆门市、孝感市、荆州市、黄冈市、咸宁市、随州市、恩施土家族苗族自治州，以及省直辖县级行政区划。...
安徽省地级市shape文件_安徽省地级市shape文件_
2021-09-28 19:20

【标签】：“安徽省地级市shape文件”标签明确了这个数据集的内容，即涵盖了安徽省内的所有地级市行政区划的边界信息。这样的数据在城市规划、环境研究、人口统计、交通分析、公共服务设施布局等多个领域都有广泛...
福建省各区县shp文件.rar
2022-02-23 18:40

【标题】"福建省各区县shp文件.rar"指的是一个压缩包，其中包含了关于福建省各个区县的地理信息数据。SHP文件是Esri公司开发的Shapefile格式，是一种常见的矢量地理数据格式，用于存储地理空间信息，如点、线、...
四川各区县shp文件矢量.rar
2022-02-23 17:13

标题中的“四川各区县shp文件矢量.rar”表明这是一个包含四川省各个区县地理信息的矢量数据压缩包，格式为SHP。SHP是Esri公司开发的一种空间数据存储格式，常用于地理信息系统（GIS）中，用于表示地理特征如行政...
湖南及其湖南各市区县的json地图json.zip
2021-07-21 17:03

标题 "湖南及其湖南各市区县的json地图json.zip" 提供了一个关于地图数据的压缩文件，其中包含了湖南省以及下属各个市区县的地理信息。描述 "湖南及其湖南各市区县的json地图" 进一步确认了这个文件的内容是针对湖南...
辽宁各区县shp文件.rar
2022-02-23 18:54

辽宁省内下辖的行政区划多样，包括市辖区、县级市、县和自治县，这些行政单位的具体划分和规划对于地方政府的管理至关重要。借助地理信息系统，管理者可以直观地理解各行政区划的空间关系和统计数据，从而更高效地...
朝阳市区县级别行政区划shp文件
2022-04-27 21:38

描述中提到的“辽宁省，朝阳市，区县级别，行政区划”，意味着这份数据涵盖了辽宁省内的朝阳市，具体到区、县这一级别的行政区域。行政区划数据是GIS应用的基础，它定义了各级政府的管辖范围，对于政策制定、人口...
云南各区县shp文件.rar
2022-02-23 17:19

【标题】"云南各区县shp文件.rar"指的是一个压缩包，其中包含了关于云南省各个区县的地理信息数据。这种数据通常是以Shapefile（shp文件）格式存储的，是GIS（地理信息系统）领域中常用的一种矢量数据格式。【描述...
湖南各区县shp文件.rar
2022-02-23 18:31

湖南各区县shp文件.rar
眉山市区县级别行政区划shp文件
2022-05-05 13:53

描述中的“四川省，眉山市，区县级别行政区划”进一步确认了这些数据涵盖了四川省内的眉山市，且数据细化到区县这一行政级别。"shp文件，矢量地图"意味着该数据集包含的是可编辑的、具有几何形状的地理信息，比如...
2025年山东省市区县乡镇街道json数据
2025-01-02 18:17

山东省作为中国人口第二大省，...2025年山东省市区县乡镇街道json数据是一项极为宝贵的资源，它不仅为山东省内的政府管理、经济发展和社会活动提供了基础数据支持，也为相关领域的研究和分析提供了丰富的素材和依据。
安徽省市区县行政中心坐标、行政区划json含边界
2018-11-21 16:24

标题中的“安徽省市区县行政中心坐标、行政区划json含边界”指的是一个数据资源，它包含了安徽省内各个级别的行政区域——省、市、区县的详细信息。这些信息不仅包括了行政中心的位置坐标，还可能涉及行政区域的边界...
2022年省内各市事业单位招聘考试组织情况分享.pdf
2022-03-10 17:50

2022年省内各市事业单位招聘考试组织情况分享.pdf
crawl 是一个基于WebMagic爬取携程网上广西省内景点、购物、美食板块数据并进行展示的SSM项目，爬取携程网广西
2025-09-18 02:21

接着是数据存储，即将爬取的数据存储到后端数据库中；最后是数据展示，通过Web界面将爬取的信息展示给用户。在数据爬取的过程中，开发者需要注意遵守相关网站的爬虫政策和法律法规。例如，携程网作为受版权保护的...
2018年5月更新最新全国省市区县geojson数据（安徽省）（echarts等图表可用）
2018-06-22 09:18

1. 地图可视化：使用Echarts将GeoJSON数据渲染成地图，可以直观展示安徽省内各市区县的分布情况。 2. 数据绑定：将其他统计数据（如人口、GDP等）与GeoJSON的Properties关联，通过颜色、大小等视觉元素反映差异。 3....
全国各市客运站信息对照表
2018-03-13 13:54

通过上述分析可以看出，这份全国各市客运站信息对照表涵盖了中国多个省份的城市及其下属区县的客运站信息，极大地便利了人们在不同地区之间的出行需求。这些客运站不仅为当地居民提供了出行服务，还加强了不同城市...
安徽省各行政区划遥感图（来源百度地图）
2020-12-23 16:29

安徽省各行政区划遥感图是将地理信息系统与遥感技术相结合的产物，它结合了百度地图的卫星图像数据和高德地图的行政区划边界信息，为用户提供了一个清晰、直观的地理视图。遥感图是一种利用卫星或航空器上的传感器...
安徽省16市重点实验室各区县认定奖励补贴政策及申报条件程序
2024-06-25 13:57

vv18714818797的博客小编整理了2024年安徽省16市重点实验室各区县认定奖励补贴政策及申报条件程序的相关内容，今天就带大家来详细了解一下，安徽省合肥、淮北、亳州、宿州、蚌埠、阜阳、淮南、滁州、六安、马鞍山、芜湖、宣城、铜陵、...
安徽省企业信息化发展与大数据应用现状分析.doc
2025-08-04 23:02

安徽省经济和信息委员会的抽样调查表明，尽管中小企业中只有不到40%拥有信息化总体规划，但其信息化基础设施指标和普及率正在逐步提高。例如，规模以上工业企业的信息化基础设施指标进一步提升，“十三五”期间企业...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月25日