python随机森林分类地物

请教关于随机森林分类遥感影像的问题

首先是栅格标签图制作。我在 arcgis中通过目视判断，建立了森林、城市两种感兴趣区，并且转为tif图层。生成的tif图层，森林的值为1，城市的值为2。

然后训练了随机森林模型。再用训练好的随机森林模型去测试新的数据。但是我发现生成的图是一张所有的值都是127的分类图。这是咋回事啊？我发现127似乎是原来随机森林模型中不属于“森林”与“城市”的其他地物的分类值


import numpy as np
from osgeo import gdal

# 读取遥感影像和栅格标签图数据
image_path = r'C:\Users\ASUS\Desktop\train.tif'
label_path = r'C:\Users\ASUS\Desktop\广东省\lable.tif'

image_dataset = gdal.Open(image_path)
label_dataset = gdal.Open(label_path)

image_array = image_dataset.ReadAsArray()
label_array = label_dataset.ReadAsArray()

# 初始化特征矩阵 X 和类别标签向量 y
X = []
y = []

# 遍历所有像素,shape[0]与shape[1]表示从左上角到右下角。
# label_array读取自lable.tif，lable.tif为单波段影像。所以shape[0]与shape[1]表示列和行
for i in range(label_array.shape[0]):
    for j in range(label_array.shape[1]):
        feature = image_array[:, i, j]  # 提取像素特征
        label = label_array[i, j]  # 获取像素的类别标签
        X.append(feature)
        y.append(label)

# 将 X 和 y 转换为 Numpy 数组
X = np.array(X)
y = np.array(y)
# 将特征保存到文本文件
np.savetxt('D:\y.txt', y, fmt='%d', delimiter=' ')
np.savetxt('D:\X.txt', X, fmt='%d', delimiter=' ')

# 现在 X 是特征矩阵，y 是类别标签向量，可以用于训练随机森林模型
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林模型
n_estimators = 100  # 设置随机森林中决策树的数量
random_state = 42  # 设置随机种子，以确保结果可重复
rf_model = RandomForestClassifier(n_estimators=n_estimators, random_state=random_state)

# 训练随机森林模型
rf_model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = rf_model.predict(X_test)

# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率:", accuracy)

##用训练好的模型去测试新的数据
# 读取新的待预测图像
import rasterio
from rasterio.transform import from_origin
new_image_path = r'C:\Users\ASUS\Desktop\test.tif'
with rasterio.open(new_image_path) as new_image_dataset:
    Tif_width = new_image_dataset.width  # 栅格矩阵的列数
    Tif_height = new_image_dataset.height  # 栅格矩阵的行数
    Tif_geotrans = new_image_dataset.transform  # 获取仿射矩阵信息
    Tif_proj = new_image_dataset.crs  # 获取投影信息
    new_image_array = new_image_dataset.read()

# 对新图像的数据格式进行调整，图像为rgb三通道图像
# 在机器学习中，特征矩阵的形状应该是 (n_samples, n_features)
# n_samples 表示样本数量（即图像的行列像元数height* width），n_features 表示每个样本的特征数（即rgb三个bands的像素值）。
# transpose(1, 2, 0)将(波段数, 列数 , 行数)变成二维数据满足随机森林输入，实现了从 (num_bands, height, width) 到 (height, width, num_bands) 的转置。
# reshape(-1, 3): 这是在进行数据重塑，reshape用于将多维的图像数据转换成一个二维矩阵，其中每一行代表一个像素点的特征。
# -1 在这里表示根据其他维度的大小自动计算当前维度的大小，3 表示bands，因此每个样本（每个像素点）具有三个特征。
#这样的操作会确保每一行代表一个像素点的特征，而列代表不同的波段特征，使其符合随机森林模型的输入要求。
data = new_image_array.transpose(1, 2, 0).reshape(-1,3)
#  对调整好格式的数据进行预测
oldpred = rf_model.predict(data)
# 调整预测结果的形状
newpred = oldpred.reshape(Tif_height, Tif_width)
#  将结果写到tif图像里
meta = new_image_dataset.meta
meta.update(dtype=rasterio.uint8, count=1)
with rasterio.open(r'D:\test826.tif', 'w', **meta) as test:
    test.write(newpred, 1)
print('image_array shape',image_array.shape)
print('label_array shape',label_array.shape)
print('X',X.shape)
print('y',y.shape)
print('X value',X)
print('y value',y)
print('new_image_array shape',new_image_array.shape)
print('new_image_array value',new_image_array)
# 将特征保存到文本文件
print('data',data.shape)
print('oldpred',oldpred.shape)
print('newpred',newpred.shape)
# 可视化预测结果
import matplotlib.pyplot as plt
plt.imshow(newpred, cmap='jet')
plt.colorbar()
plt.show()


输出结果如下：
模型准确率: 0.962233268671193
image_array shape (3, 7691, 7541)
label_array shape (253, 326)
X (82478, 3)
y (82478,)
X value [[0 0 0]
 [0 0 0]
 [0 0 0]
 ...
 [0 0 0]
 [0 0 0]
 [0 0 0]]
y value [127 127 127 ... 127 127 127]
new_image_array shape (3, 7691, 7531)
new_image_array value [[[0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  ...
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]]

 [[0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  ...
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]]

 [[0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  ...
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]
  [0 0 0 ... 0 0 0]]]
data (57920921, 3)
oldpred (57920921,)
newpred (7691, 7531)

数据链接：https://pan.baidu.com/s/1-5nVSRrl2THVt2naLqVzng 提取码：1234
输出的图

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2023-08-28 12:34
关注
引用皆我百晓生小程序回复内容作答：

根据你提供的代码和输出结果，我注意到以下几点可能导致问题：

训练数据和测试数据的像素值范围不一致：在训练随机森林模型之前，你将训练数据和测试数据分别保存到了 "D:\X.txt" 和 "D:\y.txt" 中。然后在测试新数据时，你读取了新的待预测图像，将其调整为符合随机森林模型输入要求的格式。但是你没有对新图像的数据进行归一化或标准化处理。如果训练数据和测试数据的像素值范围不一致，可能会导致预测结果出现问题。

模型准确率高：根据输出结果，模型在训练集和测试集上的准确率都很高，分别为0.962。这可能意味着你的模型过拟合了训练数据，即在训练数据上表现良好，但在新数据上的泛化能力较差。你可以尝试调整模型的超参数，如 n_estimators（决策树数量）和 random_state（随机种子），以及使用交叉验证来评估模型的性能。

输出分类图全为127：这可能是因为你的模型在新数据上的预测结果都属于不属于“森林”和“城市”的其他地物，导致分类值都为127。你可以尝试查看预测结果的分布情况，看是否有其他分类值出现。可以使用np.unique()函数查看预测结果中的唯一值及其出现次数。

另外，你还可以检查训练数据和测试数据是否正确加载，以及特征矩阵X和类别标签向量y的形状是否正确。你已经打印了这些信息，但可以进一步确认。

最后，你可以尝试增加训练样本的数量，以充分利用随机森林算法的优势。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

随机森林回归与分类
2024-07-08 23:04

不懂开发的程序猿的博客 随机森林改变了决策树容易过拟合的问题，即可以学习分类问题，也可以学习回归的问题。例如在学习分类时，采用Bagging投票的方式选择类别频次最高的，学习回归问题时，可直接取每颗树结果的平均值。在scikit-learn...
利用Python的Scikit-Learn库对遥感影像进行随机森林分类
2020-09-02 10:44

chenguanga的博客利用Python的Scikit-Learn库对遥感影像进行随机森林(RandomForest)分类 ...因此，本篇文章将为读者介绍利用Python及其扩展包Scikit-Learn对遥感影像进行随机森林分类的完整过程，包括：ShapeFile格式样本数据的读取、
【遥感图像分类】基于随机森林算法的多类别土地覆盖分类：琵琶湖周边水域森林城市识别系统设计
2025-12-02 17:19

内容概要：本文介绍了基于Google Earth Engine平台进行土地覆盖分类（Land Cover Classification）的完整流程，重点讲解了如何利用机器学习算法（如随机森林）对Landsat 9遥感影像进行监督分类。内容涵盖训练样本的...
【遥感影像处理】基于Google Earth Engine的Sentinel-1影像分类：随机森林算法实现土地覆盖分类与精度评估
2025-08-02 14:32

通过样本点集合并抽样生成训练和验证样本，采用随机森林分类器对影像进行了土地覆盖分类，最终得到四类地物（水体、森林、裸地、城市）的分类图，并计算了混淆矩阵评估分类精度。; 适合人群：遥感科学与地理信息系统...
遥感分类基于多层神经网络与随机森林的冰川覆盖五分类模型：Google Earth Engine数据在Rutor冰川动态监测中的应用
2025-10-08 18:16

通过对比模型性能发现，随机森林表现最优，测试准确率达99.06%，且各类别分类精度均高于96%。进一步通过ROC曲线分析显示，冰与非冰分类AUC达0.992，表明模型具有极强的判别能力。此外，研究还进行了特征重要性分析，...
从Python编程到AI大模型：GeoAI大模型驱动的地球科学智能计算——涵盖随机森林、CNN、LSTM、Transformer及科研绘图实战
2025-07-22 16:52

WangYan2022的博客系统性整合了从基础数据处理到高阶智能建模的全链条技术体系，以Python编程为基石，以机器学习与深度学习为核心方法论，深入剖析随机森林（RF）、卷积神经网络（CNN）、长短期记忆网络（LSTM）及Transformer等前沿...
python+GEE--作物分类与面积估算、决策树森林分类算法、森林退化与砍伐监测、物候特征分析、生态环境质量动态监测、洪涝灾害监测、干旱遥感监测、牧场土地覆盖变化监测
2025-08-21 17:13

xiao5kou4chang6kai4的博客 3.2 作物分类与面积估算时间序列特征提取与调和回归分析多波段植被指数构建与应用 随机森林分类器训练与优化类别精度评估与误差分析分类结果空间统计与可视化实践案例：本案例将详细讲解如何利用Landsat时间...
激光雷达数据处理实验代码Python.rar
2021-03-06 19:18

通过Python编程语言，我们可以实现一系列高级的数据操作，从而提取有价值的信息并进行可视化。这份985高校学生的作业展示了高效的数据处理技巧，助其在期末取得了95+的优异成绩。首先，激光雷达是一种遥感技术，它...
Training_points_balancing.py
2024-12-05 14:24

本教程将通过Python编程语言结合Google Earth Engine（GEE）平台，讲述如何使用"Training_points_balancing.py"这一脚本对土地分类的训练点进行平衡。首先，需要理解什么是训练点。在遥感图像分类中，训练点是指...
基于pytorch的深度学习遥感地物分类全流程实战教程（包含自己数据集制作与大图预测）理论篇试读
2025-05-27 21:42

DP+GISer的博客实践篇详细讲解Python环境配置、公开数据集与自定义数据集的模型训练方法，重点解决遥感数据特有的挑战，如大图分块预测、标签不完整时的训练技巧。亮点包括跨学科知识整合、自定义数据集构建方法及高效的大图预测...
Python遥感数据处理与智能分析
2025-04-19 10:15

喜欢编程就关注我的博客 Python在遥感数据处理与智能分析中发挥着至关重要的作用。通过GDAL、Rasterio等库，我们可以轻松读取和处理遥感数据；通过NumPy、Pandas等库，我们可以进行数据清洗和标准化；通过Scikit-Learn、TensorFlow等库，...
基于Python的Landsat8 OLI影像建设用地自动识别与提取.pdf
2021-06-29 12:49

Python是一种高级的、解释型的、通用编程语言。它具有简洁、易读、可扩展性强等特点，因此被广泛应用于数据分析和处理领域。Python拥有大量的数据处理和分析相关的库，如NumPy，Pandas，Matplotlib等。这些库为...
基于随机森林实现特征选择降维及回归预测（Matlab代码实现）
2025-08-17 11:21

杰哥爱编程_yyds的博客演示如何通过Matlab自带的随机森林函数进行特征选择，筛选出大量特征数据中对于回归预测最重要的特征，并对各特征进行重要性排序，充分反应不同特征的重要性。演示如何在种植随机树林时为数据集选择适当的拆分预测...
GatorSense 高光谱图像分析工具包_python_代码_下载
2022-06-14 15:48

GatorSense高光谱图像分析工具包是一款专为Python编程语言设计的专业软件工具，用于处理和分析高光谱图像数据。高光谱成像是遥感技术的一种，它能捕获物体在连续光谱波段上的详细信息，为环境监测、农业、地质学等...
【遥感影像分析】基于GEE平台的Landsat时序数据分类： Kolkata区域土地覆盖变化检测方法研究
2025-09-24 16:05

通过调用Landsat 8卫星影像数据，计算归一化植被指数（NDVI），并利用随机森林分类器对2016年与2022年的土地覆盖类型进行监督分类与对比分析。文中实现了云遮罩处理、NDVI计算、训练样本提取、数据集划分、模型训练...
python实现图像分割算法2
2024-07-29 22:19

闲人编程的博客随机步行算法的核心思想是使用概率模型模拟像素之间的连接强度，通过模拟从标记点到未标记点的随机游走，来决定每个未标记像素所属的类别。...以下是随机步行算法的 Python 实现，使用 OpenCV 和 NumPy 进行图像处理。
高光谱图像计算机视觉分类图像预处理工具集，包含去除图片无关背景，数据增强，生成标签文件等功能.zip
2024-03-02 21:58

五、Python编程语言 Python是数据科学和机器学习领域的首选语言，因其丰富的库和简洁的语法。本工具集很可能使用了如numpy、pandas进行数据操作，matplotlib和seaborn进行数据可视化，sklearn进行机器学习模型构建，...
01基于pytorch的深度学习遥感地物分类全流程实战教程（包含遥感深度学习数据集制作与大图预测）-理论篇
2026-01-04 15:29

DP+GISer的博客本文总结了利用Python进行深度学习遥感影像地物分类的研究方法，包含理论篇和实践篇两部分。理论篇介绍了遥感和深度学习的基础知识，包括遥感数据分类、预处理流程、深度学习模型类型和应用流程等。实践篇详细讲解了...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月28日

python随机森林分类地物

2条回答 默认 最新

问题事件

2条回答默认最新