符号回归symbolictransformer得到的模型值与特征公式不匹配

关于符号回归输出特征值与特征公式不匹配问题，敬请各位优秀的人解答，不吝感激！ ~这是我的代码：

import numpy as np
import pandas as pd
from sklearn.preprocessing import MaxAbsScaler, StandardScaler
from joblib import dump
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from gplearn.genetic import SymbolicTransformer
from scipy.stats import randint, uniform
from scipy.stats import spearmanr
from sklearn.decomposition import PCA
#省略了一步读取文件的操作

X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# 数据预处理
X_scaler = MaxAbsScaler()
y_scaler = MaxAbsScaler()

uni_X = X_scaler.fit_transform(X)
uni_y = y_scaler.fit_transform(y.reshape(-1, 1)).ravel()

#search.best_params_是我通过随机搜索得到的最佳参数

symbolic_transformer = SymbolicTransformer(
    population_size=search.best_params_['symbolic__population_size'],
    generations=search.best_params_['symbolic__generations'],
    tournament_size=search.best_params_['symbolic__tournament_size'],
    function_set=search.best_params_['symbolic__function_set'],
    parsimony_coefficient=search.best_params_['symbolic__parsimony_coefficient'],
    max_samples=search.best_params_['symbolic__max_samples'],
    p_crossover=search.best_params_['symbolic__p_crossover'],
    p_subtree_mutation=search.best_params_['symbolic__p_subtree_mutation'],
    p_hoist_mutation=search.best_params_['symbolic__p_hoist_mutation'],
    p_point_mutation=search.best_params_['symbolic__p_point_mutation'],
    n_components=30,
    random_state=42
)

new_features = symbolic_transformer.fit_transform(uni_X, uni_y)
formulas = [str(sym) for sym in symbolic_transformer.programs[-1]]

我发现我得到的new_features每一列的值完全一样，而最后一代的formulas公式也与其对应不上，如图：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

21条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-03-08 14:53
关注
获得0.60元问题酬金
引自免费微信小程序：皆我百晓生

在符号回归（Symbolic Regression）中，如果得到的特征变换结果new_features每一列数据完全相同，并且生成的公式与变换后的特征值对应不上，可能存在以下几个原因：

参数设置问题：您提供的SymbolicTransformer参数中，n_components=30表示保留30个最佳公式生成的新特征。请检查是否因为优化过程中没有找到足够的有效公式，导致填充了重复或无效的公式。

训练样本不足或过于简单：确保您的训练集大小合适且具有足够的复杂性以激发算法产生多样化的公式。

过拟合或欠拟合：调整遗传编程的参数，如种群大小、代数等，以避免模型过早收敛于局部最优解或者无法学到有意义的规律。

预处理步骤：在对原始特征进行缩放时，MaxAbsScaler可能对于某些分布的数据并不适用，尝试使用其他标准化方法，比如StandardScaler，看是否能得到不同特征。

随机种子一致性：确保在整个实验流程中，尤其是随机搜索CV和SymbolicTransformer初始化时，都使用了相同的随机种子，以便结果可复现。

验证公式计算：手动根据输出的公式计算几组特征值，对比SymbolicTransformer直接输出的结果，确认公式是否确实执行错误。

为了进一步排查，请尝试以下代码，它将帮助你查看 SymbolicTransformer 找到的每个公式的实际计算结果，并与转换后的新特征进行比较：

# 从最后一代程序中取出一个公式并手动计算 example_formula = symbolic_transformer.programs[-1][0] manual_new_feature = np.zeros_like(uni_X) for i in range(uni_X.shape[0]): manual_new_feature[i] = eval(example_formula, {}, uni_X[i].tolist()) # 比较SymbolicTransformer生成的特征值与手动计算的特征值 compare_results = pd.DataFrame({'Generated Feature': new_features[:, 0], 'Manual Calculation': manual_new_feature}) print(compare_results.head())

若发现手动计算结果与生成特征一致，则可能是后续特征处理环节出现问题；若不一致，则需要深入研究SymbolicTransformer内部实现细节，甚至考虑其是否存在bug。同时，确保使用的gplearn库版本无误且功能正常。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

遗传编程与符号回归
2025-10-21 00:31

与传统编程不同，遗传编程不需要详尽的算法编码，而是通过自动生成代码片段并将其组合成有效程序的方式来解决问题。这种技术特别适合于复杂问题的解决，其中问题空间可能太大而难以通过传统的直接搜索方法来探索。 ...
基于符号回归（遗传算法）的特征生成原理及代码
2023-10-07 13:53

首先，采用corr()方法分析特征相关性其次，采用gplearn库中SymbolicTransformer实现符号回归 from gplearn.genetic import SymbolicTransformer 然后，符号回归内部为遗传算法，适应度函数默认为皮尔逊系数的公式，...
符号回归与gplearn应用[可运行源码]
2025-11-12 16:36

gplearn是一个基于遗传编程的Python库，它提供了符号回归的实现途径，支持自动化的特征衍生，用户可以选择不同的适应度函数来引导模型的学习过程，同时，gplearn还具有处理高性能并行计算的能力。通过遗传编程，...
Python基于符号回归（遗传算法）的特征生成原理及代码
2024-04-12 16:13

首先，采用corr()方法分析特征相关性其次，采用gplearn库中SymbolicTransformer实现符号回归 from gplearn.genetic import SymbolicTransformer 然后，符号回归内部为遗传算法，适应度函数默认为皮尔逊系数的公式，...
【风电功率预测】基于遗传编程的符号回归模型构建：项目介绍 MATLAB实现基于遗传编程（GP）进行风电功率预测的详细项目实例（含（含模型描述及部分示例代码）
2025-12-20 19:15

核心内容涵盖数据预处理、特征工程、表达式树的随机初始化与遗传操作（选择、交叉、变异）、适应度评估、复杂度控制、早停策略、模型集成与不确定性量化，并强调物理约束裁剪与工程可解释性。项目实现了高精度、可...
编程语言基础与Elm元语言方法
2025-04-02 12:59

作者详细阐述了编程语言的基本概念，包括表达式、值及其类型、函数应用、currying和部分函数应用、迭代与递归、列表和模式匹配、数据类型以及高阶函数等。接着，书中深入讨论了编程语言的语法，包括上下文无关文法、...
机器学习基础课件-机器学习概述机器学习算法分类机器学习常用算法特征工程与数据预处理模型评估与优化实践案例与编程实
2024-10-17 02:48

数据预处理则包括数据清洗、处理缺失值、异常值处理以及数据转换等方法，这些步骤旨在提高数据质量和模型性能。模型评估与优化：模型评估是指使用一系列指标和方法来验证模型的性能。常见的评估指标有准确率、...
符号回归TuringBot_2_1_2_win64.exe(免费版)
2022-09-07 17:04

从 TXT 或 CSV 文件中读取数据，用模拟退火算法搜索找到解决回归和分类问题的数学公式，该软件为免费版，更多功能请购买收费版本。主要特点如下： - 帕累托优化：软件同时尝试找到所有可能大小的最佳公式。它不仅...
风能预测基于遗传编程的风电功率预测模型构建：项目介绍 MATLAB实现基于遗传编程（GP）进行风电功率预测的详细项目实例（含（含模型描述及部分示例代码）
2025-09-19 15:35

项目涵盖从数据预处理、特征工程到表达式树构建、多目标优化、遗传操作设计、训练流程与早停策略、模型稳健化与物理约束融合，以及模型集成与不确定性量化的完整技术链条。通过引入安全算子、复杂度惩罚、交叉验证和...
遗传编程前沿研究
2025-10-24 01:13

机器学习领域中的许多重要问题，如模型选择、特征提取和超参数优化等，都可以从遗传编程的方法中获得灵感和解决方案。本书为读者提供了一个全面了解遗传编程领域最新进展的窗口，特别是对于那些从事人工智能、进化...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月8日

符号回归symbolictransformer得到的模型值与特征公式不匹配

21条回答 默认 最新

问题事件

21条回答默认最新