Ampare1987 2021-11-09 09:59 采纳率: 53.3%
浏览 11
已结题

机器学习建立训练集合测试集的函数

我现在在阅读 Hands-On Machine Learning with Scikit-Learn & TensorFlow 书中在建立测试集中给出了如下代码:

def test_set_check(identifier, test_ratio, hash):
    return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio


def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5):
    ids = data[id_column]
    in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio, hash))
    return data.loc[~in_test_set], data.loc[in_test_set]


housing_with_id = housing.reset_index()  # adds an 'index' column
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")
print(len(train_set), "train+", len(test_set), "test")

我个人的感觉这段代码的目的是为了让读者理解是如何得到训练集合测试集的,实际工作中应该不用自行输入这一段代码。
如果我的感觉是正确的实际的工作中是如何做的呢?

  • 写回答

1条回答 默认 最新

    报告相同问题?

    相关推荐 更多相似问题

    问题事件

    • 系统已结题 11月17日
    • 已采纳回答 11月9日
    • 修改了问题 11月9日
    • 创建了问题 11月9日

    悬赏问题

    • ¥15 逆向基础题 第一次做 有很多不懂需要请教
    • ¥16 基于Python的数据库系统开发
    • ¥15 某企业对员工采用计件工资管理制度。通过编写程序,要达到以下目的
    • ¥15 关于C# 英文打字练习器程序设计
    • ¥15 wfp应用层设计规则如何能传递到内核层
    • ¥15 关于机器学习创新点几个问题
    • ¥15 python程序编写
    • ¥15 Type-C扩展坞的RTL8153地址硬改
    • ¥15 uniapp websocket 发送 sub 监听后,代码自动发送了 unsub ,解除了监听
    • ¥15 nativefier封装electron的应用遇到alert弹窗后input栏获取不到焦点,confirm不弹出的问题。