zoo9815 2023-07-10 16:16 采纳率: 75%
浏览 12
已结题

为什么输出的不是batchsize而是trainset

将数据集划分训练集和验证集


dataset = load_dataset(rating_info, policy_info)
print("数据集总数量:", len(dataset))

trainset = dataset[:int(0.85*len(dataset))]
print("训练集数量:", len(trainset))

validset = dataset[int(0.85*len(dataset)):]
print("验证集数量:", len(validset))

输出:数据集总数量: 114
训练集数量: 96
验证集数量: 18

使用Dataset和DataLoader来构建数据的迭代器,Dataset包含针对单条数据的处理,DataLoader主要对Dataset的数据进行批次化

import numpy as np
from paddle.io import Dataset, DataLoader

class PolicyDataset(Dataset):
    def __init__(self, dataset):
        self.dataset = dataset

    def __getitem__(self, idx):
        # 数据转换成numpy的形式
        pol_id = np.array(self.dataset[idx]['pol_info']['pol_id'])
        title = np.array(self.dataset[idx]['pol_info']['title'])
        category = np.array(self.dataset[idx]['pol_info']['category'])
        score = np.array(self.dataset[idx]['scores'],dtype='int32')
      
        return [pol_id, category, title], score

    def __len__(self):
        return len(self.dataset)

# 定义数据迭代Batch大小
BATCH_SIZE = 256
# 构建train_dataset
train_dataset = PolicyDataset(trainset)
# 构建训练集数据迭代器
train_loader = DataLoader(train_dataset,
                    batch_size=BATCH_SIZE,
                    shuffle=True)
print(train_dataset[0])

# 构建valid_dataset
valid_dataset = PolicyDataset(validset)
# 构建验证集数据迭代器
valid_loader = DataLoader(valid_dataset,
                    batch_size=BATCH_SIZE,
                    shuffle=False)

DataLoader数据迭代器的使用方式如下:

for idx, data in enumerate(train_loader):
    pol_data, score = data
    pol_id_arr, pol_cat_arr, pol_tit_arr = pol_data
    print("政策ID数据尺寸", pol_id_arr.shape, ", 政策类别genres数据的尺寸", pol_cat_arr.shape, ", 政策名字title的尺寸", pol_tit_arr.shape)
    break

输出:政策ID数据尺寸 [96] , 政策类别genres数据的尺寸 [96, 11] , 政策名字title的尺寸 [96, 96]
为什么输出的不是batchsize[256]而是trainset的数量[96]?
如何修改才能输出batchsize?

  • 写回答

1条回答 默认 最新

  • IT工程师_二师兄 2023-07-10 16:27
    关注

    你用的命令好像不正确吧

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 7月10日
  • 创建了问题 7月10日

悬赏问题

  • ¥15 有偿求苍穹外卖环境配置
  • ¥15 代码在keil5里变成了这样怎么办啊,文件图像也变了,
  • ¥20 Ue4.26打包win64bit报错,如何解决?(语言-c++)
  • ¥15 clousx6整点报时指令怎么写
  • ¥30 远程帮我安装软件及库文件
  • ¥15 关于#自动化#的问题:如何通过电脑控制多相机同步拍照或摄影(相机或者摄影模组数量大于60),并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
  • ¥20 深信服vpn-2050这台设备如何配置才能成功联网?
  • ¥15 Arduino的wifi连接,如何关闭低功耗模式?
  • ¥15 Android studio 无法定位adb是什么问题?
  • ¥15 C#连接不上服务器,