m0_65354641 2024-05-20 07:42 采纳率: 0%
浏览 117
已结题

Google speech command 数据集获取

#在关键字检测领域,一个比较流行的数据集就是Google Speech Commands,但是目前根据链接或者是在pytorch中直接下载,都是下载的30类别+background_noise。
如何找到它的V1-12,V2-12等其他版本的数据集?

  • 写回答

23条回答 默认 最新

  • 专家-赤兔[在线] 全栈领域优质创作者 2024-05-20 07:42
    关注
    获得0.45元问题酬金

    引自免费微信小程序:皆我百晓生

    要获取Google Speech Commands不同版本(如V1-12, V2-12)的数据集,你需要直接访问Google Research的GitHub仓库,因为官方并未提供通过PyTorch或者其他库直接下载特定版本数据集的选项。以下是获取不同版本数据集的步骤:

    1. 首先,打开Google Research的GitHub仓库:https://github.com/google/speech_commands

    2. 在GitHub页面上,你会看到各个版本的标签。例如,如果你想获取V1的数据集,你应该找到名为v0.01的标签,V2的数据集对应v1.0,以此类推。点击对应的标签名,例如v0.01会跳转到该版本的分支页面。

    3. 从该分支页面,找到并点击data文件夹下的speech_commands_v0.01.tar.gz(或其他类似格式的压缩包,具体取决于你要的版本)。这将开始下载这个版本的数据集。

    4. 下载完成后,解压压缩包,然后你可以按照官方提供的README文件中的指示进行预处理和使用数据集。

    如果你想要在Python环境中加载这些数据,可以参考以下代码片段。这里假设你已经将数据解压到了名为speech_commands_data的目录中,并且设置了相应的路径。注意,这个代码示例仅用于展示如何读取数据,实际应用可能需要根据你的任务需求进行调整。

    import os
    import tarfile
    import numpy as np
    from scipy.io import wavfile
    from sklearn.model_selection import train_test_split
    
    def load_audio_file(file_path):
        sampling_rate, audio_data = wavfile.read(file_path)
        return audio_data, sampling_rate
    
    def load_data(data_dir, categories):
        data = []
        for category in categories:
            for file_name in os.listdir(os.path.join(data_dir, category)):
                file_path = os.path.join(data_dir, category, file_name)
                audio_data, sampling_rate = load_audio_file(file_path)
                data.append((audio_data, sampling_rate, category))
        return data
    
    def preprocess_data(data, sample_rate=16000, window_size=0.01, window_stride=0.005):
        X = []
        y = []
        for audio_data, _, category in data:
            n_samples = int(sample_rate * window_size)
            n_step = int(sample_rate * window_stride)
            windows = np.split(audio_data, range(n_samples, len(audio_data), n_step))
            for window in windows:
                X.append(window)
                y.append(category)
        
        X = np.array(X).astype(np.float32) / 32768.0  # Normalize to [-1, 1]
        y = np.array(y)
        return X, y
    
    # 设置你的数据目录和类别列表
    data_dir = "speech_commands_data"  # 这里替换为你的解压后的数据目录
    categories = ["yes", "no", "up", "down", "left", "right", "on", "off", "stop", "go"]  # 这里设置你感兴趣的类别
    
    # 加载数据
    raw_data = load_data(data_dir, categories)
    
    # 预处理数据
    X, y = preprocess_data(raw_data)
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # 现在你可以使用X_train、y_train和X_test、y_test进行模型训练和评估了
    

    这段代码首先定义了一些辅助函数,用于加载音频文件、加载整个数据集、以及对数据进行预处理。接下来,根据你的数据目录和感兴趣的目标类别(在这个例子中是基本的语音命令),加载数据并进行预处理。最后,数据被划分为训练集和测试集,准备用于模型训练。记得根据你的项目需求修改数据预处理和模型训练部分的代码。

    展开全部

    评论 编辑记录
  • 码农阿豪@新空间 Java领域优质创作者 2024-05-20 07:43
    关注
    获得0.30元问题酬金
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    回答:
    1. 首先需要了解Google Speech Commands V1-12、V2-12等其他版本是在何时发布的,以及数据集的来源。
    2. 可以通过搜索引擎或者相关的论文、技术报告等信息途径,找到相关的发布信息和数据集下载链接。
    3. 应该优先查看相关的官方网站或者学术会议网站等可靠渠道,以免下载到不完整、有病毒或者其他安全问题的数据集。
    4. 一些公开的代码库中可能已经包含了Google Speech Commands V1-12、V2-12等其他版本的数据集,可以直接下载进行使用。 例如,如下代码可以下载Google Speech Commands V2-12版本的数据集:
    import urllib.request
    url = "http://download.tensorflow.org/data/speech_commands_v0.02.tar.gz"
    filename = "speech_commands_v0.02.tar.gz"
    urllib.request.urlretrieve(url, filename)
    

    参考资料: 1. Google Speech Commands 数据集官方网站:https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html 2. 文章:Warden, P. (2018). Speech Commands: A public dataset for single-word speech recognition, arXiv preprint arXiv:1804.03209. 3. TensorFlow 官方文档:https://www.tensorflow.org/datasets/catalog/speech_commands_v0_02

    评论
  • qq_904477151 2024-05-20 07:43
    关注
    获得0.30元问题酬金

    以下参考免费微信小程序:皆我百晓生 作答,并由妄北y整理回复。

    Google Speech Commands 数据集是用于关键词检测和语音识别的公开数据集,它包含大量的短音频片段,每个片段对应一个特定的命令词。该数据集由 Google AI 团队发布,并持续更新。

    截至我的知识截止日期(2023年),Google Speech Commands 包括以下几个版本:

    1. V0.0.1:最初的版本,包含30个类别的命令词。
    2. V0.0.2:增加了一些命令词和背景噪声。
    3. V1-12:包含12个额外的命令词和背景噪声。
    4. V2-12:又增加了12个命令词和背景噪声。

    要获取这些数据集,你可以按照以下步骤操作:

    1. 访问 Google Research 网站:首先,访问 Google Research 页面,该页面提供了关于 Google Speech Commands 数据集的详细信息。

    2. 查找数据集下载链接:在 Google Research 页面上,你应该能够找到数据集的下载链接。通常,这些链接是指向 Google Drive 的。

    3. 下载数据集:点击相应的链接,你将被重定向到 Google Drive,从那里可以下载整个数据集的压缩文件。

    4. 使用 Python 脚本下载:如果你希望使用 Python 自动下载数据集,可以编写一个简单的脚本来使用 requests 库或 wget 命令下载数据集。

      例如,使用 requests 的脚本可能如下所示:

      import requests
      
      url = 'https://storage.googleapis.com/download.tensorflow.org/data/speech_commands_v0.0.2.tar.gz'
      filename = url.split('/')[-1]
      r = requests.get(url, stream=True)
      
      with open(filename, 'wb') as f:
          for chunk in r.iter_content(chunk_size=1024):
              if chunk:
                  f.write(chunk)
      
    5. 解压缩数据集:下载完成后,解压缩文件以访问数据集。

    6. 检查数据集版本:确保你下载的是正确的版本。通常,文件名会包含版本信息。

    7. 使用 PyTorch 加载数据集:如果你希望在 PyTorch 中使用数据集,你可能需要找到或编写一个加载器,该加载器可以处理数据集的特定格式。

    请注意,数据集的可用性和链接可能会随时间变化,因此建议直接访问 Google Research 网站或联系数据集的维护者以获取最新信息。如果你在获取数据集时遇到问题,可以考虑联系 Google AI 团队或在相关论坛和社区寻求帮助。

    展开全部

    评论
  • 专家-皆知 2024-05-20 07:43
    关注
    获得0.15元问题酬金

    参考免费微信小程序:皆我百晓生 作答,经由专家-皆知整理回复,如问题解决,望采纳;如仍有疑问,请评论回复。

    要获取Google Speech Commands数据集的不同版本(如V1-12, V2-12等),虽然这些特定版本可能不如最新版那么容易直接通过链接获得,但还是有方法可以尝试访问或构建类似的数据集。以下是一些步骤和建议,帮助你找到或创建所需的版本:

    1. 官方GitHub仓库检查

    首先,访问Google Speech Commands数据集的官方GitHub仓库:https://github.com/google/speechcommands。这里通常会提供最新的数据集信息和下载链接。虽然直接获取旧版本可能不易,但仓库的历史记录或README文件可能会提及如何获取早期版本的信息。

    2. 版本控制分支或标签

    查看GitHub仓库是否有针对不同版本的分支(Branches)或标签(Tags)。有时候项目维护者会为不同的发布版本创建这些。进入仓库后,点击"releases"或者"tags"标签页查看是否有你需要的版本。

    3. 使用Wayback Machine

    如果上述方法都无法找到旧版本,可以尝试使用Wayback Machine(网页时光机):https://web.archive.org/。输入过去的下载链接或相关页面地址,看看是否能找回过去的版本。

    4. 论文引用和补充材料

    查找与这些特定版本相关的研究论文,论文中往往会有指向数据集的链接,或者在其补充材料中包含数据集。通过Google Scholar搜索关键词“Google Speech Commands V1-12”或“Google Speech Commands V2-12”,查看是否能找到含有下载信息的论文。

    5. 直接联系作者或维护团队

    如果上述方法均未奏效,最直接的方式是尝试联系数据集的维护团队或主要贡献者。可以在GitHub仓库发起一个Issue,询问关于获取特定版本数据集的方法。通常,开源社区很乐意帮助解决问题。

    6. 自建数据集

    如果最终还是无法直接获取到所需版本,考虑根据原始数据集的分类标准和处理方式,自己从现有资源中构建一个类似的数据集。这可能涉及录音、标记和分割语音样本等步骤。虽然工作量较大,但可以确保数据符合特定需求。

    注意事项

    • 在进行任何下载或使用第三方数据时,请确保遵守版权和使用条款。
    • 如果是科研用途,请在成果中适当引用原数据集及其来源。

    由于直接提供下载链接或代码不适用于这个情况,以上步骤更多是指导性的建议。希望这些建议能帮助你找到或构建所需的Google Speech Commands数据集版本。

    评论
  • 百锦再@新空间 全栈领域优质创作者 2024-05-20 07:44
    关注
    获得0.30元问题酬金

    暂时无法找到其他版本的Google Speech Commands数据集的下载链接。但是,Google Speech Commands数据集的不同版本通常是对原始数据集进行不同方式的处理或者筛选,以供不同类型的研究使用。

    例如,V1-12版本可能是对数据集进行更大规模的筛选,只选择其中的12个类别进行训练和测试。而V2-12版本可能是在V1-12的基础上进行了一些数据增强或者其他处理。不同版本的数据集可能有不同的用途和特点,需要根据具体的研究目的选择合适的版本。

    如果想要获取其他版本的Google Speech Commands数据集,建议去Google官方网站或者相关论坛查找更多信息,可能会有其他资源或者说明。


    有问题你别着急,评论留言都可以,看到马上就回复,尽量及时补充齐
    评论
  • 叫兽-郭老师 Java领域新星创作者 2024-05-20 08:24
    关注
    获得0.45元问题酬金

    获取Google Speech Commands数据集的不同版本(如V1-12, V2-12)可能需要通过不同的渠道。以下是获取这些数据集的几种方法:

    1. 官方Google Speech Commands数据集

    官方的Google Speech Commands数据集可以通过以下链接获取:

    2. 从TensorFlow数据集获取

    可以通过TensorFlow的数据集模块直接下载不同版本的Google Speech Commands数据集。

    TensorFlow Datasets (TFDS)

    使用TensorFlow Datasets下载不同版本的数据集:

    import tensorflow_datasets as tfds
    
    # 加载 V1 版本
    ds_train_v1 = tfds.load('speech_commands', split='train', version='1.0.0')
    ds_train_v2 = tfds.load('speech_commands', split='train', version='2.0.0')
    

    3. PyTorch加载自定义数据集

    如果需要在PyTorch中使用这些数据集,可以先下载数据集并解压,然后使用PyTorch的自定义数据集类加载它们。

    下载和解压数据集

    wget https://storage.googleapis.com/download.tensorflow.org/data/speech_commands_v0.01.tar.gz
    wget https://storage.googleapis.com/download.tensorflow.org/data/speech_commands_v0.02.tar.gz
    
    tar -xzvf speech_commands_v0.01.tar.gz
    tar -xzvf speech_commands_v0.02.tar.gz
    

    PyTorch自定义数据集类

    import os
    import torchaudio
    from torch.utils.data import Dataset
    
    class SpeechCommandsDataset(Dataset):
        def __init__(self, root_dir, transform=None):
            self.root_dir = root_dir
            self.transform = transform
            self.labels = os.listdir(root_dir)
            self.filepaths = []
            self.targets = []
            for idx, label in enumerate(self.labels):
                files = os.listdir(os.path.join(root_dir, label))
                for file in files:
                    self.filepaths.append(os.path.join(root_dir, label, file))
                    self.targets.append(idx)
        
        def __len__(self):
            return len(self.filepaths)
        
        def __getitem__(self, idx):
            audio_path = self.filepaths[idx]
            label = self.targets[idx]
            waveform, sample_rate = torchaudio.load(audio_path)
            if self.transform:
                waveform = self.transform(waveform)
            return waveform, label
    
    # 使用自定义数据集类加载数据集
    train_dataset_v1 = SpeechCommandsDataset(root_dir='speech_commands_v0.01')
    train_dataset_v2 = SpeechCommandsDataset(root_dir='speech_commands_v0.02')
    

    4. 从第三方资源获取

    有些第三方资源提供了不同版本的Google Speech Commands数据集的镜像或不同版本,以下是一些可能的资源:

    在这些平台上,可以找到社区共享的不同版本数据集并下载。

    通过以上方法,应该可以获取到不同版本的Google Speech Commands数据集并在PyTorch中使用。如果有其他具体问题或需要进一步帮助,请告诉我。

    展开全部

    评论
  • threenewbee 2024-05-20 08:46
    关注
    获得0.45元问题酬金
    评论
  • 喵手 2024-05-20 13:42
    关注
    获得0.30元问题酬金

    该回答引用ChatGPT辅助答疑,若有帮助,还请题主采纳。


    Google Speech Commands数据集的其他版本(如V1-12、V2-12等)可能并不是公开可用的,因为这些版本可能是由特定研究团队或机构在特定目的下创建和使用的。通常情况下,Google Speech Commands数据集的其他版本可能需要通过与数据集创建者或相关研究机构联系才能获取。

    如果您对特定版本的Google Speech Commands数据集有兴趣,我建议您通过以下途径尝试获取:

    1. 联系数据集创建者:尝试找到原始数据集的创建者或发布者,并直接联系他们,询问是否有其他版本的数据集可供使用或获取。

    2. 学术论坛和会议:参与与语音识别或关键字检测相关的学术论坛、会议或研讨会,可能会有研究人员分享或提供其他版本的数据集。

    3. 相关研究论文:查阅发表的研究论文,作者通常会在论文中指出他们使用的数据集版本,并可能会提供数据集的获取方式或联系方式。

    4. 专业社区:加入与语音识别或深度学习相关的专业社区或论坛,向其他研究人员和从业者咨询是否有其他版本的数据集可用。

    请注意,获取特定版本的数据集可能需要满足一定的条件或需支付费用,具体情况可能因数据集版本和发布者而异。同时,确保在获取和使用数据集时遵守数据集创建者的规定和条款,以确保合法、合规地使用数据。

    评论
  • Java毕设王 2024-05-20 13:55
    关注
    获得0.45元问题酬金

    引用讯飞星火
    要找到Google Speech Commands数据集的V1-12, V2-12等其他版本,您可以通过以下方法尝试获取:

    1. 访问官方资源:检查Google Speech Commands的官方网站或GitHub仓库,看是否有提供历史版本的下载链接或者更新日志,有时候会在这些地方提供不同版本的下载方式。
    2. 社区和论坛:在机器学习相关的社区和论坛中搜索,例如Reddit、Stack Overflow或者专门的数据科学社区,可能会有其他研究者分享他们之前下载的版本或者提供获取途径。
    3. 联系作者或维护者:如果上述方法无果,可以尝试直接联系数据集的作者或者维护者,询问是否可以提供旧版本的数据集。
    4. 第三方资源:有些第三方网站可能会存档不同版本的数据集,您可以在互联网上进行搜索,但请确保来源的可靠性,以免下载到错误的数据。
    5. 自行构建:如果找不到现成的旧版本数据集,您也可以考虑根据现有数据集的格式和规范自行构建或者生成需要的版本,这可能需要一些额外的工作,但可以确保数据的准确性和适用性。

    请注意,由于版权和分发协议的限制,某些版本的数据集可能不再公开可用。在使用任何数据集时,请确保遵守相应的使用条款和条件。

    评论
  • bug菌¹ Java领域优质创作者 2024-05-20 15:21
    关注
    获得0.45元问题酬金

    该回答引用ChatGPT,望对题主有所帮助/启发;若有帮助,还望采纳🤝🤝🤝


    Google Speech Commands 数据集是一个广泛使用的语音识别数据集,它专门设计用于训练和评估关键词检测系统。此数据集包含数千个不同的人说的30个类别的短单词,每个类别有65000个长度为1秒的发音样本。这些样本在训练和验证集中,背景噪声或无关语音的标签"unknown"比目标单词或背景噪声的标签更为普遍。

    要获取 Google Speech Commands 数据集的不同版本,如 V1-12 和 V2-12,您可以尝试以下方法:

    1. 官方链接

    2. TensorFlow Datasets

      • TensorFlow Datasets(TFDS)提供了一个方便的方式来加载和使用数据集。您可以使用以下命令来加载 Speech Commands 数据集:
        import tensorflow_datasets as tfds
        dataset, info = tfds.load('speech_commands', with_info=True)
        
      • TFDS 还允许您指定数据集的版本,如果可用的话。
    3. 研究论文

      • 有时候,研究论文会提供数据集的链接或者相关信息。根据 [^13^] 文章,您可以访问以下链接获取更多信息:
    4. 社区和论坛

      • 加入机器学习和深度学习的社区和论坛,如 Reddit、Stack Overflow 或专门的深度学习社区,询问其他研究人员或开发者是否有不同版本的数据集。
    5. 直接联系作者

      • 如果上述方法都无法找到所需的版本,您可以尝试直接联系数据集的作者或维护者,询问是否可以提供或指导您获取特定版本的数据集。

    请注意,数据集的使用应遵守相应的许可协议和使用条款。在使用数据集之前,请确保您了解并遵守了相关的规定。

    评论
  • 大黄鸭duck. 2024-05-21 02:53
    关注
    获得0.15元问题酬金

    结合GPT给出回答如下请题主参考
    Google Speech Commands数据集是一个广泛使用的语音识别数据集,用于识别几种简短的口语命令。该数据集包含约6,000个单词,涵盖了30个不同的类别,每个类别有约2,000个样本。这些样本由来自不同人的声音进行录制,包括男性和女性,不同年龄组和不同口音。

    获取Google Speech Commands数据集的步骤如下:

    1. 下载数据集:首先,我们需要从Google开源项目中下载Speech Commands数据集。可以通过以下链接访问数据集的Google项目页面:https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html。在该页面上,你可以下载一个zip文件,其中包含了多个数据集文件和一个CSV文件。

    2. 解压数据集:下载完成后,将zip文件解压缩到一个合适的目录中。你会发现解压后的文件夹包含了多个子文件夹,每个子文件夹对应一个类别,以及一个CSV文件,其中包含了每个样本的标签和文件路径。

    3. 读取数据集:使用Python编程语言,我们可以读取CSV文件,并获取样本的标签和文件路径。下面是示例代码:

    import csv
    
    # 数据集文件路径
    dataset_csv = 'path/to/dataset.csv'
    
    # 存储样本标签和文件路径的列表
    labels = []
    file_paths = []
    
    # 读取CSV文件
    with open(dataset_csv, 'r') as file:
        csv_reader = csv.reader(file)
        next(csv_reader)  # 跳过CSV文件的头部
        for row in csv_reader:
            label = row[0]  # 样本标签在CSV文件的第一列
            file_path = row[1]  # 文件路径在CSV文件的第二列
            labels.append(label)
            file_paths.append(file_path)
    
    # 打印前10个样本的标签和文件路径
    for i in range(10):
        print('Label:', labels[i], 'File path:', file_paths[i])
    
    1. 加载音频数据:获取到样本文件的路径后,我们可以使用音频处理库(如Librosa)加载音频数据。下面是示例代码:
    import librosa
    
    # 加载音频数据
    def load_audio(file_path):
        audio, _ = librosa.load(file_path, sr=None)
        return audio
    
    # 加载第一个样本的音频数据
    audio = load_audio(file_paths[0])
    print('Audio shape:', audio.shape)
    

    以上就是获取Google Speech Commands数据集的详细步骤和代码解释。你可以根据需要修改代码以适应你的实际情况,例如将音频数据用于建立语音识别模型训练。

    展开全部

    评论
  • 东方佑 2024-05-21 02:57
    关注
    获得0.45元问题酬金
        ```
        很抱歉,关于Google Speech Commands数据集的不同版本,比如V1-12V2-12,通常这些版本指的是数据集的不同发布或者更新。以下是如何获取这些不同版本数据集的一般建议:1. **官方渠道**:首先,你应该检查官方发布的渠道,比如GitHub仓库或者官方文档,通常这些地方会提供不同版本的下载链接。2. **版本查询**:如果官方渠道没有明确提供,你可以尝试以下方法:
    
    • 在GitHub仓库的issue跟踪或者pull请求中搜索相关信息。
    • 在相关的学术论文或者技术报告中查找引用的数据集版本,这些论文可能会提供数据集的具体链接或版本信息。3. 联系作者或贡献者:如果上述方法都没有效果,你可以尝试直接联系数据集的作者或主要贡献者,他们可能会提供帮助。以下是针对你问题的具体回答:对于Google Speech Commands数据集的不同版本,比如V1-12或V2-12:- 检查PyTorch论坛和GitHub:PyTorch社区中可能有用户分享过这些版本的数据集,或者你可以提出一个issue询问如何获取。
    • 使用命令行工具:如果数据集可以通过命令行工具下载,你可以检查是否有命令参数支持选择不同的版本。- 直接下载:如果数据集的不同版本有独立的下载链接,你可能需要找到这些链接。这通常可以在数据集的官方文档或者相关研究论文中找到。以下是一个可能的Python代码片段,展示了如何在PyTorch中尝试检查数据集版本:python import torch from torchvision import datasets# 尝试查看是否支持版本选择 speech_commands = datasets.SPEECHCOMMANDS(root='./data', download=True, version='V2-12') # 仅供参考,实际代码可能不同 注意:在实际操作中,你可能需要替换上述代码中的 'version' 参数为实际支持的参数。如果以上方法都无法获取你需要的版本,可能需要考虑是否有权限限制或版权问题。确保在获取和使用数据集时遵守所有相关的法律和规定。
        ```
        
      
    评论
  • yy64ll826 2024-05-21 09:17
    关注
    获得0.15元问题酬金
    评论
  • giser@2011 2024-05-21 15:40
    关注
    获得0.15元问题酬金

    参考GPT

    确实,Google Speech Commands数据集最初包含V0,V1,V2等多个版本,每个版本包含不同的类别和样本。但是目前,官方提供的数据集下载链接只包含了30个类别+background_noise。

    如果您需要获取其他版本(例如V1-12,V2-12等)的Google Speech Commands数据集,可以尝试以下方法:

    1. 使用备份和镜像:一些开发者可能在其个人或公共存储库中备份了早期版本的Google Speech Commands数据集。您可以在GitHub、GitLab等代码托管平台中搜索特定的数据集版本,看看是否有相关的存储库可用。

    2. 联系数据集维护者或数据集作者:您可以尝试直接联系Google Speech Commands数据集的维护者或数据集的作者。您可以通过他们的研究论文、个人网站或其他公开渠道找到他们的联系方式,并询问是否能够获得特定版本的数据集。

    3. 参加相关的研究论坛和会议:关注关键字检测领域的学术论坛和会议,例如ICASSP、ICCV、ACL等。在这些会议上,研究者通常会分享他们的研究成果,包括使用不同版本Google Speech Commands数据集的论文和代码。您可以查看相关的研究论文、工作坊或演示,并尝试联系相应的作者。

    4. 使用其他类似的数据集:如果您无法获取特定版本的Google Speech Commands数据集,可以尝试其他类似的语音数据集。例如,Common Voice数据集是Mozilla开发的一个包含多种语言的开放数据集,可以用于关键字检测等任务。

    请注意,虽然早期版本的Google Speech Commands数据集可能更具历史和研究价值,但数据集的使用和共享可能受到特定版本的许可证限制。在获取和使用数据集时,请始终遵循适用的许可证和法律规定,确保合法和合规。

    评论
  • CyMylive. Python领域新星创作者 2024-05-22 23:05
    关注
    获得0.30元问题酬金

    结合GPT给出回答如下请题主参考
    Google Speech Command 数据集是一个用于语音识别的开源数据集,包含了 30 个常见的英语单词(例如“yes”和“no”),每个单词都有约 4000 个样本。在本文中,我们将详细介绍如何获取和使用这个数据集。

    首先,我们需要引入一些必要的库和工具。我们将使用 TensorFlow 来处理数据集和构建模型,还会使用 librosa 来处理音频文件。

    import tensorflow as tf
    import numpy as np
    import os
    import librosa
    import librosa.display
    

    Google Speech Command 数据集的原始数据可以从 TensorFlow 官方 GitHub 仓库中获取,链接为 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/speech_commands。你可以使用 git clone 命令将整个仓库下载到本地。

    $ git clone https://github.com/tensorflow/tensorflow.git
    

    下载完成后,我们可以在 tensorflow/examples/speech_commands 目录下找到数据集文件夹 speech_commands。在这个文件夹中,每个单词的样本都存储在一个单独的文件夹中,例如 yes 文件夹中包含了所有关于“yes”这个单词的音频文件。

    由于原始数据集中的音频文件格式是 wav,我们需要将其转换为数值数据来进行后续处理。下面的代码演示了如何读取音频文件并将其转换为音频数据和采样率。

    def load_audio_file(file_path):
        data, sr = librosa.load(file_path, sr=None)
        return data, sr
    

    接下来,我们需要遍历每个单词的文件夹,并将每个音频文件的数据和对应的标签存储在一个列表中。我们将为每个单词分配一个数字标签,例如 “yes” 是 0,”no“ 是 1。

    data = []
    labels = []
    words = ['yes', 'no', 'up', 'down', 'left', 'right', 'on', 'off', 'stop', 'go']
    
    for word in words:
        word_path = os.path.join("speech_commands", word)
        for file in os.listdir(word_path):
            file_path = os.path.join(word_path, file)
            audio_data, sr = load_audio_file(file_path)
            data.append(audio_data)
            labels.append(words.index(word))
    

    在加载所有音频文件后,我们可以使用 TensorFlow 的 train_test_split 函数将数据集划分为训练集和测试集。我们还可以使用 tf.data.Dataset 来对训练集进行处理和批量化。

    data_train, data_test, labels_train, labels_test = train_test_split(data, labels, test_size=0.2)
    
    dataset_train = tf.data.Dataset.from_tensor_slices((data_train, labels_train))
    dataset_train = dataset_train.batch(32)
    

    现在,我们已经完成了数据集的获取和处理。接下来,我们可以构建模型来进行训练和测试。这里我们使用了一个简单的卷积神经网络(CNN)模型。

    model = tf.keras.Sequential([
        tf.keras.layers.Conv1D(16, 3, activation='relu', input_shape=(sr, 1)),
        tf.keras.layers.MaxPooling1D(2),
        tf.keras.layers.Conv1D(32, 3, activation='relu'),
        tf.keras.layers.MaxPooling1D(2),
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(64, activation='relu'),
        tf.keras.layers.Dense(len(words), activation='softmax')
    ])
    

    最后,我们可以使用 model.fit 函数对模型进行训练,并使用测试集评估模型的性能。

    model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
    model.fit(dataset_train, epochs=10)
    
    predictions = model.predict(data_test)
    accuracy = np.mean(np.argmax(predictions, axis=1) == labels_test)
    print("Test Accuracy:", accuracy)
    

    到此为止,我们已经完成了 Google Speech Command 数据集的获取和使用。希望通过这篇文章,你能够了解如何获取和处理语音识别数据集,并且能够构建一个简单的模型对其进行训练和测试。

    展开全部

    评论
  • Hi 小朋友 2024-05-27 01:37
    关注
    获得0.15元问题酬金
    评论
  • 杨同学* 2024-05-27 11:51
    关注
    获得0.30元问题酬金

    参考gpt
    要获取 Google Speech Commands 数据集的其他版本(如 V1-12、V2-12 等),你可能需要通过其他渠道或者第三方提供者来获取。Google Speech Commands 数据集最初发布于2017年,后续可能有一些版本更新或者扩展。

    以下是一些可能的途径来获取不同版本的 Google Speech Commands 数据集:

    1. 查找学术论文

      • 尝试查找与 Google Speech Commands 数据集相关的学术论文或研究文章。在这些论文中,作者通常会说明他们使用的数据集版本以及数据集的来源。
    2. GitHub 仓库

      • 在 GitHub 上搜索与 Google Speech Commands 相关的项目或仓库,有时会有人分享或提供不同版本的数据集下载链接。
    3. 联系数据集作者

      • 尝试联系 Google Speech Commands 数据集的原始作者或相关研究团队,询问是否有其他版本的数据集可供获取。
    4. 研究机构和大学网站

      • 检查一些研究机构或大学的网站,有时它们会提供相关数据集的下载或者数据共享的信息。
    5. 社区论坛和平台

      • 参与深度学习或人工智能领域的社区论坛,向其他研究者和开发者询问是否有其他版本的 Google Speech Commands 数据集可用。

    请注意,获取数据集时务必遵守数据集的许可协议和规定,确保合法使用数据集并尊重数据集的权利和来源。如果无法找到其他版本的 Google Speech Commands 数据集,你可能需要考虑使用其他类似的数据集来进行实验和研究。

    评论
  • Minuw 2024-05-27 15:00
    关注
    获得0.30元问题酬金

    参考gpt
    对于Google Speech Commands数据集的其他版本(如V1-12,V2-12等),您可能需要更深入地搜索或者尝试以下方法:

    1. Google AI 数据集搜索:您可以尝试在Google AI数据集搜索中搜索相关的数据集版本。有时候Google会在其数据集存储库中发布不同版本的数据集。您可以尝试搜索"Google Speech Commands V1-12"或者其他版本的关键词来查找更多信息。

    2. Academic Torrents:Academic Torrents(https://academictorrents.com/)是一个面向学术研究的种子下载平台,您可以在上面搜索不同版本的Google Speech Commands数据集。可能会有用户分享较早版本的数据集。

    3. GitHub:有时候数据集的先前版本可能会被热心的研究人员分享在GitHub上。您可以在GitHub上尝试搜索关于Google Speech Commands数据集的存储库,并查看是否有人分享过旧版本的数据集。

    4. 学术论文:搜索学术文献中关于Google Speech Commands数据集的论文,有时候这些论文中会提供旧版本数据集的下载链接或者说明如何获取旧版本数据集。

    5. 联系数据集提供方:如果您能找到Google Speech Commands数据集的提供方或者相关负责人的联系方式,不妨直接询问是否可以获取旧版本的数据集。他们可能会提供帮助或指导您获取需要的版本。

    以上这些方法可能有助于您找到Google Speech Commands数据集的其他版本。希望能帮到您,祝您顺利找到需要的数据集版本!如果您有其他问题或需要更多帮助,请随时告诉我。

    评论
  • GIS工具开发 2024-05-27 15:22
    关注
    获得0.15元问题酬金

    访问数据集的 GitHub 页面

    评论
  • 会跑的小鹿 2024-05-27 15:22
    关注
    获得0.15元问题酬金

    访问 Google AI 研究博客

    评论
  • 阿里嘎多学长 2024-05-20 07:42
    关注

    以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳:


    您想要解决的问题:

    您提问的目的是要解决如何获取Google Speech Commands数据集的V1-12、V2-12等其他版本的问题。

    问题出现原因:

    这个问题出现的原因可能是Google Speech Commands数据集的某些版本没有直接在官方链接或者通过PyTorch等框架提供的下载方式中明确列出,导致用户难以找到这些特定版本的数据集。

    问题解决方案:

    1. 访问Google Speech Commands的官方网站:通常,数据集的官方网站会提供不同版本的下载链接。
    2. 查阅相关文献和研究论文:研究者可能会在他们的论文中提及如何获取这些数据集。
    3. 社区和论坛:在机器学习和深度学习的社区和论坛中询问,例如Reddit、Stack Overflow等。
    4. 联系数据集的维护者或作者:如果上述方法都无法找到,可以尝试直接联系数据集的维护者或作者。

    提供代码:

    由于这个问题是关于数据集的获取,而不是编程或代码问题,因此不需要提供代码。

    代码运行方式:

    不适用。

    代码预期运行结果:

    不适用。

    推荐相关链接:

    1. Google Speech Commands 官方GitHub仓库
    2. Google AI Blog 关于Google Speech Commands的介绍
    3. PyTorch论坛
    4. Reddit机器学习板块
    5. Stack Overflow

    请注意,访问这些链接可能需要您自行搜索和判断是否包含您需要的版本信息。如果这些链接中没有提供所需的信息,您可能需要进一步探索其他资源或直接联系数据集的维护者。

    评论 编辑记录
  • 关注

    下午好🌅🌅🌅
    本答案参考ChatGPT-3.5

    要找到Google Speech Commands数据集的其他版本,可以按照以下步骤进行操作:

    1. 访问 TensorFlow 官方数据集页面:https://www.tensorflow.org/datasets/catalog/speech_commands

    2. 在页面上找到关于 Google Speech Commands 数据集的信息。其中包括数据集的名称、版本、描述等。

    3. 找到你需要的版本,例如 V1-12 或 V2-12。

    4. 点击版本名称旁边的链接即可下载数据集。这将提供一个 .tar.gz 文件,可以用常规的文件提取工具解压缩它。

    例如,要获取 Google Speech Commands V1-12 数据集,可以按照以下步骤进行操作:

    1. 访问 TensorFlow 官方数据集页面:https://www.tensorflow.org/datasets/catalog/speech_commands

    2. 找到 Google Speech Commands V1-12 数据集。

    3. 在版本名称旁边的链接上点击鼠标右键,在弹出的选项中选择“复制链接地址”。

    4. 在终端中使用 wget 命令下载数据集,将刚刚复制的链接地址替换成 V1-12 版本的链接地址,例如:

      wget http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
      
    5. 使用文件提取工具解压缩压缩包,即可获取数据集。

    需要注意的一点是,目前建议大家使用最新版的 Google Speech Commands 数据集,即 30 类别+background_noise 的数据集。由于 V1-12 和 V2-12 等旧版本的数据集的语音质量和标记质量都比较低,因此建议大家尽可能使用新版数据集来训练模型。

    评论
  • 阿齐Archie 嵌入式领域优质创作者 2024-05-20 07:43
    关注

    以下参考免费微信小程序:皆我百晓生 作答,并由阿齐Archie整理回复,若还有疑问可评论或留言。

    Google Speech Commands 数据集是一个用于训练和测试关键词检测模型的公共数据集,它包含了数千个简短的音频命令。这个数据集通常包含30个类别的音频,但还有其他版本,例如 V1-12 和 V2-12,这些版本包含更多的类别和/或不同的命令。

    要获取这些额外版本的数据集,你可以按照以下步骤进行:

    1. 访问 Google AI 研究博客: 在 Google AI 研究博客上,你可以找到 Google Speech Commands 数据集的介绍和相关链接。访问 Google AI Research blog 并搜索 "Speech Commands"。

    2. 查找发布论文或文章: 通常,Google AI 会在相关的学术会议或期刊上发布有关新数据集或数据集更新的论文。你可以查找这些论文,并在论文中找到数据集的链接。

    3. 访问数据集的 GitHub 页面: Google Speech Commands 数据集在 GitHub 上有官方仓库,你可以在这里找到数据集的详细信息和下载链接。访问 Google Speech Commands GitHub repository

    4. 查找数据集的额外版本: 在 GitHub 页面上,你可能需要查看 Issues 或 Discussions 部分,看看是否有人请求或讨论过额外版本的数据集。有时候,这些额外版本可能不是公开可用的,或者需要特定的许可。

    5. 联系 Google AI 团队: 如果你在上述步骤中没有找到所需的信息,你可以尝试直接联系 Google AI 团队。他们可能会提供额外版本的数据集,或者告诉你如何获取。

    6. 使用学术搜索平台: 使用 Google Scholar 或其他学术搜索平台搜索相关的研究论文,这些论文可能会引用或提供额外版本的数据集。

    7. 参与相关社区和论坛: 参与机器学习和语音识别相关的社区和论坛,如 Reddit 的 r/MachineLearning 或 r/DeepLearning,这些社区中可能有其他研究人员分享他们是如何获取额外版本的数据集的信息。

    请注意,获取额外版本的数据集可能需要遵循特定的使用条款和条件,确保你在使用数据集之前了解并遵守这些规定。如果数据集是受限的,你可能需要申请访问权限或满足某些条件才能获得数据集。

    评论
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 5月27日
  • 创建了问题 5月20日
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部