Eric12219180 2023-01-17 10:04 采纳率: 64.7%
浏览 40
已结题

如何從metadata.csv載入全部的CBIS-DDSM資料?

img


如图, 我用NBIA Data Retriever下载了整个163GB的 CBIS-DDSM dataset, 它里面有附一个metadata.csv.
我想, 应该是要用它来开启图像文件吧?? CSV档如下

img

img


可以提供我一些通过metadata.csv load 全部图像文件(163GB)的python code吗??

 • 写回答

3条回答 默认 最新

 • 哇小侠 2023-01-19 00:14
  关注

  CBIS-DDSM (Curated Breast Imaging Subset of DDSM) 是一组包含乳腺 X 射线和 MRI 图像的数据集,metadata.csv 文件包含了这些图像的元数据,如文件名、分类标签等。

  如果要从 metadata.csv 中载入全部的 CBIS-DDSM 数据,可以使用以下步骤:

  使用 pandas 库读取 metadata.csv 文件,将数据存储到一个 DataFrame 中,如下所示:

  import pandas as pd
  
  metadata = pd.read_csv('metadata.csv')
  
  

  可以通过从 DataFrame 中选择需要的特定列来获取元数据信息。例如,可以通过下面的代码来获取所有图像的文件名:

  file_names = metadata['file_name']
  
  

  根据文件名读取图像文件。对于 CBIS-DDSM 数据集,图像文件可能是 DICOM 格式,可以使用 pydicom 库来读取 DICOM 文件。

  import pydicom
  
  image = pydicom.dcmread(file_names[0]) #example
  
  

  可以通过接着遍历文件名的列表来读取所有的图像文件。

  可以使用其他列的数据来对图像进行分类和标记,如下面的代码所示:

  class_label = metadata['class']
  image_id = metadata['image_id']
  
  

  如此,就可以完成通过metadata.csv载入全部CBIS-DDSM数据的操作。注意在读取图像文件时,需要指定正确的文件路径。

  另外,在使用这些数据进行训练或其他操作之前,还需要进行数据预处理和格式转换等操作。

  本回答被题主选为最佳回答 , 对您是否有帮助呢?
  评论
 • cjh4312 2023-01-17 10:18
  关注

  这么大,肯定很难打开,把文件分割开来

  import pandas as pd
  dd = pd.read_csv('大文件.csv', sep=',', chunksize=20000)
  for i, chunk in enumerate(dd):
    chunk.to_csv(str(i) + '.csv', index=False)
  
  
  
  评论
 • 阳光宅男xxb 2023-01-17 10:20
  关注

  metadata.csv里面是对cbis-ddsm数据集的数据描述,具体的数据还是在上面那个ddsm文件夹中,你可以通过metadata.csv文件筛选你要的数据,然后去ddsm那个文件夹下读取对应的数据文件,具体如何处理和展现ddsm数据,可以参考:
  https://aistudio.baidu.com/aistudio/projectdetail/3493509

  评论
查看更多回答(2条)

报告相同问题?

问题事件

 • 系统已结题 1月30日
 • 已采纳回答 1月22日
 • 创建了问题 1月17日

悬赏问题

 • ¥15 QT 实现 RSTP 语音对讲功能
 • ¥50 AES魔改之后的安全性关于PRF(相关搜索:密码学)
 • ¥15 有没有谁能高分通过 reCaptcha v3验证,国外网站。有兴趣留言,有偿。
 • ¥15 用C语言写的一个程序遇到了两个问题第一是偏移正确但读取不到坐标,第二个问题是自己定义的函数实现不了获取指定进程模块。
 • ¥15 在安装Anaconda时总是闪退怎么办?
 • ¥15 对图中电路进行以下几个方面的分析
 • ¥15 对图中电路进行以下几个方面的分析
 • ¥15 对图中电路进行以下几个方面的分析
 • ¥15 对图中电路进行以下几个方面的分析
 • ¥500 抖音主页视频预存加载卡bug