TBSI项目复现过程的问题


(tbsi) aust-ai@amax:~/TBSI$ python tracking/train.py --script tbsi_track --config vitb_256_tbsi_32x4_4e4_lasher_15ep_in1k --save_dir ./output/vitb_256_tbsi_32x4_4e4_lasher_15ep_in1k --mode multiple --nproc_per_node 4
/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/launch.py:181: FutureWarning: The module torch.distributed.launch is deprecated
and will be removed in future. Use torchrun.
Note that --use-env is set by default in torchrun.
If your script expects `--local-rank` argument to be set, please
change it to read from `os.environ['LOCAL_RANK']` instead. See 
https://pytorch.org/docs/stable/distributed.html#launch-utility for 
further instructions

  warnings.warn(
WARNING:torch.distributed.run:
*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
*****************************************
usage: run_training.py [-h] --script SCRIPT --config CONFIG [--cudnn_benchmark CUDNN_BENCHMARK]
                       [--local_rank LOCAL_RANK] [--save_dir SAVE_DIR] [--seed SEED] [--use_lmdb {0,1}]
                       [--script_prv SCRIPT_PRV] [--config_prv CONFIG_PRV] [--use_wandb {0,1}]
                       [--distill {0,1}] [--script_teacher SCRIPT_TEACHER] [--config_teacher CONFIG_TEACHER]
run_training.py: error: unrecognized arguments: --local-rank=0
usage: run_training.py [-h] --script SCRIPT --config CONFIG [--cudnn_benchmark CUDNN_BENCHMARK]
                       [--local_rank LOCAL_RANK] [--save_dir SAVE_DIR] [--seed SEED] [--use_lmdb {0,1}]
                       [--script_prv SCRIPT_PRV] [--config_prv CONFIG_PRV] [--use_wandb {0,1}]
                       [--distill {0,1}] [--script_teacher SCRIPT_TEACHER] [--config_teacher CONFIG_TEACHER]
run_training.py: error: unrecognized arguments: --local-rank=3
usage: run_training.py [-h] --script SCRIPT --config CONFIG [--cudnn_benchmark CUDNN_BENCHMARK]
                       [--local_rank LOCAL_RANK] [--save_dir SAVE_DIR] [--seed SEED] [--use_lmdb {0,1}]
                       [--script_prv SCRIPT_PRV] [--config_prv CONFIG_PRV] [--use_wandb {0,1}]
                       [--distill {0,1}] [--script_teacher SCRIPT_TEACHER] [--config_teacher CONFIG_TEACHER]
run_training.py: error: unrecognized arguments: --local-rank=2
usage: run_training.py [-h] --script SCRIPT --config CONFIG [--cudnn_benchmark CUDNN_BENCHMARK]
                       [--local_rank LOCAL_RANK] [--save_dir SAVE_DIR] [--seed SEED] [--use_lmdb {0,1}]
                       [--script_prv SCRIPT_PRV] [--config_prv CONFIG_PRV] [--use_wandb {0,1}]
                       [--distill {0,1}] [--script_teacher SCRIPT_TEACHER] [--config_teacher CONFIG_TEACHER]
run_training.py: error: unrecognized arguments: --local-rank=1
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 2) local_rank: 0 (pid: 3292375) of binary: /home/aust-ai/.conda/envs/tbsi/bin/python
Traceback (most recent call last):
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/runpy.py", line 194, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/runpy.py", line 87, in _run_code
    exec(code, run_globals)
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/launch.py", line 196, in <module>
    main()
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/launch.py", line 192, in main
    launch(args)
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/launch.py", line 177, in launch
    run(args)
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/run.py", line 785, in run
    elastic_launch(
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/launcher/api.py", line 134, in __call__
    return launch_agent(self._config, self._entrypoint, list(args))
  File "/home/aust-ai/.conda/envs/tbsi/lib/python3.8/site-packages/torch/distributed/launcher/api.py", line 250, in launch_agent
    raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 
============================================================
lib/train/run_training.py FAILED
------------------------------------------------------------
Failures:
[1]:
  time      : 2025-08-05_17:38:23
  host      : amax
  rank      : 1 (local_rank: 1)
  exitcode  : 2 (pid: 3292376)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[2]:
  time      : 2025-08-05_17:38:23
  host      : amax
  rank      : 2 (local_rank: 2)
  exitcode  : 2 (pid: 3292377)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
[3]:
  time      : 2025-08-05_17:38:23
  host      : amax
  rank      : 3 (local_rank: 3)
  exitcode  : 2 (pid: 3292378)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
------------------------------------------------------------
Root Cause (first observed failure):
[0]:
  time      : 2025-08-05_17:38:23
  host      : amax
  rank      : 0 (local_rank: 0)
  exitcode  : 2 (pid: 3292375)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
============================================================
(tbsi) aust-ai@amax:~/TBSI$

在复现TBSI项目的时候，一开始提示PyTorch版本和服务器的4090不兼容，然后pytorch升级到2.0.1后，就开始这样报错了，用改之后还是一直报错，有同志帮忙解决一下吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
紫雾凌寒新星创作者: 人工智能技术领域 2025-08-05 17:47
关注
让 “紫雾凌寒” 来帮你回答,本回答结合 DeepSeek

如果还有问题，请评论或点击头像私信，如果有帮助到您, 请关注、采纳、点赞

关键点分析：
- 这是一个在TBSI项目复现过程中执行特定训练脚本的命令。
- 命令行中指定了使用Python运行tracking/train.py脚本，并通过--script参数指定为tbsi_track，通过--config参数指定了配置文件为vitb_256_tbsi_32x。
- 可能出现的问题包括：脚本本身存在语法错误、配置文件格式不正确、依赖的库未安装或版本不兼容等。

解决方案：
- 检查脚本语法：

打开tracking/train.py文件，仔细检查代码是否存在语法错误。例如，是否有未闭合的括号、引号不匹配等问题。可以使用Python的语法检查工具，如flake8等（如果已安装）。
检查配置文件：
确认vitb_256_tbsi_32x配置文件的格式是否正确。它可能是某种特定格式的配置文件，例如JSON、YAML等。
检查配置文件中的参数是否正确，是否与脚本中的参数解析逻辑相匹配。例如，如果配置文件中指定了某些模型参数，脚本是否正确读取并使用这些参数。
检查依赖库：
确保运行该脚本所需的所有依赖库都已安装。可以查看项目的文档，了解具体需要哪些库。
例如，如果项目依赖于特定版本的torch，可以使用以下命令检查torch的安装情况：
python import torch print(torch.__version__)
如果依赖库未安装，可以使用pip进行安装。例如，如果需要安装numpy库，可以运行pip install numpy。
调试输出：
在脚本中添加一些调试输出语句，例如在关键的函数调用或参数处理处打印相关信息。
例如，在tracking/train.py中可以添加：
```python
import sys

def main():
print(“Starting to process the script with config:”, sys.argv)
# 原有代码
if name == “main”:
main()
`` - 这样可以在运行命令时看到传入脚本的参数等信息，帮助定位问题。 3. **多种解决方案的优缺点**： - **检查脚本语法**： - **优点**：简单直接，能快速发现明显的语法错误，是解决问题的基础步骤。 - **缺点**：对于复杂的逻辑错误难以发现，需要对代码逻辑有一定理解。 - **检查配置文件**： - **优点**：配置文件错误是常见问题，仔细检查能快速定位问题所在，尤其是配置参数与脚本逻辑不匹配的情况。 - **缺点**：如果配置文件格式复杂，可能需要花费较多时间理解其结构和参数含义。 - **检查依赖库**： - **优点**：确保运行环境正确，能解决因库缺失或版本不兼容导致的问题。 - **缺点**：可能需要安装多个库，并且在不同环境中安装库可能会遇到权限等问题。 - **调试输出**： - **优点**：能直观看到脚本运行时的参数传递等情况，有助于快速定位问题在哪个环节出现。 - **缺点**：需要修改脚本代码，可能会影响脚本的原始结构，并且如果调试输出过多可能会干扰正常运行日志。 4. **总结**： - 针对运行python tracking/train.py –script tbsi_track –config vitb_256_tbsi_32x`出现的问题，首先从代码语法、配置文件、依赖库以及调试输出等方面进行排查。通过逐步检查这些方面，能够较为全面地找出导致问题的原因，进而解决在TBSI项目复现过程中遇到的运行错误。

希望以上解答对您有所帮助。如果您有任何疑问，欢迎在评论区提出。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

2020年清华伯克利（TBSI）预推免面经
2020-09-20 14:14

fwhdzh的博客不过对于报名了像我这样报名了博士项目的，基本上只要和意向老师在夏令营期间多交流一下就基本上都能拿到。但是一般老师会要求接下来的暑假去TBSI实习，我因为大三暑假还有一门实训必修课没法去。如果去了的话，有w...
清深TBSI夏令营&推免经验分享 | SIGC学硕唯一方向，全英面试
2024-10-28 19:56

十一酱酱（接保研辅导版）的博客 Hi，我是十一酱酱~TBSI是清华-深圳唯一的SIGC学术硕士方向，整个项目全英面试及授课，对英语口语要求较高。我两次参与夏令营和预推免，积累不少经验，希望能为大家提供帮助。
我的2020推免之路：清叉、TBSI、贵系、中山、国防科大、自动化所
2020-09-29 16:29

Jone.D的博客我的2020推免之路：清叉、TBSI、贵系、中山、国防科大、自动化所一.前言二.个人情况三.夏令营清华大学交叉信息学院（6.13~6.14）清华-伯克利深圳学院（7.2~7.9）清华大学计算机系（7.8~7.9）中山大学数据科学与...
福利！腾讯AI Lab与TBSI邀您向9位美国院士及专家提问
2018-03-22 00:00

腾讯AI实验室的博客一个与美国国家工程院院士近距离交流的机会来了 ...
交通流特征工程小技巧与思考
2021-09-17 15:16

Late May的博客小编最近参与了一些工程方面的工作，感触颇深，也逐渐意识到了一些做工程和做研究的区别，作为一个OR人，当面对工程问题时，ML也不得不被提上日程，对于一个OR的研究来说，很多参数可以假设，只需合理，但在工程中就...
图解剖析CPU架构和生产全过程
2019-06-23 07:33

架构师技术联盟的博客科学Sciences导读：图解CPU生产全过程——以intel CORE i7为例，展望CPU架构。本文简介英特尔Intel x86架构、生产制造CPU的原料和准备、CP...
oracle返回list,oracle存储过程如何返回list,并用jdbc调用
2021-05-06 08:56

weixin_39952800的博客 oracle没有直接的返回List的方法，这里需要有包定义一个Cursor(游标)的返回类型。下面是我在计算收益率的一段代码，只做参考。oracle包的写法如下：CREATE OR...PROCEDURE getRtnListByPid_proc (p_pid IN tbsi_ante...
每日一练--IT冷知识&C/C++--第八天
2022-08-30 10:27

兔子递归的博客【问题描述】输入一组无序的整数，编程输出其中出现次数最多的整数及其出现次数。【输入形式】先从标准输入读入整数的个数（大于等于1，小于等于100），然后在下一行输入这些整数，各整数之间以一个空格分隔。 ...
顶刊TPAMI 2025！清华&西电提出跨模态蒸馏方法，刷新多模态跟踪性能！
2025-09-16 01:06

Amusi（CVer）的博客以模板分支为例，首先计算学生模型融合特征与教师模型交互特征之间的融合蒸馏损失：硬焦点响应蒸馏（HFRD）：为缓解数据不平衡问题，提出硬聚焦响应蒸馏（HFRD）模块，指导学生模型专注于从困难负样本中区分目标。...
全英文面试，清华伯克利-深圳学院夏令营开启报名
2022-06-16 14:23

Baoyan_cs的博客岛主划重点 1、报名开始时间为2022年6月1日，报名截止时间为6月23日上午12:00，夏令营活动时间开始时间为7月6日-7日。2、成绩要求为：“符合推荐-免试条件的重点高校本科在读...由于TBSI三分之一来的师资自伯克利加州
5分钟上手fastfetch：TPM安全检测功能深度解析
2025-09-04 07:45

姚月梅Lane的博客 1.2/2.0 Windows tpm_windows.c WMI接口 1.2/2.0 macOS tpm_apple.c IOKit框架 2.0 BSD tpm_bsd.c dev接口 2.0 常见问题解决错误："TPM is not supported by kernel" Linux用户需确认内核模块加载： lsmod | grep ...
oracle存储过程如何返回list,并用jdbc调用
2015-09-16 15:58

威哥V5的博客 p_pid IN tbsi_ante_port.p_id%TYPE, x_rs OUT mycursor ); END CAL_RTN_PACK; create or replace package body cal_rtn_pack is PROCEDURE getRtnListByPid_proc ( ...
大学之大：东京工业大学2025.4.19
2025-04-19 01:04

mozun2020的博客这种跨学科的科研投入不仅促进了学科间的融合，也为解决复杂的现实问题提供了新的思路和方法。这种广泛而深入的国际合作不仅提升了东京工业大学的全球影响力，也为学校的创新研究和人才培养提供了新的动力和机遇。...
【25考研】也很难！清华大学计算机考研复试难度分析！
2025-01-18 22:44

计软考研大C哥的博客报考同一院校的考生面试可能会在不同的考场，面试的问题包括中文面试、英文面试等，所以可能会分考场进行考核，且有抽签答题，随机提问的可能。比如复试环节里提到了。特南鲍姆清华大学出版社第五版。
LTE通信学习协议解读(R14)——PUSCH流程如何确定调制阶数、冗余版本和TB size
2024-07-08 20:33

派大星我们去抓水母的博客 UE根据接收到的DCI format 0/4来确定对应的PUSCH传输使用调制阶数（modulation order）、冗余版本（redundancy version）以及TB size。TBS越大，码率越高，码率一般不能超过1。
清华大学计算机考研资料汇总
2022-07-30 11:14

N诺计算机考研的博客组成原理和网络这两门的复习压力相对于前两门要小一些，按照408复习还是可以解决一部分的问题的。其他参考往年真题与慕课上的课后习题。注：912每一年出题老师都不一样，因此912自诞生之日起，其题型至今仍没有固定...
68、已知药物与靶点间未知相互作用的预测
2025-08-22 02:21

life6的博客药物研发过程中，准确预测药物与靶点之间的相互作用至关重要，但传统方法在精度和召回率上仍存在不足。本方法通过整合不同数据集并应用矩阵补全技术，有效解决了相似性度量选择和数据稀疏性问题。实验结果表明，该...
末9边缘人计算机保研经历
2021-10-16 15:18

罗weiwei的博客这里写自定义目录标题欢迎使用Markdown编辑器西交计算机TBSI华东师范大学软件中山计算机7.5号收到了上交电院微纳电子系计算机专业的夏令营通知功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入...
2024届CS末九保研经验贴（南大、中科大、武大、川大、东南、国防科大、浙大、华科）
2024-01-10 11:03

Lieb_Mark的博客面试后不仅要总结知识的疏漏，还要发现自己语言表达、心态、应变能力等方面的问题。就我自己而言，大概两三次后基本可以从容面对后面的面试。可以投一些不重要的、线上的学校进行练手。四、心得体会 1、一定要海投...
通信算法之九十五：4G LTE通信系统 PDSCH信道处理流程
2022-11-11 10:35

秋风战士的博客 TBD
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月5日

TBSI项目复现过程的问题

4条回答 默认 最新

问题事件

4条回答默认最新