代码链接:https://github.com/jimmy-dq/DropMAE
项目结构:
README.MD:
预训练模型命令(README.MD给出的)
python -m torch.distributed.launch --nproc_per_node=8 --nnodes=8 \
--node_rank=$INDEX --master_addr=$CHIEF_IP --master_port=1234 main_pretrain_kinetics.py --batch_size 64 \
--model mae_vit_base_patch16 \
--norm_pix_loss \
--mask_ratio 0.75 \
--epochs 400 \
--warmup_epochs 40 \
--blr 1.5e-4 \
--weight_decay 0.05 \
--P 0.1 \
--frame_gap 50 \
--data_path $data_path_to_k400_training_videos \
--output_dir $output_dir \
--log_dir $log_dir
我填写的:
python -m torch.distributed.launch --nproc_per_node=8 --nnodes=8 --node_rank=0 --node_rank=1 --node_rank=2 --node_rank=3 --node_rank=4 --node_rank=5 --node_rank=6 --node_rank=7 --master_addr=127.0.0.1 --master_port=1234 main_pretrain_kinetics.py --batch_size 64 --model mae_vit_base_patch16 --norm_pix_loss --mask_ratio 0.75 --epochs 400 --warmup_epochs 40 --blr 1.5e-4 --weight_decay 0.05 --P 0.1 --frame_gap 50 --data_path kinetics700_2020 --output_dir output --log_dir log --accum_iter
报错:
为什么连接失败,试过开启端口,还是不行。请问是什么参数填错了吗?