Revert change of batch size in SSD LT3 to 64 due to convergence problem (#5846)

JanuszL · web-flow · commit a9745a7deb3f · 2025-03-10T18:07:21.000+01:00
Signed-off-by: Janusz Lisiecki &lt;jlisiecki@nvidia.com&gt;
diff --git a/qa/TL3_SSD_convergence/test_pytorch.sh b/qa/TL3_SSD_convergence/test_pytorch.sh
@@ -5,6 +5,7 @@ set -o errexit
 set -o pipefail
 
 function CLEAN_AND_EXIT {
+    ((IS_TMP_DIR)) && rm -rf ${DATA_DIR}
     exit $1
 }
 
@@ -42,8 +43,7 @@ export NCCL_NVLS_ENABLE=0
 
 # Prevent OOM due to fragmentation on 16G machines
 export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:4096
-torchrun --nproc_per_node=${NUM_GPUS} main.py --backbone resnet50 --warmup 300 --bs 256 --eval-batch-size 8 --data /coco --data ${DATA_DIR} --data_pipeline dali --target 0.25 2>&1 | tee $LOG
-((IS_TMP_DIR)) && rm -rf ${DATA_DIR}
+torchrun --nproc_per_node=${NUM_GPUS} main.py --backbone resnet50 --warmup 300 --bs 64 --eval-batch-size 8 --data /coco --data ${DATA_DIR} --data_pipeline dali --target 0.25 2>&1 | tee $LOG
 
 RET=${PIPESTATUS[0]}
 echo "Training ran in $SECONDS seconds"