Revert change of batch size in SSD LT3 to 64 due to convergence problem

JanuszL · JanuszL · commit 73bee9a6d8d2 · 2025-03-10T12:04:21.000+01:00
Signed-off-by: Janusz Lisiecki &lt;jlisiecki@nvidia.com&gt;
diff --git a/qa/TL3_SSD_convergence/test_pytorch.sh b/qa/TL3_SSD_convergence/test_pytorch.sh
@@ -42,7 +42,7 @@ export NCCL_NVLS_ENABLE=0
 
 # Prevent OOM due to fragmentation on 16G machines
 export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:4096
-torchrun --nproc_per_node=${NUM_GPUS} main.py --backbone resnet50 --warmup 300 --bs 256 --eval-batch-size 8 --data /coco --data ${DATA_DIR} --data_pipeline dali --target 0.25 2>&1 | tee $LOG
+torchrun --nproc_per_node=${NUM_GPUS} main.py --backbone resnet50 --warmup 300 --bs 64 --eval-batch-size 8 --data /coco --data ${DATA_DIR} --data_pipeline dali --target 0.25 2>&1 | tee $LOG
 ((IS_TMP_DIR)) && rm -rf ${DATA_DIR}
 
 RET=${PIPESTATUS[0]}