Reviewer comment

DomBrown · DomBrown · commit 75d77ce40be8 · 2025-04-10T19:15:47.000+01:00
Signed-off-by: Dom Brown &lt;3886319+DomBrown@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/gemm/KernelRunner.cpp b/cpp/tensorrt_llm/kernels/trtllmGenKernels/gemm/KernelRunner.cpp
@@ -52,7 +52,8 @@ TrtllmGenGemmRunner::TrtllmGenGemmRunner(tg::Dtype eltType, tg::Dtype outputType
     mGemmConfig = &configs[selectedIndex[0]];
 }
 
-size_t TrtllmGenGemmRunner::getWorkspaceSizeInBytes(int32_t m, int32_t n, int32_t k) const
+size_t TrtllmGenGemmRunner::getWorkspaceSizeInBytes(
+    int32_t m, int32_t n, int32_t k, tg::Dtype eltType, tg::Dtype outputType) const
 {
     gemm::GemmData gemmData;
     gemmData.mProblemDimensions.mM = m;
diff --git a/cpp/tensorrt_llm/kernels/trtllmGenKernels/gemm/KernelRunner.h b/cpp/tensorrt_llm/kernels/trtllmGenKernels/gemm/KernelRunner.h
@@ -33,7 +33,8 @@ class TrtllmGenGemmRunner
 public:
     explicit TrtllmGenGemmRunner(tg::Dtype eltType, tg::Dtype outputType);
 
-    [[nodiscard]] size_t getWorkspaceSizeInBytes(int32_t m, int32_t n, int32_t k) const;
+    [[nodiscard]] size_t getWorkspaceSizeInBytes(
+        int32_t m, int32_t n, int32_t k, tg::Dtype eltType, tg::Dtype outputType) const;
 
     void run(int32_t m, int32_t n, int32_t k, void const* a, float const* aScale, void const* b, float const* bScale,
         void* c, float* cScale, void* workspace, CUstream stream, int device);
diff --git a/cpp/tensorrt_llm/thop/fp4GemmTrtllmGen.cpp b/cpp/tensorrt_llm/thop/fp4GemmTrtllmGen.cpp
@@ -39,7 +39,7 @@ void runGemm(at::Tensor& out, at::Tensor const& mat1, at::Tensor const& mat2, at
 
     tensorrt_llm::kernels::TrtllmGenGemmRunner runner(eltType, out_dtype);
 
-    int64_t const numBytesWorkspace = runner.getWorkspaceSizeInBytes(m, n, k);
+    int64_t const numBytesWorkspace = runner.getWorkspaceSizeInBytes(m, n, k, eltType, out_dtype);
     at::Tensor workspace
         = at::detail::empty_cuda({numBytesWorkspace}, at::ScalarType::Char, torch::kCUDA, std::nullopt);
 

Original file line number	Diff line number	Diff line change
`@@ -52,7 +52,8 @@ TrtllmGenGemmRunner::TrtllmGenGemmRunner(tg::Dtype eltType, tg::Dtype outputType`
`52`	`52`	`mGemmConfig = &configs[selectedIndex[0]];`
`53`	`53`	`}`
`54`	`54`
`55`		`-size_t TrtllmGenGemmRunner::getWorkspaceSizeInBytes(int32_t m, int32_t n, int32_t k) const`
	`55`	`+size_t TrtllmGenGemmRunner::getWorkspaceSizeInBytes(`
	`56`	`+ int32_t m, int32_t n, int32_t k, tg::Dtype eltType, tg::Dtype outputType) const`
`56`	`57`	`{`
`57`	`58`	`gemm::GemmData gemmData;`
`58`	`59`	`gemmData.mProblemDimensions.mM = m;`