add default value for backend, fix optimum doesn't pass it (#1334)

CSY-ModelCloud · Qubitium · web-flow · commit d06a72532afb · 2025-02-22T20:38:43.000+08:00
* add default value for backend

* Update tritonv2.py

* Update marlin.py

---------

Co-authored-by: Qubitium-ModelCloud &lt;qubitium@modelcloud.ai&gt;
diff --git a/gptqmodel/nn_modules/qlinear/dynamic_cuda.py b/gptqmodel/nn_modules/qlinear/dynamic_cuda.py
@@ -18,6 +18,7 @@
 
 import torch
 
+from ...utils.backend import BACKEND
 from ...models._const import DEVICE, PLATFORM
 from ...adapter.adapter import Adapter, Lora
 from ...nn_modules.qlinear.torch import TorchQuantLinear
@@ -80,6 +81,7 @@ def __init__(
             out_features=out_features,
             bias=bias,
             pack_dtype=pack_dtype,
+            backend=kwargs.pop("backend", BACKEND.CUDA),
             adapter=adapter,
             **kwargs)
 
diff --git a/gptqmodel/nn_modules/qlinear/exllama.py b/gptqmodel/nn_modules/qlinear/exllama.py
@@ -21,6 +21,7 @@
 
 import torch
 
+from ...utils.backend import BACKEND
 from ...adapter.adapter import Adapter, Lora
 from ...models._const import DEVICE, PLATFORM
 from ...nn_modules.qlinear import BaseQuantLinear
@@ -103,6 +104,7 @@ def __init__(
             out_features=out_features,
             bias=bias,
             pack_dtype=pack_dtype,
+            backend=kwargs.pop("backend", BACKEND.EXLLAMA_V1),
             adapter=adapter,
             register_buffers=True,
             register_buffers_in_features=in_features,
diff --git a/gptqmodel/nn_modules/qlinear/exllamav2.py b/gptqmodel/nn_modules/qlinear/exllamav2.py
@@ -20,6 +20,7 @@
 
 import torch
 
+from ...utils.backend import BACKEND
 from ...adapter.adapter import Adapter, Lora
 from ...models._const import DEVICE, PLATFORM
 from ...nn_modules.qlinear import BaseQuantLinear
@@ -176,6 +177,7 @@ def __init__(
             out_features=out_features,
             bias=bias,
             pack_dtype=pack_dtype,
+            backend=kwargs.pop("backend", BACKEND.EXLLAMA_V2),
             adapter=adapter,
             register_buffers=True,
             register_buffers_in_features=in_features,
diff --git a/gptqmodel/nn_modules/qlinear/ipex.py b/gptqmodel/nn_modules/qlinear/ipex.py
@@ -18,6 +18,7 @@
 
 import torch
 
+from ...utils.backend import BACKEND
 from ...utils.logger import setup_logger
 from ...utils.torch import torch_compile
 from ...adapter.adapter import Adapter, Lora
@@ -127,6 +128,7 @@ def __init__(
             pack_dtype=pack_dtype,
             adapter=adapter,
             register_buffers=True,
+            backend=kwargs.pop("backend", BACKEND.IPEX),
             **kwargs)
 
         self.weight_dtype = torch.float16
diff --git a/gptqmodel/nn_modules/qlinear/marlin.py b/gptqmodel/nn_modules/qlinear/marlin.py
@@ -216,6 +216,7 @@ def __init__(
             out_features=out_features,
             bias=bias,
             pack_dtype=pack_dtype,
+            backend=kwargs.pop("backend", BACKEND.MARLIN),
             adapter=adapter,
             register_buffers=False,
             **kwargs)
diff --git a/gptqmodel/nn_modules/qlinear/torch.py b/gptqmodel/nn_modules/qlinear/torch.py
@@ -19,6 +19,7 @@
 import torch.nn as nn
 from transformers import PreTrainedModel
 
+from ...utils.backend import BACKEND
 from ...models._const import DEVICE, PLATFORM
 from ...utils.torch import torch_compile
 from ...adapter.adapter import Adapter, Lora
@@ -67,6 +68,7 @@ def __init__(
             out_features=out_features,
             bias=bias,
             pack_dtype=pack_dtype,
+            backend=kwargs.pop("backend", BACKEND.TORCH),
             adapter=adapter,
             register_buffers=True,
             **kwargs)
diff --git a/gptqmodel/nn_modules/qlinear/tritonv2.py b/gptqmodel/nn_modules/qlinear/tritonv2.py
@@ -19,6 +19,7 @@
 import torch
 from packaging import version
 
+from ...utils.backend import BACKEND
 from ...models._const import DEVICE, PLATFORM
 from ...utils.logger import setup_logger
 from ...adapter.adapter import Adapter, Lora
@@ -95,6 +96,7 @@ def __init__(
             out_features=out_features,
             bias=bias,
             pack_dtype=pack_dtype,
+            backend=kwargs.pop("backend", BACKEND.TRITON),
             adapter=adapter,
             register_buffers=True,
             **kwargs)