mudler
diff --git a/‎.github/dependabot.yml
Lines changed: 0 additions & 4 deletions b/‎.github/dependabot.yml
Lines changed: 0 additions & 4 deletions
diff --git a/‎Dockerfile
Lines changed: 1 addition & 4 deletions b/‎Dockerfile
Lines changed: 1 addition & 4 deletions
diff --git a/‎Makefile
Lines changed: 2 additions & 11 deletions b/‎Makefile
Lines changed: 2 additions & 11 deletions
diff --git a/‎backend/backend.proto
Lines changed: 1 addition & 5 deletions b/‎backend/backend.proto
Lines changed: 1 addition & 5 deletions
diff --git a/‎backend/python/autogptq/Makefile
Lines changed: 0 additions & 17 deletions b/‎backend/python/autogptq/Makefile
Lines changed: 0 additions & 17 deletions
diff --git a/‎backend/python/autogptq/README.md
Lines changed: 0 additions & 5 deletions b/‎backend/python/autogptq/README.md
Lines changed: 0 additions & 5 deletions
diff --git a/‎backend/python/autogptq/backend.py
Lines changed: 0 additions & 158 deletions b/‎backend/python/autogptq/backend.py
Lines changed: 0 additions & 158 deletions
diff --git a/‎backend/python/autogptq/install.sh
Lines changed: 0 additions & 14 deletions b/‎backend/python/autogptq/install.sh
Lines changed: 0 additions & 14 deletions
diff --git a/‎backend/python/autogptq/requirements-cublas11.txt
Lines changed: 0 additions & 2 deletions b/‎backend/python/autogptq/requirements-cublas11.txt
Lines changed: 0 additions & 2 deletions
diff --git a/‎backend/python/autogptq/requirements-cublas12.txt
Lines changed: 0 additions & 1 deletion b/‎backend/python/autogptq/requirements-cublas12.txt
Lines changed: 0 additions & 1 deletion
diff --git a/‎backend/python/autogptq/requirements-hipblas.txt
Lines changed: 0 additions & 2 deletions b/‎backend/python/autogptq/requirements-hipblas.txt
Lines changed: 0 additions & 2 deletions
diff --git a/‎backend/python/autogptq/requirements-intel.txt
Lines changed: 0 additions & 6 deletions b/‎backend/python/autogptq/requirements-intel.txt
Lines changed: 0 additions & 6 deletions
diff --git a/‎backend/python/autogptq/requirements.txt
Lines changed: 0 additions & 6 deletions b/‎backend/python/autogptq/requirements.txt
Lines changed: 0 additions & 6 deletions
diff --git a/‎backend/python/autogptq/run.sh
Lines changed: 0 additions & 4 deletions b/‎backend/python/autogptq/run.sh
Lines changed: 0 additions & 4 deletions
diff --git a/‎backend/python/autogptq/test.sh
Lines changed: 0 additions & 6 deletions b/‎backend/python/autogptq/test.sh
Lines changed: 0 additions & 6 deletions
diff --git a/‎core/backend/options.go
Lines changed: 0 additions & 5 deletions b/‎core/backend/options.go
Lines changed: 0 additions & 5 deletions
diff --git a/‎core/config/backend_config.go
Lines changed: 0 additions & 11 deletions b/‎core/config/backend_config.go
Lines changed: 0 additions & 11 deletions
diff --git a/‎core/http/middleware/request.go
Lines changed: 0 additions & 8 deletions b/‎core/http/middleware/request.go
Lines changed: 0 additions & 8 deletions
diff --git a/‎core/schema/openai.go
Lines changed: 0 additions & 1 deletion b/‎core/schema/openai.go
Lines changed: 0 additions & 1 deletion
diff --git a/‎core/schema/prediction.go
Lines changed: 0 additions & 2 deletions b/‎core/schema/prediction.go
Lines changed: 0 additions & 2 deletions
diff --git a/‎docs/content/docs/advanced/advanced-usage.md
Lines changed: 0 additions & 8 deletions b/‎docs/content/docs/advanced/advanced-usage.md
Lines changed: 0 additions & 8 deletions
@@ -29,10 +29,6 @@ updates:
     schedule:
       # Check for updates to GitHub Actions every weekday
       interval: "weekly"
-  - package-ecosystem: "pip"
-    directory: "/backend/python/autogptq"
-    schedule:
-      interval: "weekly"
   - package-ecosystem: "pip"
     directory: "/backend/python/bark"
     schedule:
 
@@ -15,7 +15,7 @@ ARG TARGETARCH
 ARG TARGETVARIANT
 
 ENV DEBIAN_FRONTEND=noninteractive
-ENV EXTERNAL_GRPC_BACKENDS="coqui:/build/backend/python/coqui/run.sh,transformers:/build/backend/python/transformers/run.sh,rerankers:/build/backend/python/rerankers/run.sh,autogptq:/build/backend/python/autogptq/run.sh,bark:/build/backend/python/bark/run.sh,diffusers:/build/backend/python/diffusers/run.sh,faster-whisper:/build/backend/python/faster-whisper/run.sh,kokoro:/build/backend/python/kokoro/run.sh,vllm:/build/backend/python/vllm/run.sh,exllama2:/build/backend/python/exllama2/run.sh"
+ENV EXTERNAL_GRPC_BACKENDS="coqui:/build/backend/python/coqui/run.sh,transformers:/build/backend/python/transformers/run.sh,rerankers:/build/backend/python/rerankers/run.sh,bark:/build/backend/python/bark/run.sh,diffusers:/build/backend/python/diffusers/run.sh,faster-whisper:/build/backend/python/faster-whisper/run.sh,kokoro:/build/backend/python/kokoro/run.sh,vllm:/build/backend/python/vllm/run.sh,exllama2:/build/backend/python/exllama2/run.sh"
 
 RUN apt-get update && \
     apt-get install -y --no-install-recommends \
@@ -431,9 +431,6 @@ RUN if [[ ( "${EXTRA_BACKENDS}" =~ "kokoro" || -z "${EXTRA_BACKENDS}" ) && "$IMA
 RUN if [[ ( "${EXTRA_BACKENDS}" =~ "vllm" || -z "${EXTRA_BACKENDS}" ) && "$IMAGE_TYPE" == "extras" ]]; then \
         make -C backend/python/vllm \
     ; fi && \
-    if [[ ( "${EXTRA_BACKENDS}" =~ "autogptq" || -z "${EXTRA_BACKENDS}" ) && "$IMAGE_TYPE" == "extras" ]]; then \
-        make -C backend/python/autogptq \
-    ; fi && \
     if [[ ( "${EXTRA_BACKENDS}" =~ "bark" || -z "${EXTRA_BACKENDS}" ) && "$IMAGE_TYPE" == "extras" ]]; then \
         make -C backend/python/bark \
     ; fi && \
 
@@ -505,18 +505,10 @@ protogen-go-clean:
 	$(RM) bin/*
 
 .PHONY: protogen-python
-protogen-python: autogptq-protogen bark-protogen coqui-protogen diffusers-protogen exllama2-protogen rerankers-protogen transformers-protogen kokoro-protogen vllm-protogen faster-whisper-protogen
+protogen-python: bark-protogen coqui-protogen diffusers-protogen exllama2-protogen rerankers-protogen transformers-protogen kokoro-protogen vllm-protogen faster-whisper-protogen
 
 .PHONY: protogen-python-clean
-protogen-python-clean: autogptq-protogen-clean bark-protogen-clean coqui-protogen-clean diffusers-protogen-clean  exllama2-protogen-clean rerankers-protogen-clean transformers-protogen-clean kokoro-protogen-clean vllm-protogen-clean faster-whisper-protogen-clean
-
-.PHONY: autogptq-protogen
-autogptq-protogen:
-	$(MAKE) -C backend/python/autogptq protogen
-
-.PHONY: autogptq-protogen-clean
-autogptq-protogen-clean:
-	$(MAKE) -C backend/python/autogptq protogen-clean
+protogen-python-clean: bark-protogen-clean coqui-protogen-clean diffusers-protogen-clean  exllama2-protogen-clean rerankers-protogen-clean transformers-protogen-clean kokoro-protogen-clean vllm-protogen-clean faster-whisper-protogen-clean
 
 .PHONY: bark-protogen
 bark-protogen:
@@ -593,7 +585,6 @@ vllm-protogen-clean:
 ## GRPC
 # Note: it is duplicated in the Dockerfile
 prepare-extra-conda-environments: protogen-python
-	$(MAKE) -C backend/python/autogptq
 	$(MAKE) -C backend/python/bark
 	$(MAKE) -C backend/python/coqui
 	$(MAKE) -C backend/python/diffusers
 
@@ -190,11 +190,7 @@ message ModelOptions {
   int32 NGQA = 20;
   string ModelFile = 21;
 
-  // AutoGPTQ
-  string Device = 22;
-  bool UseTriton = 23;
-  string ModelBaseName = 24;
-  bool UseFastTokenizer = 25;
+
 
   // Diffusers
   string PipelineType = 26;
 
@@ -184,11 +184,6 @@ func grpcModelOpts(c config.BackendConfig) *pb.ModelOptions {
 		MainGPU:             c.MainGPU,
 		Threads:             int32(*c.Threads),
 		TensorSplit:         c.TensorSplit,
-		// AutoGPTQ
-		ModelBaseName:    c.AutoGPTQ.ModelBaseName,
-		Device:           c.AutoGPTQ.Device,
-		UseTriton:        c.AutoGPTQ.Triton,
-		UseFastTokenizer: c.AutoGPTQ.UseFastTokenizer,
 		// RWKV
 		Tokenizer: c.Tokenizer,
 	}
 
@@ -50,9 +50,6 @@ type BackendConfig struct {
 	// LLM configs (GPT4ALL, Llama.cpp, ...)
 	LLMConfig `yaml:",inline"`
 
-	// AutoGPTQ specifics
-	AutoGPTQ AutoGPTQ `yaml:"autogptq"`
-
 	// Diffusers
 	Diffusers Diffusers `yaml:"diffusers"`
 	Step      int       `yaml:"step"`
@@ -176,14 +173,6 @@ type LimitMMPerPrompt struct {
 	LimitAudioPerPrompt int `yaml:"audio"`
 }
 
-// AutoGPTQ is a struct that holds the configuration specific to the AutoGPTQ backend
-type AutoGPTQ struct {
-	ModelBaseName    string `yaml:"model_base_name"`
-	Device           string `yaml:"device"`
-	Triton           bool   `yaml:"triton"`
-	UseFastTokenizer bool   `yaml:"use_fast_tokenizer"`
-}
-
 // TemplateConfig is a struct that holds the configuration of the templating system
 type TemplateConfig struct {
 	// Chat is the template used in the chat completion endpoint
 
@@ -203,18 +203,10 @@ func mergeOpenAIRequestAndBackendConfig(config *config.BackendConfig, input *sch
 		config.Diffusers.ClipSkip = input.ClipSkip
 	}
 
-	if input.ModelBaseName != "" {
-		config.AutoGPTQ.ModelBaseName = input.ModelBaseName
-	}
-
 	if input.NegativePromptScale != 0 {
 		config.NegativePromptScale = input.NegativePromptScale
 	}
 
-	if input.UseFastTokenizer {
-		config.UseFastTokenizer = input.UseFastTokenizer
-	}
-
 	if input.NegativePrompt != "" {
 		config.NegativePrompt = input.NegativePrompt
 	}
 
@@ -202,7 +202,6 @@ type OpenAIRequest struct {
 
 	Backend string `json:"backend" yaml:"backend"`
 
-	// AutoGPTQ
 	ModelBaseName string `json:"model_base_name" yaml:"model_base_name"`
 }
 
 
@@ -41,8 +41,6 @@ type PredictionOptions struct {
 	RopeFreqBase        float32 `json:"rope_freq_base" yaml:"rope_freq_base"`
 	RopeFreqScale       float32 `json:"rope_freq_scale" yaml:"rope_freq_scale"`
 	NegativePromptScale float32 `json:"negative_prompt_scale" yaml:"negative_prompt_scale"`
-	// AutoGPTQ
-	UseFastTokenizer bool `json:"use_fast_tokenizer" yaml:"use_fast_tokenizer"`
 
 	// Diffusers
 	ClipSkip int `json:"clip_skip" yaml:"clip_skip"`
 
@@ -268,14 +268,6 @@ yarn_ext_factor: 0
 yarn_attn_factor: 0
 yarn_beta_fast: 0
 yarn_beta_slow: 0
-
-# AutoGPT-Q settings, for configurations specific to GPT models.
-autogptq:
-    model_base_name: "" # Base name of the model.
-    device: "" # Device to run the model on.
-    triton: false # Whether to use Triton Inference Server.
-    use_fast_tokenizer: false # Whether to use a fast tokenizer for quicker processing.
-
 # configuration for diffusers model
 diffusers:
     cuda: false # Whether to use CUDA
Original file line number	Diff line number	Diff line change
`@@ -203,18 +203,10 @@ func mergeOpenAIRequestAndBackendConfig(config config.BackendConfig, input sch`
`203`	`203`	`config.Diffusers.ClipSkip = input.ClipSkip`
`204`	`204`	`}`
`205`	`205`
`206`		`- if input.ModelBaseName != "" {`
`207`		`- config.AutoGPTQ.ModelBaseName = input.ModelBaseName`
`208`		`- }`
`209`		`-`
`210`	`206`	`if input.NegativePromptScale != 0 {`
`211`	`207`	`config.NegativePromptScale = input.NegativePromptScale`
`212`	`208`	`}`
`213`	`209`
`214`		`- if input.UseFastTokenizer {`
`215`		`- config.UseFastTokenizer = input.UseFastTokenizer`
`216`		`- }`
`217`		`-`
`218`	`210`	`if input.NegativePrompt != "" {`
`219`	`211`	`config.NegativePrompt = input.NegativePrompt`
`220`	`212`	`}`
Original file line number	Diff line number	Diff line change
`@@ -202,7 +202,6 @@ type OpenAIRequest struct {`
`202`	`202`
`203`	`203`	Backend string `json:"backend" yaml:"backend"`
`204`	`204`
`205`		`- // AutoGPTQ`
`206`	`205`	ModelBaseName string `json:"model_base_name" yaml:"model_base_name"`
`207`	`206`	`}`
`208`	`207`