Update to llama.cpp 368645698ab648e390dcd7c00a2bf60efa654f57.

martindevans · martindevans · commit 3e6b9c80e020 · 2024-07-12T23:04:14.000+01:00
diff --git a/LLama.Web/Common/ModelOptions.cs b/LLama.Web/Common/ModelOptions.cs
@@ -118,5 +118,8 @@ public class ModelOptions
 
         /// <inheritdoc />
         public LLamaPoolingType PoolingType { get; set; }
+
+        /// <inheritdoc />
+        public LLamaAttentionType AttentionType { get; set; } = LLamaAttentionType.Unspecified;
     }
 }
diff --git a/LLama/Abstractions/IContextParams.cs b/LLama/Abstractions/IContextParams.cs
@@ -123,4 +123,9 @@ public interface IContextParams
     /// How to pool (sum) embedding results by sequence id (ignored if no pooling layer)
     /// </summary>
     LLamaPoolingType PoolingType { get; }
+
+    /// <summary>
+    /// Attention type to use for embeddings
+    /// </summary>
+    LLamaAttentionType AttentionType { get; }
 }
diff --git a/LLama/Common/ModelParams.cs b/LLama/Common/ModelParams.cs
@@ -109,6 +109,9 @@ public record ModelParams
         /// <inheritdoc />
         public LLamaPoolingType PoolingType { get; set; } = LLamaPoolingType.Unspecified;
 
+        /// <inheritdoc />
+        public LLamaAttentionType AttentionType { get; set; } = LLamaAttentionType.Unspecified;
+
         /// <inheritdoc />
         public bool VocabOnly { get; set; }
 
diff --git a/LLama/Extensions/IContextParamsExtensions.cs b/LLama/Extensions/IContextParamsExtensions.cs
@@ -52,6 +52,7 @@ public static void ToLlamaContextParams(this IContextParams @params, out LLamaCo
             result.offload_kqv = !@params.NoKqvOffload;
             result.flash_attention = @params.FlashAttention;
             result.llama_pooling_type = @params.PoolingType;
+            result.attention_type = @params.AttentionType;
 
             result.n_threads = Threads(@params.Threads);
             result.n_threads_batch = Threads(@params.BatchThreads);
diff --git a/LLama/LLamaQuantizer.cs b/LLama/LLamaQuantizer.cs
@@ -1,4 +1,4 @@
-﻿using LLama.Native;
+using LLama.Native;
 using System;
 using System.Collections.Generic;
 
@@ -66,49 +66,49 @@ private static bool ValidateFtype(LLamaFtype ftype)
 
             switch (ftype)
             {
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q4_0:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q4_1:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q5_0:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q5_1:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q8_0:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_F16:
-                case LLamaFtype.LLAMA_FTYPE_ALL_F32:
+                case LLamaFtype.MOSTLY_Q4_0:
+                case LLamaFtype.MOSTLY_Q4_1:
+                case LLamaFtype.MOSTLY_Q5_0:
+                case LLamaFtype.MOSTLY_Q5_1:
+                case LLamaFtype.MOSTLY_Q8_0:
+                case LLamaFtype.MOSTLY_F16:
+                case LLamaFtype.ALL_F32:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q2_K_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q2_K:
+                case LLamaFtype.MOSTLY_Q2_K_S:
+                case LLamaFtype.MOSTLY_Q2_K:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ3_K_XS:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q3_K_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q3_K_M:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q3_K_L:
+                case LLamaFtype.MOSTLY_IQ3_K_XS:
+                case LLamaFtype.MOSTLY_Q3_K_S:
+                case LLamaFtype.MOSTLY_Q3_K_M:
+                case LLamaFtype.MOSTLY_Q3_K_L:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q4_K_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q4_K_M:
+                case LLamaFtype.MOSTLY_Q4_K_S:
+                case LLamaFtype.MOSTLY_Q4_K_M:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q5_K_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q5_K_M:
+                case LLamaFtype.MOSTLY_Q5_K_S:
+                case LLamaFtype.MOSTLY_Q5_K_M:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q6_K:
+                case LLamaFtype.MOSTLY_Q6_K:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ2_XXS:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ2_XS:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ2_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ2_M:
+                case LLamaFtype.MOSTLY_IQ2_XXS:
+                case LLamaFtype.MOSTLY_IQ2_XS:
+                case LLamaFtype.MOSTLY_IQ2_S:
+                case LLamaFtype.MOSTLY_IQ2_M:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ3_XXS:
+                case LLamaFtype.MOSTLY_IQ3_XXS:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ1_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ1_M:
+                case LLamaFtype.MOSTLY_IQ1_S:
+                case LLamaFtype.MOSTLY_IQ1_M:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ4_NL:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ4_XS:
+                case LLamaFtype.MOSTLY_IQ4_NL:
+                case LLamaFtype.MOSTLY_IQ4_XS:
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ3_S:
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_IQ3_M:
+                case LLamaFtype.MOSTLY_IQ3_S:
+                case LLamaFtype.MOSTLY_IQ3_M:
                     return true;
 
-                case LLamaFtype.LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16:
-                case LLamaFtype.LLAMA_FTYPE_GUESSED:
+                case LLamaFtype.MOSTLY_Q4_1_SOME_F16:
+                case LLamaFtype.GUESSED:
                 default:
                     return false;
             }
diff --git a/LLama/LLamaSharp.csproj b/LLama/LLamaSharp.csproj
@@ -53,7 +53,7 @@
   </ItemGroup>
 
   <PropertyGroup>
-    <BinaryReleaseId>1c5eba6f8e62</BinaryReleaseId>
+    <BinaryReleaseId>368645698ab648e390dc</BinaryReleaseId>
   </PropertyGroup>
 
   <PropertyGroup>
diff --git a/LLama/Native/LLamaAttentionType.cs b/LLama/Native/LLamaAttentionType.cs
@@ -0,0 +1,8 @@
+namespace LLama.Native;
+
+public enum LLamaAttentionType
+{
+    Unspecified = -1,
+    Causal = 0,
+    NonCausal = 1,
+}
diff --git a/LLama/Native/LLamaContextParams.cs b/LLama/Native/LLamaContextParams.cs
@@ -65,6 +65,11 @@ public struct LLamaContextParams
         /// whether to pool (sum) embedding results by sequence id
         /// </summary>
         public LLamaPoolingType llama_pooling_type;
+
+        /// <summary>
+        /// Attention type to use for embeddings
+        /// </summary>
+        public LLamaAttentionType attention_type;
         
         /// <summary>
         /// RoPE base frequency, 0 = from model
diff --git a/LLama/Native/LLamaFtype.cs b/LLama/Native/LLamaFtype.cs
@@ -1,4 +1,4 @@
-﻿namespace LLama.Native
+namespace LLama.Native
 {
     /// <summary>
     /// Supported model file types
@@ -9,176 +9,191 @@ public enum LLamaFtype
         /// All f32
         /// </summary>
         /// <remarks>Benchmark@7B: 26GB</remarks>
-        LLAMA_FTYPE_ALL_F32 = 0,
+        ALL_F32 = 0,
 
         /// <summary>
         /// Mostly f16
         /// </summary>
         /// <remarks>Benchmark@7B: 13GB</remarks>
-        LLAMA_FTYPE_MOSTLY_F16 = 1,
+        MOSTLY_F16 = 1,
 
         /// <summary>
         /// Mostly 8 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 6.7GB, +0.0004ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q8_0 = 7,
+        MOSTLY_Q8_0 = 7,
 
         /// <summary>
         /// Mostly 4 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 3.50GB, +0.2499 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q4_0 = 2,
+        MOSTLY_Q4_0 = 2,
 
         /// <summary>
         /// Mostly 4 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 3.90GB, +0.1846 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q4_1 = 3,
+        MOSTLY_Q4_1 = 3,
 
         /// <summary>
         /// Mostly 4 bit, tok_embeddings.weight and output.weight are f16
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_Q4_1_SOME_F16 = 4,
+        MOSTLY_Q4_1_SOME_F16 = 4,
 
         /// <summary>
         /// Mostly 5 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 4.30GB @ 7B tokens, +0.0796 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q5_0 = 8,
+        MOSTLY_Q5_0 = 8,
 
         /// <summary>
         /// Mostly 5 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 4.70GB, +0.0415 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q5_1 = 9,
+        MOSTLY_Q5_1 = 9,
 
         /// <summary>
         /// K-Quant 2 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 2.67GB @ 7N parameters, +0.8698 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q2_K = 10,
+        MOSTLY_Q2_K = 10,
 
         /// <summary>
         /// K-Quant 3 bit (Small)
         /// </summary>
         /// <remarks>Benchmark@7B: 2.75GB, +0.5505 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q3_K_S = 11,
+        MOSTLY_Q3_K_S = 11,
 
         /// <summary>
         /// K-Quant 3 bit (Medium)
         /// </summary>
         /// <remarks>Benchmark@7B: 3.06GB, +0.2437 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q3_K_M = 12,
+        MOSTLY_Q3_K_M = 12,
 
         /// <summary>
         /// K-Quant 3 bit (Large)
         /// </summary>
         /// <remarks>Benchmark@7B: 3.35GB, +0.1803 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q3_K_L = 13,
+        MOSTLY_Q3_K_L = 13,
 
         /// <summary>
         /// K-Quant 4 bit (Small)
         /// </summary>
         /// <remarks>Benchmark@7B: 3.56GB, +0.1149 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q4_K_S = 14,
+        MOSTLY_Q4_K_S = 14,
 
         /// <summary>
         /// K-Quant 4 bit (Medium)
         /// </summary>
         /// <remarks>Benchmark@7B: 3.80GB, +0.0535 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q4_K_M = 15,
+        MOSTLY_Q4_K_M = 15,
 
         /// <summary>
         /// K-Quant 5 bit (Small)
         /// </summary>
         /// <remarks>Benchmark@7B: 4.33GB, +0.0353 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q5_K_S = 16,
+        MOSTLY_Q5_K_S = 16,
 
         /// <summary>
         /// K-Quant 5 bit (Medium)
         /// </summary>
         /// <remarks>Benchmark@7B: 4.45GB, +0.0142 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q5_K_M = 17,
+        MOSTLY_Q5_K_M = 17,
 
         /// <summary>
         /// K-Quant 6 bit
         /// </summary>
         /// <remarks>Benchmark@7B: 5.15GB, +0.0044 ppl</remarks>
-        LLAMA_FTYPE_MOSTLY_Q6_K = 18,
+        MOSTLY_Q6_K = 18,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ2_XXS = 19,
+        MOSTLY_IQ2_XXS = 19,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ2_XS = 20,
+        MOSTLY_IQ2_XS = 20,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_Q2_K_S = 21,
+        MOSTLY_Q2_K_S = 21,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ3_K_XS = 22,
+        MOSTLY_IQ3_K_XS = 22,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ3_XXS = 23,
+        MOSTLY_IQ3_XXS = 23,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ1_S = 24,
+        MOSTLY_IQ1_S = 24,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ4_NL = 25,
+        MOSTLY_IQ4_NL = 25,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ3_S = 26,
+        MOSTLY_IQ3_S = 26,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ3_M = 27,
+        MOSTLY_IQ3_M = 27,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ2_S = 28,
+        MOSTLY_IQ2_S = 28,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ2_M = 29,
+        MOSTLY_IQ2_M = 29,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ4_XS = 30,
+        MOSTLY_IQ4_XS = 30,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_IQ1_M = 31,
+        MOSTLY_IQ1_M = 31,
 
         /// <summary>
         /// except 1d tensors
         /// </summary>
-        LLAMA_FTYPE_MOSTLY_BF16 = 32,
+        MOSTLY_BF16 = 32,
+
+        /// <summary>
+        /// except 1d tensors
+        /// </summary>
+        MOSTLY_Q4_0_4_4 = 33,
+
+        /// <summary>
+        /// except 1d tensors
+        /// </summary>
+        MOSTLY_Q4_0_4_8 = 34,
+
+        /// <summary>
+        /// except 1d tensors
+        /// </summary>
+        MOSTLY_Q4_0_8_8 = 35,
 
         /// <summary>
         /// File type was not specified
         /// </summary>
-        LLAMA_FTYPE_GUESSED = 1024
+        GUESSED = 1024
     }
 }
diff --git a/LLama/Native/LLamaVocabPreType.cs b/LLama/Native/LLamaVocabPreType.cs
@@ -23,5 +23,8 @@ internal enum LLamaVocabPreType
     DBRX = 13,
     SMAUG = 14,
     PORO = 15,
-    VIKING = 16,
+    CHATGLM3 = 16,
+    CHATGLM4 = 17,
+    VIKING = 18,
+    JAIS = 19,
 }
diff --git a/LLama/Native/NativeApi.cs b/LLama/Native/NativeApi.cs
diff --git a/LLama/Native/SafeLLamaContextHandle.cs b/LLama/Native/SafeLLamaContextHandle.cs
diff --git a/LLama/Native/SafeLlamaModelHandle.cs b/LLama/Native/SafeLlamaModelHandle.cs
diff --git a/llama.cpp b/llama.cpp

Original file line number	Diff line number	Diff line change
`@@ -118,5 +118,8 @@ public class ModelOptions`
`118`	`118`
`119`	`119`	`/// <inheritdoc />`
`120`	`120`	`public LLamaPoolingType PoolingType { get; set; }`
	`121`	`+`
	`122`	`+ /// <inheritdoc />`
	`123`	`+ public LLamaAttentionType AttentionType { get; set; } = LLamaAttentionType.Unspecified;`
`121`	`124`	`}`
`122`	`125`	`}`