google-deepmind · ealt · Apr 22, 2025 · May 1, 2025 · May 1, 2025 · May 1, 2025
diff --git a/penzai/models/transformer/variants/gpt_neox.py b/penzai/models/transformer/variants/gpt_neox.py
@@ -412,6 +412,11 @@ def gpt_neox_from_huggingface_model(
       "eos_token_id",
       "_attn_implementation_autoset",
       "head_dim",
+      "is_decoder",
+      "attention_probs_dropout_prob",
+      "hidden_dropout_prob",
+      "type_vocab_size",
+      "_name_or_path",
   }
   bad_attributes = {}
   for k, v in hf_config_attributes.items():

diff --git a/penzai/models/transformer/variants/llama.py b/penzai/models/transformer/variants/llama.py
@@ -66,6 +66,7 @@ def llama_from_huggingface_model(
   reference_attributes = transformers.LlamaConfig().to_dict()
   handled_or_ignored_attributes = {
       # Handled during conversion:
+      "hidden_act",
       "hidden_size",
       "intermediate_size",
       "num_attention_heads",
@@ -80,8 +81,10 @@ def llama_from_huggingface_model(
       "architectures",
       "bos_token_id",
       "eos_token_id",
+      "pad_token_id",
       "_attn_implementation_autoset",
       "head_dim",
+      "_name_or_path",
   }
   bad_attributes = {}
   for k, v in hf_config_attributes.items():

diff --git a/penzai/models/transformer/variants/llamalike_common.py b/penzai/models/transformer/variants/llamalike_common.py
@@ -111,7 +111,7 @@ class LlamalikeTransformerConfig:
   mlp_hidden_dim: int
   num_decoder_blocks: int
   vocab_size: int
-  mlp_variant: Literal["geglu_approx", "swiglu"]
+  mlp_variant: Literal["gelu_exact", "geglu_approx", "swiglu", "silu", "relu"]
   tie_embedder_and_logits: bool
   rope_wavelength: float = 10_000
   rms_norm_eps: float = 1e-6
@@ -147,14 +147,18 @@ def build_llamalike_feedforward(
   Returns:
     An instance of TransformerFeedForward containing the GELU MLP blocks.
   """
-  if config.mlp_variant == "geglu_approx":
-    # Approximate is already the default in JAX, but we specify it explicitly
-    # because defaults differ between JAX and PyTorch.
-    act_fn = functools.partial(jax.nn.gelu, approximate=True)
-  elif config.mlp_variant == "swiglu":
-    act_fn = jax.nn.silu
-  else:
-    raise ValueError(f"Unsupported MLP variant {config.mlp_variant}")
+  # Approximate GeLU is already the default in JAX, but we specify it explicitly
+  # because defaults differ between JAX and PyTorch.
+  # Alias for gelu and silu maintianed for backwards compatibility.
+  act_fn = {
+      "gelu": jax.nn.gelu,
+      "geglu_approx": functools.partial(jax.nn.gelu, approximate=True),
+      "gelu_exact": functools.partial(jax.nn.gelu, approximate=False),
+      "gelu_approx": functools.partial(jax.nn.gelu, approximate=True),
+      "swiglu": jax.nn.silu,
+      "silu": jax.nn.silu,
+      "relu": jax.nn.relu,
+  }[config.mlp_variant]
 
   return model_parts.TransformerFeedForward([
       pz.nn.BranchAndMultiplyTogether(
@@ -595,7 +599,7 @@ def llamalike_from_huggingface_model(
       mlp_hidden_dim=hf_config.intermediate_size,
       num_decoder_blocks=hf_config.num_hidden_layers,
       vocab_size=hf_config.vocab_size,
-      mlp_variant="swiglu",
+      mlp_variant=hf_config.hidden_act,
       rope_wavelength=hf_config.rope_theta,
       tie_embedder_and_logits=False,
       attention_type=attention_type,

diff --git a/penzai/models/transformer/variants/mistral.py b/penzai/models/transformer/variants/mistral.py
@@ -71,6 +71,7 @@ def mistral_from_huggingface_model(
   reference_attributes = transformers.MistralConfig().to_dict()
   handled_or_ignored_attributes = {
       # Handled during conversion:
+      "hidden_act",
       "hidden_size",
       "intermediate_size",
       "num_attention_heads",
@@ -86,6 +87,12 @@ def mistral_from_huggingface_model(
       "architectures",
       "_attn_implementation_autoset",
       "head_dim",
+      "is_decoder",
+      "pad_token_id",
+      "attention_probs_dropout_prob",
+      "hidden_dropout_prob",
+      "type_vocab_size",
+      "_name_or_path",
   }
   bad_attributes = {}
   for k, v in hf_config_attributes.items():

diff --git a/tests/models/transformer_consistency_test.py b/tests/models/transformer_consistency_test.py
@@ -36,12 +36,31 @@ class TransformerConsistencyTest(parameterized.TestCase):
   )
   def test_llama_consistency(self, num_attention_heads, num_key_value_heads):
     cfg = transformers.LlamaConfig(
+        name_or_path="hf-internal-testing/tiny-random-LlamaForCausalLM",
         vocab_size=11,
         hidden_size=64,
         intermediate_size=256,
         num_hidden_layers=3,
         num_attention_heads=num_attention_heads,
         num_key_value_heads=num_key_value_heads,
+        attention_bias=False,
+        attention_dropout=0.0,
+        bos_token_id=0,
+        eos_token_id=1,
+        hidden_act="silu",
+        initializer_range=0.02,
+        max_position_embeddings=2048,
+        mlp_bias=False,
+        model_type="llama",
+        pad_token_id=-1,
+        pretraining_tp=1,
+        rms_norm_eps=1e-06,
+        rope_scaling=None,
+        rope_theta=10000.0,
+        tie_word_embeddings=False,
+        torch_dtype="float32",
+        transformers_version="4.44.2",
+        use_cache=True,
     )
 
     torch.manual_seed(0)
@@ -76,12 +95,33 @@ def test_llama_consistency(self, num_attention_heads, num_key_value_heads):
   )
   def test_mistral_consistency(self, num_attention_heads, num_key_value_heads):
     cfg = transformers.MistralConfig(
+        name_or_path="hf-internal-testing/tiny-random-MistralForCausalLM",
+        is_decoder=True,
         vocab_size=11,
         hidden_size=64,
         intermediate_size=256,
         num_hidden_layers=3,
         num_attention_heads=num_attention_heads,
         num_key_value_heads=num_key_value_heads,
+        attention_dropout=0.0,
+        attention_probs_dropout_prob=0.1,
+        bos_token_id=1,
+        eos_token_id=2,
+        head_dim=16,
+        hidden_act="silu",
+        hidden_dropout_prob=0.1,
+        initializer_range=0.02,
+        max_position_embeddings=512,
+        model_type="mistral",
+        pad_token_id=0,
+        rms_norm_eps=1e-06,
+        rope_theta=10000.0,
+        sliding_window=4096,
+        tie_word_embeddings=False,
+        torch_dtype="float32",
+        transformers_version="4.44.2",
+        type_vocab_size=16,
+        use_cache=True,
     )
 
     torch.manual_seed(0)
@@ -110,11 +150,35 @@ def test_mistral_consistency(self, num_attention_heads, num_key_value_heads):
 
   def test_gpt_neox_consistency(self):
     cfg = transformers.GPTNeoXConfig(
+        name_or_path="organization-name/model-name",
+        is_decoder=True,
         vocab_size=11,
         hidden_size=64,
         intermediate_size=256,
         num_hidden_layers=3,
         num_attention_heads=4,
+        attention_probs_dropout_prob=0.1,
+        hidden_dropout_prob=0.1,
+        type_vocab_size=16,
+        hidden_act="gelu",
+        attention_bias=True,
+        attention_dropout=0.0,
+        bos_token_id=0,
+        classifier_dropout=0.1,
+        eos_token_id=0,
+        hidden_dropout=0.0,
+        initializer_range=0.02,
+        layer_norm_eps=1e-05,
+        max_position_embeddings=512,
+        model_type="gpt_neox",
+        rope_scaling=None,
+        rotary_emb_base=10000,
+        rotary_pct=0.25,
+        tie_word_embeddings=False,
+        torch_dtype="float32",
+        transformers_version="4.44.2",
+        use_cache=True,
+        use_parallel_residual=True,
     )
 
     torch.manual_seed(0)

diff --git a/uv.lock b/uv.lock