Update word_piece_tokenizer.py #617

ADITYADAS1999 · 2022-12-28T07:37:59Z

WordPieceTokenizer inconsistent lowercase behavior #599

mattdangerw · 2022-12-28T18:24:37Z

keras_nlp/tokenizers/word_piece_tokenizer.py

@@ -281,7 +281,7 @@ def __init__(
        self,
        vocabulary=None,
        sequence_length: int = None,
-        lowercase: bool = False,


Lowercase=False is actually the default we want here! The incorrect default is above in the pretokenizer function.

So, changes will be in pretokenizer function right?

This reverts commit fcad4b8.

mattdangerw · 2023-01-04T01:18:39Z

Thanks!

Update word_piece_tokenizer.py

fcad4b8

mattdangerw requested changes Dec 28, 2022

View reviewed changes

ADITYADAS1999 and others added 2 commits December 29, 2022 08:04

Revert "Update word_piece_tokenizer.py"

64b8e18

This reverts commit fcad4b8.

Update word_piece_tokenizer.py

007fa7f

ADITYADAS1999 requested a review from mattdangerw December 30, 2022 12:53

mattdangerw merged commit 7774071 into keras-team:master Jan 4, 2023

Provide feedback