hotfix tokenizer

Files changed (4) hide show

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:172dadf7cc6a2124dbe9269601bd554696c2dbffe1c4e4681e24c8c55414e4fb
 size 2854581673

 version https://git-lfs.github.com/spec/v1
+oid sha256:caaa2623fb640123e81dadf1857139eba6e6b84be52232b084a5ebbce119f6c3
 size 2854581673

special_tokens_map.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>",
+  "pad_token": "<|padding|>"
 }

tokenizer.json CHANGED Viewed

@@ -227,6 +227,33 @@
       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": true,
       "special": false
+    },
+    {
+      "id": 50277,
+      "content": "<|SUF|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 50278,
+      "content": "<|PRE|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
+    },
+    {
+      "id": 50279,
+      "content": "<|MID|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true,
+      "special": false
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "add_prefix_space": false,
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
-  "name_or_path": "EleutherAI/gpt-neox-20b",
   "special_tokens_map_file": "/fsx/home-hailey/.cache/huggingface/hub/models--EleutherAI--gpt-neox-20b/snapshots/3523781c8df75f7741687a4284f6f70e1afa12f4/special_tokens_map.json",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"

   "add_prefix_space": false,
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
+  "name_or_path": "/fsx/code-fim/FIM-clean/gpt-neox/newtokenizer",
   "special_tokens_map_file": "/fsx/home-hailey/.cache/huggingface/hub/models--EleutherAI--gpt-neox-20b/snapshots/3523781c8df75f7741687a4284f6f70e1afa12f4/special_tokens_map.json",
   "tokenizer_class": "GPTNeoXTokenizer",
   "unk_token": "<|endoftext|>"