OpenMachineAI
/

UnitronX-Tokenizer-32k-v1

Model card Files Files and versions

TheOpenMachine commited on Nov 6

Commit

111acaf

·

verified ·

1 Parent(s): a0c093f

Update README.md

Files changed (1) hide show

README.md +29 -15

README.md CHANGED Viewed

@@ -1,18 +1,32 @@
 ---
 license: mit
-language:
-- ro
-- hr
-- en
-- de
-- es
-- sr
-- zh
-- ja
-- ko
-- fr
-- is
-- cs
 tags:
-- Tokenizer
----

 ---
+# Model Card for Model ID
 license: mit
+library_name: tokenizers
 tags:
+- tokenizer
+- bpe
+- byte-level
+- multilingual
+- code
+- unitronx
+---
+# {DISPLAY_NAME}
+**UnitronX** is a 32k byte-level BPE tokenizer optimized for English, multilingual (ru/ar/de/es/fr/it/cs/hr/sr), and code.
+It enforces safe merge boundaries (script changes, ZWJ, letter↔digit), preserves code identifiers, and uses
+placeholder tokens for URLs/emails/paths/hashes/UUIDs/handles/hashtags.
+## Files
+- `tokenizer.json`, `merges.txt`, `vocab.json`
+- `tokenizer_config.json`, `special_tokens_map.json`
+- `meta.json`
+- *(optional)* `unitronx.tiktoken.json` (tiktoken-compatible)
+## Load with Transformers
+```python
+from transformers import AutoTokenizer
+tok = AutoTokenizer.from_pretrained("UnitronX-Tokenizer-32k-v1")
+print(tok.encode("don't split hyphen-words or fooBar123_id in code!"))