Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2402.00786

CroissantLLM 🥐

CroissantLLM: A Truly Bilingual French-English Language Model

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
croissantllm/CroissantLLMChat-v0.1

Text Generation • 1B • Updated Apr 26, 2024 • 885 • 52
croissantllm/CroissantLLMBase

Text Generation • Updated Aug 30, 2024 • 277 • 33
croissantllm/croissant_dataset

Viewer • Updated Oct 3, 2024 • 16.7B • 1.96k • 7

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages

Paper • 2401.05811 • Published Jan 11, 2024 • 8
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

Language Moddel

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9, 2024 • 27
Weaver: Foundation Models for Creative Writing

Paper • 2401.17268 • Published Jan 30, 2024 • 45
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30, 2024 • 21

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 109
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 25
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 21

Made with Jean Zay

Work performed using Jean Zay Supercomputer resources from GENCI-IDRIS

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 35
FlauBERT: Unsupervised Language Model Pre-training for French

Paper • 1912.05372 • Published Dec 11, 2019
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published Oct 20, 2025 • 29

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

haoranxu/ALMA-13B-R

Text Generation • 13B • Updated Jan 19, 2024 • 10.5k • • 82
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
facebook/nllb-200-distilled-600M

Translation • Updated Feb 14, 2024 • 188k • 822

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Paper • 2401.01055 • Published Jan 2, 2024 • 55
YAYI 2: Multilingual Open-Source Large Language Models

Paper • 2312.14862 • Published Dec 22, 2023 • 14
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Paper • 2312.06134 • Published Dec 11, 2023 • 3
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes

Paper • 2311.10797 • Published Nov 17, 2023

LangSplat: 3D Language Gaussian Splatting

Paper • 2312.16084 • Published Dec 26, 2023 • 16
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

CroissantLLM 🥐

CroissantLLM: A Truly Bilingual French-English Language Model

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
croissantllm/CroissantLLMChat-v0.1

Text Generation • 1B • Updated Apr 26, 2024 • 885 • 52
croissantllm/CroissantLLMBase

Text Generation • Updated Aug 30, 2024 • 277 • 33
croissantllm/croissant_dataset

Viewer • Updated Oct 3, 2024 • 16.7B • 1.96k • 7

Made with Jean Zay

Work performed using Jean Zay Supercomputer resources from GENCI-IDRIS

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 35
FlauBERT: Unsupervised Language Model Pre-training for French

Paper • 1912.05372 • Published Dec 11, 2019
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Paper • 2510.17960 • Published Oct 20, 2025 • 29

Tuning LLMs with Contrastive Alignment Instructions for Machine Translation in Unseen, Low-resource Languages

Paper • 2401.05811 • Published Jan 11, 2024 • 8
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

Language Moddel

CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

haoranxu/ALMA-13B-R

Text Generation • 13B • Updated Jan 19, 2024 • 10.5k • • 82
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
facebook/nllb-200-distilled-600M

Translation • Updated Feb 14, 2024 • 188k • 822

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 189
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9, 2024 • 27
Weaver: Foundation Models for Creative Writing

Paper • 2401.17268 • Published Jan 30, 2024 • 45
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30, 2024 • 21

LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Paper • 2401.01055 • Published Jan 2, 2024 • 55
YAYI 2: Multilingual Open-Source Large Language Models

Paper • 2312.14862 • Published Dec 22, 2023 • 14
Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

Paper • 2312.06134 • Published Dec 11, 2023 • 3
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes

Paper • 2311.10797 • Published Nov 17, 2023

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 109
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 25
RoBERTa: A Robustly Optimized BERT Pretraining Approach

Paper • 1907.11692 • Published Jul 26, 2019 • 9
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

Paper • 1910.01108 • Published Oct 2, 2019 • 21

LangSplat: 3D Language Gaussian Splatting

Paper • 2312.16084 • Published Dec 26, 2023 • 16
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs