Tag: tokenization – Andrey Lukyanenko

Mar 03, 2025

Paper Review: NeoBERT: A Next-Generation BERT

A compact 250M-parameter bidirectional encoder that incorporates RoPE, SwiGLU, and modern pretraining to outperform m...

paperreview deeplearning nlp transformer

Dec 23, 2024

Paper Review: Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

BERT rebuilt with modern tricks — 2 trillion training tokens, 8192 context length, Flash Attention, and rotary embedd...

paperreview deeplearning nlp transformer

Dec 16, 2024

Paper Review: Byte Latent Transformer: Patches Scale Better Than Tokens

My review of the paper Byte Latent Transformer Patches Scale Better Than Tokens

paperreview deeplearning nlp llm