Tag: scaling

Tag: scaling

2 posts

Beyond Positional Bias: How DroPE Unlocks Zero-Shot Long Context in LLMs

A review of DroPE, a simple but counterintuitive method that extends LLM context length by dropping positional embedd...

paperreview deeplearning llm attention

Paper Review: Byte Latent Transformer: Patches Scale Better Than Tokens

My review of the paper Byte Latent Transformer Patches Scale Better Than Tokens

paperreview deeplearning nlp llm