Blog

Notes on machine learning.

2026-01-12

Normalization-free transformers are subcritical, Part 2.

Why attention doesn’t fix gradient amplification in normalization-free Transformers.

2025-01-02

What do normalization-free Transformers trade for computational simplicity?