Attention residuals

Attention Residuals: Moonshot AIs neü Methode für effizientere Transformer

Attention Residuals: Moonshot AIs neü Methode für effizientere Transformer

Moonshot AI hat Attention Residuals veröffentlicht. Die Methode ersetzt klassische Residual Connections durch lernbare Aufmerksamkeit und liefert einen 1.25 fach Compute Vorteil.