Attention Residuals: Moonshot AIs neü Methode für effizientere Transformer
Moonshot AI hat Attention Residuals veröffentlicht. Die Methode ersetzt klassische Residual Connections durch lernbare Aufmerksamkeit und liefert einen 1.25 fach Compute Vorteil.