Inception Labs veröffentlicht Mercury 2: Das weltweit schnellste Reasoning-LLM erreicht über 1.000 Tokens pro Sekunde durch Diffusionsarchitektur
Inception Labs hat Mercury 2 veröffentlicht, ein diffusionsbasiertes Reasoning-Sprachmodell, das auf NVIDIA Blackwell GPUs über 1.000 Tokens pro Sekunde erzeugt — mehr als fünffach schneller als führende autoregressive Konkurrenten. Anders als beim traditionellen sequentiellen Decoding verwendet Mercury 2 parallele Token-Verfeinerung und ermöglicht Reasoning-Qualität innerhalb von Echtzeit-Latenzbudgets zu Kosten von $0.25 pro Million Eingabetokens.


