- Opus 4.8 (Thinking) ve Opus 4.7 (Thinking) dahil olmak üzere tüm Claude Opus varyantlarını birebir eşleşmelerde geride bırakıyor.

- En büyük farklar güçlü modellere karşı elde edildi: Kimi-K2.6'ya karşı %61,0, Sonnet 4.6'ya karşı %59,4 ve Opus 4.7 (Thinking)'e karşı %55,0.

- En zorlu rekabet ise zirvedeki modellerden gelmiyor: 16. sırada yer alan GPT-5.5 (xHigh), %41,7'ye karşı %40,0'lık oranla modeli en çok zorlayan isim oldu. Bir diğer yakın rekabet ise %47,0'a karşı %42,4 ile Opus 4.6 ile yaşandı.

Burada nesiller arası bir nüans dikkat çekiyor. Kendi selefi GLM-5.1 ile yapılan karşılaştırmada yeni model %45,5'e %45,5 ile berabere kaldı.