23.2.2025, 17:39
Lhala společnost xAI o benchmarcích Grok 3?
![[Obrázek: YP6P40T.png]](https://i.imgur.com/YP6P40T.png)
![[Obrázek: YP6P40T.png]](https://i.imgur.com/YP6P40T.png)
- Kontroverze ohledně výsledků AI modelů:
Společnost xAI (Elon Musk) zveřejnila grafy, podle nichž má jejich nový model Grok 3 lepší výsledky v matematickém testu AIME 2025 než konkurenční modely od OpenAI. Zaměstnanci OpenAI ale tvrdí, že xAI vynechalo klíčové nastavení “cons@64”, které zlepšuje skóre některých modelů, a tudíž graf xAI může být zavádějící.
- Kritika a argumentace:
- OpenAI poukazuje na to, že při vynechání “cons@64” (které umožňuje modelu pokusit se o odpověď vícekrát a vybrat nejčastější odpověď) může xAI prezentovat Grok 3 jako lepší, než ve skutečnosti je.
- xAI (Igor Babushkin) namítá, že OpenAI sama publikovala podobně jednostranné srovnávací grafy.
- OpenAI poukazuje na to, že při vynechání “cons@64” (které umožňuje modelu pokusit se o odpověď vícekrát a vybrat nejčastější odpověď) může xAI prezentovat Grok 3 jako lepší, než ve skutečnosti je.
- Význam “cons@64”:
Tento přístup dává modelu 64 pokusů na vyřešení jednotlivých úloh a hodnotí se nejčastější odpověď, čímž obvykle dochází ke zlepšení výsledků.
- Důležitý kontext:
- AIME 2025 je sada náročných matematických úloh, které se v AI komunitě využívají ke zkoumání schopnosti modelů řešit pokročilé matematické problémy.
- Skóre modelů se mohou výrazně lišit podle způsobu testování (např. jen první pokus “@1” versus 64 pokusů “cons@64”).
- AIME 2025 je sada náročných matematických úloh, které se v AI komunitě využívají ke zkoumání schopnosti modelů řešit pokročilé matematické problémy.
- Nezodpovězené otázky:
Významnou proměnnou zůstává výpočetní náročnost (a tím i náklady), kterou každý model vyžaduje k dosažení nejvyššího skóre. Tato neznámá naznačuje, že samotné benchmarky často nevypovídají dostatečně o praktické použitelnosti modelů.
... Všechny mé příspěvky pocházejí z reálných a existujících článků které jsou do podoby stručných souhrnů přeloženy, upraveny a doplněny o tematický vizuál umělou inteligencí ...

![[Obrázek: H4uAkyu.jpeg]](https://i.imgur.com/H4uAkyu.jpeg)