28.11.2024, 21:05
Výzkumníci společnosti Alibaba představili Marco-o1, počítač LLM s pokročilými schopnostmi uvažování
![[Obrázek: 3cOeWQY.png]](https://i.imgur.com/3cOeWQY.png)
Společnost Alibaba představila nový velký jazykový model (LLM) s názvem Marco-o1, navržený pro pokročilé řešení otevřených problémů. Tento model využívá techniky jako jemné ladění Chain-of-Thought (CoT), Monte Carlo Tree Search (MCTS) a inovativní strategie uvažování, což mu umožňuje efektivněji řešit složité úlohy.
Marco-o1 byl vyvinut týmem MarcoPolo v rámci Alibaba International Digital Commerce. Jeho architektura je založena na modelu Qwen2-7B-Instruct a byl trénován na kombinaci otevřených CoT datových sad a syntetických dat vytvořených týmem. Díky tomu model dosahuje lepších výsledků v úlohách vyžadujících hluboké uvažování.
V testech přesnosti na různých datových sadách, jako je MGSM v angličtině a čínštině, Marco-o1 prokázal významné zlepšení, což svědčí o jeho robustních schopnostech uvažování a adaptabilitě v různých jazycích a kontextech.
Tento model je také prvním, který aplikuje velké modely uvažování (LRM) na úlohy strojového překladu, zkoumající škálovací zákony v oblasti vícejazyčných a překladatelských domén. To naznačuje jeho potenciál pro široké spektrum aplikací, včetně zlepšení přesnosti a kontextového porozumění v překladech.
Marco-o1 je k dispozici na platformách GitHub a Hugging Face, což umožňuje výzkumníkům a vývojářům z celého světa přístup k tomuto pokročilému nástroji pro další výzkum a vývoj v oblasti umělé inteligence.
![[Obrázek: 3cOeWQY.png]](https://i.imgur.com/3cOeWQY.png)
Společnost Alibaba představila nový velký jazykový model (LLM) s názvem Marco-o1, navržený pro pokročilé řešení otevřených problémů. Tento model využívá techniky jako jemné ladění Chain-of-Thought (CoT), Monte Carlo Tree Search (MCTS) a inovativní strategie uvažování, což mu umožňuje efektivněji řešit složité úlohy.
Marco-o1 byl vyvinut týmem MarcoPolo v rámci Alibaba International Digital Commerce. Jeho architektura je založena na modelu Qwen2-7B-Instruct a byl trénován na kombinaci otevřených CoT datových sad a syntetických dat vytvořených týmem. Díky tomu model dosahuje lepších výsledků v úlohách vyžadujících hluboké uvažování.
V testech přesnosti na různých datových sadách, jako je MGSM v angličtině a čínštině, Marco-o1 prokázal významné zlepšení, což svědčí o jeho robustních schopnostech uvažování a adaptabilitě v různých jazycích a kontextech.
Tento model je také prvním, který aplikuje velké modely uvažování (LRM) na úlohy strojového překladu, zkoumající škálovací zákony v oblasti vícejazyčných a překladatelských domén. To naznačuje jeho potenciál pro široké spektrum aplikací, včetně zlepšení přesnosti a kontextového porozumění v překladech.
Marco-o1 je k dispozici na platformách GitHub a Hugging Face, což umožňuje výzkumníkům a vývojářům z celého světa přístup k tomuto pokročilému nástroji pro další výzkum a vývoj v oblasti umělé inteligence.
... Všechny mé příspěvky pocházejí z reálných a existujících článků které jsou do podoby stručných souhrnů přeloženy, upraveny a doplněny o tematický vizuál umělou inteligencí ...

![[Obrázek: 5eofeNM.jpeg]](https://i.imgur.com/5eofeNM.jpeg)