24.3.2025, 16:18
Opravdu užitečný AI asistent s očima? Google Gemini teď vidí, slyší a radí podle toho, co právě děláte
![[Obrázek: MeQ1hsI.jpeg]](https://i.imgur.com/MeQ1hsI.jpeg)
Google začíná spouštět funkci Project Astra v asistenci Gemini – sdílení obrazovky a reakce AI v reálném čase
Co je Project Astra?
Nový model hlasové umělé inteligence gpt-4o-transcribe od společnosti OpenAI umožňuje přidat řeč do stávajících textových aplikací během několika sekund
![[Obrázek: 402dqWR.png]](https://i.imgur.com/402dqWR.png)
OpenAI představilo nové hlasové modely založené na GPT-4oCo je nového?
Shrnutí:
OpenAI významně posunulo možnosti svých hlasových AI modelů, nabízí vysokou kvalitu, přizpůsobitelnost hlasu a snadnou integraci, ale musí se potýkat s tvrdou konkurencí i kritikou v rychle rostoucím sektoru hlasových technologií.
![[Obrázek: MeQ1hsI.jpeg]](https://i.imgur.com/MeQ1hsI.jpeg)
Google začíná spouštět funkci Project Astra v asistenci Gemini – sdílení obrazovky a reakce AI v reálném čase
Co je Project Astra?
- Nová funkce asistenta Gemini od Googlu, umožňuje sdílet obrazovku nebo kameru telefonu s umělou inteligencí.
- Gemini pak v reálném čase analyzuje a reaguje na obsah obrazovky či záběr kamery.
- Pomáhá uživatelům například vysvětlit, co vidí, nebo poradit při složitých úkonech.
- Uživatel na Redditu (Kien_PS) sdílel první dojmy:
- Po spuštění Gemini Live se objevila dvě nová tlačítka:
- Sdílení obrazovky
- Přenos videa z kamery
- Sdílení obrazovky
- AI pak dokázala popsat obsah obrazovky telefonu v reálném čase.
- Po spuštění Gemini Live se objevila dvě nová tlačítka:
- Funkce je dostupná zatím velmi omezeně, postupně se ale rozšíří mezi další uživatele.
- V Česku je pokročilý model Gemini Advanced (včetně Project Astra) dostupný v rámci nejvyššího předplatného AI Premium za 550 Kč měsíčně.
- Původně Google oznámil, že jako první získají tuto funkci telefony:
- Pixel
- Nová řada Galaxy S25
- Pixel
- První hlášení od uživatelů však pochází z telefonu Xiaomi, což naznačuje postupné uvolňování bez ohledu na původní plán.
- Project Astra přináší revoluční schopnosti asistenta Gemini reagovat na obsah obrazovky či kamery v reálném čase.
- Zatím je dostupný jen omezeně, ale očekává se rychlé rozšíření na další uživatele s předplatným Google Gemini.
Nový model hlasové umělé inteligence gpt-4o-transcribe od společnosti OpenAI umožňuje přidat řeč do stávajících textových aplikací během několika sekund
![[Obrázek: 402dqWR.png]](https://i.imgur.com/402dqWR.png)
OpenAI představilo nové hlasové modely založené na GPT-4oCo je nového?
- OpenAI (tvůrce ChatGPT) představilo tři nové hlasové AI modely:
- gpt-4o-transcribe (převod řeči na text)
- gpt-4o-mini-transcribe (menší a levnější verze)
- gpt-4o-mini-tts (převod textu na řeč s možností přizpůsobení hlasu)
- gpt-4o-transcribe (převod řeči na text)
- Modely budou dostupné přes API pro vývojáře a také na demo webu OpenAI.fm pro běžné uživatele.
- Vylepšená kvalita přepisu:
- Nižší chybovost oproti předchozím modelům (např. Whisper).
- Zvládají dobře hluk, různé akcenty a různou rychlost řeči.
- Přesnost přepisu angličtiny je 2,46 % chybovosti (Whisper měl výrazně vyšší chybovost).
- Nižší chybovost oproti předchozím modelům (např. Whisper).
- Přizpůsobitelný hlas (model gpt-4o-mini-tts):
- Uživatel může nastavit akcent, tón, výšku hlasu i emoce pomocí jednoduchého textového promptu.
- OpenAI se tímto vyhýbá kontroverzím (např. s imitací hlasu Scarlett Johansson), protože uživatel si hlas sám určí.
- Uživatel může nastavit akcent, tón, výšku hlasu i emoce pomocí jednoduchého textového promptu.
- Nově uvedena funkce streamingu řeči na text, což umožní plynulé interakce v reálném čase.
- Call centra, přepis schůzek, hlasoví AI asistenti.
- Firmy mohou jednoduše integrovat hlasové modely do svých aplikací (prý stačí jen 9 řádků kódu).
- Modely jsou okamžitě dostupné přes OpenAI API:
- gpt-4o-transcribe: 6 USD za milion audio tokenů (asi 0,006 USD za minutu)
- gpt-4o-mini-transcribe: 3 USD za milion audio tokenů (asi 0,003 USD za minutu)
- gpt-4o-mini-tts: 0,60 USD za milion textových tokenů, 12 USD za milion audio tokenů (cca 0,015 USD za minutu)
- gpt-4o-transcribe: 6 USD za milion audio tokenů (asi 0,006 USD za minutu)
- OpenAI vstupuje na trh s velkou konkurencí (např. ElevenLabs, Hume AI, open-source model Orpheus 3B).
- Přestože konkurence nabízí další funkce (např. rozlišení více řečníků), OpenAI je zatím cenově konkurenceschopné.
- Firma EliseAI (realitní služby) hlásí lepší spokojenost klientů díky přirozenějším hlasům.
- Společnost Decagon (hlasoví asistenti) zaznamenala zlepšení přesnosti přepisu o 30 % a velmi rychlou integraci.
- Někteří kritici tvrdí, že OpenAI ustupuje od plně real-time hlasových konverzací ve prospěch API.
- Únik informací o modelech proběhl krátce před oficiálním oznámením.
- OpenAI chce v budoucnu nadále rozvíjet hlasové a multimodální AI schopnosti.
Shrnutí:
OpenAI významně posunulo možnosti svých hlasových AI modelů, nabízí vysokou kvalitu, přizpůsobitelnost hlasu a snadnou integraci, ale musí se potýkat s tvrdou konkurencí i kritikou v rychle rostoucím sektoru hlasových technologií.
... Všechny mé příspěvky pocházejí z reálných a existujících článků které jsou do podoby stručných souhrnů přeloženy, upraveny a doplněny o tematický vizuál umělou inteligencí ...

![[Obrázek: jnlALHr.png]](https://i.imgur.com/jnlALHr.png)
![[Obrázek: 5eofeNM.jpeg]](https://i.imgur.com/5eofeNM.jpeg)