Britské listy plně závisejí na finančních příspěvcích čtenářů. Prosíme, přispějte. ➥

Elon Musk říká, že všechna lidská data pro výcvik umělé inteligence jsou „vyčerpána"

9. 1. 2025

čas čtení 3 minuty

Musk navrhuje přechod na samoučící se syntetická data, ačkoli někteří varují, že by to mohlo způsobit „zhroucení modelu“

Společnostem zabývajícím se umělou inteligencí došla data pro výcvik jejich modelů a „vyčerpaly“ sumu lidských znalostí, prohlásil Elon Musk.

Musk navrhl, že technologické firmy se budou muset obrátit k „syntetickým“ datům - neboli materiálu vytvořenému modely umělé inteligence - pro vytváření a vylaďování nových systémů, což je proces, který již u rychle se vyvíjející technologie probíhá.

„Kumulativní suma lidských znalostí byla při tréninku AI vyčerpána. To se stalo v podstatě minulý rok,“ řekl Musk, který v roce 2023 spustil vlastní firmu xAI zabývající se umělou inteligencí.

Modely AI, jako je model GPT-4o pohánějící chatbota ChatGPT, jsou „trénovány“ na obrovském množství dat získaných z internetu, kde se v podstatě učí rozpoznávat vzory v těchto informacích - což jim umožňuje například předvídat další slovo ve větě.

V rozhovoru, který Musk živě přenášel na své sociální síti X, řekl, že „jediným způsobem“, jak čelit nedostatku zdrojového materiálu pro výcvik nových modelů, je přejít na syntetická data vytvořená umělou inteligencí.

S odkazem na vyčerpání datových zásob řekl: „Jediný způsob, jak je pak doplnit, jsou syntetická data, kdy ... to jakoby napíše esej nebo přijde s tezí a pak se to samo ohodnotí a ... projde tímto procesem samoučení.“

Společnost Meta, vlastník Facebooku a Instagramu, použila syntetická data k vyladění svého největšího modelu umělé inteligence Llama, zatímco Microsoft pro svůj model Phi-4 rovněž použil obsah vytvořený umělou inteligencí. Společnost Google a OpenAI, která stojí za projektem ChatGPT, rovněž použily při své práci s AI syntetická data.

Musk však také varoval, že zvyk modelů AI generovat „halucinace“ - termín pro nepřesné nebo nesmyslné výstupy - představuje pro proces zpracování syntetických dat nebezpečí.

V živě přenášeném rozhovoru s Markem Pennem, předsedou reklamní skupiny Stagwell, uvedl, že halucinace učinily proces využívání umělého materiálu „náročným“, protože „jak poznáte, zda ... odpověď halucinovala, nebo je to skutečná odpověď“.

Andrew Duncan, ředitel oddělení základů umělé inteligence v britském Institutu Alana Turinga, uvedl, že Muskův komentář se shoduje s nedávným akademickým článkem, který odhaduje, že veřejně dostupná data pro modely umělé inteligence by mohla dojít již v roce 2026. Dodal, že přílišné spoléhání na syntetická data představuje riziko „zhroucení modelu“, což je termín označující zhoršující se kvalitu výstupů modelů.

„Když začnete model krmit syntetickými materiály, začnete dosahovat klesajících výnosů,“ řekl s tím, že hrozí riziko, že výstupy budou neobjektivní a málo kreativní.

Duncan dodal, že nárůst obsahu generovaného umělou inteligencí online by mohl vést také k tomu, že tento materiál bude absorbován do tréninkových sad dat umělé inteligence.

Vysoce kvalitní data a kontrola nad nimi jsou jedním z právních bitevních polí v boomu AI. Společnost OpenAI loni přiznala, že bez přístupu k materiálům chráněným autorskými právy by nebylo možné vytvářet nástroje, jako je ChatGPT, zatímco tvůrčí odvětví a vydavatelé požadují kompenzace za použití svých výstupů v procesu výcviku modelů.

Zdroj v angličtině ZDE

Umělá inteligence, AI