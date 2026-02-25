Mozek se učí rychleji ze vzácných odměn než opakováním
Studie vedená Vijayem Mohanem K. Namboodiri, PhD, docentem neurologie na UCSF, zpochybňuje dlouhodobý názor, že asociativní učení je především proces pokus-omyl, kdy opakované párování postupně posiluje očekávání. Místo toho výzkumníci navrhují, že interval mezi zážitky s podnětem a odměnou určuje, jak moc každá nová instance aktualizuje vnitřní model mozku, přičemž delší mezery vedou k tomu, že mozek z každé události získá více informací.
Tradiční teorie tvrdí, že když zvíře poprvé narazí na podnět následovaný odměnou, dopaminové neurony se aktivují v okamžiku odměny, a že při dostatečném počtu opakování se uvolnění dopaminu přesouvá na podnět, protože mozek se učí předpovídat výsledek. V tomto rámci každá odměna způsobuje malou úpravu v predikci, zvyšuje ji, když odměna dorazí podle očekávání, a snižuje ji, když nepřijde. Nová práce UCSF tento proces reinterpretuje tím, že zdůrazňuje, jak plynutí času mezi učebními epizodami škáluje rychlost učení mozku.
Aby otestovali své nápady, Namboodiri a postdoktorand Dennis Burke, PhD, trénovali myši, aby spojovaly krátký zvuk s přístupem k vodě slazené cukrem, přičemž systematicky měnili dobu mezi pokusy se zvukem a odměnou. Některé myši zažívaly zkoušky s odstupem 30 až 60 sekund, zatímco jiné zažívaly stejnou sekvenci nápovědy a odměny jen jednou za pět až deset minut nebo i déle. Výsledkem bylo, že skupina s kratšími intervaly získala během jednoho tréninkového období mnohem více celkových odměn než skupina s delšími intervaly.
Pokud by učení záviselo hlavně na celkovém počtu párování podnětu a odměny, myši s častějšími pokusy by si asociaci osvojily rychleji. Místo toho výzkumníci zjistili, že myši, které dostávaly mnohem méně odměn, se naučily stejně jako zvířata, která zažila přibližně dvacetkrát více pokusů za stejný čas. Tato rovnost v učení napříč velmi odlišnými počty opakování ukazuje na důležitost časového rozestupu při určování, jak silně každá odměna ovlivňuje budoucí očekávání.
Podle Burkea výsledky naznačují, že asociativní učení se řídí principem blíže "načasování je všechno" než "praxe dělá mistra", protože události, které jsou od sebe vzdálenější, přinášejí větší nárůst učení za každou událost. Když tým UCSF sledoval dopaminovou aktivitu v mozcích myší, zjistil, že delší rozestupy mezi odměnami umožňují, aby se dopaminové odpovědi po menším počtu opakování přesunuly z odměny na podnět, což odpovídá vyšší mírě učení za vzácných podmínek.
V dalším experimentu tým oddělil frekvenci podnětu od frekvence odměn tím, že zvuk přehrál každých 60 sekund, ale dodával cukrovou vodu jen asi v 10 procentech případů. Při tomto přerušovaném režimu odměn začaly myši uvolňovat dopamin v reakci na zvuk po relativně málo skutečných odměnách, bez ohledu na to, zda byl nějaký konkrétní signál následován cukrovou vodou. Tento vzorec posiluje myšlenku, že vzácné, ale informativní odměny vedou k rychlé aktualizaci očekávání, i když většina signálů není odměněna.
Výsledky mají dopad na to, jak vědci chápou učení v každodenním životě a v podmínkách jako je závislost. Chování jako kouření často zahrnuje nepravidelné, přerušované zážitky s nikotinem, které jsou spojeny se silnými environmentálními signály, jako je pohled nebo vůně cigaret, což může silně vyvolat nutkání kouřit. Léčby s kontinuálním dodáváním, jako jsou nikotinové náplasti, mohou částečně fungovat tím, že přeruší úzké propojení mezi jednotlivými příjmy nikotinu a nárůsty dopaminu, čímž oslabují naučenou asociaci a snižují touhu.
Namboodiri nyní plánuje zkoumat, jak by tento rámec učení založený na načasování mohl ovlivnit návrh rychlejších a efektivnějších systémů umělé inteligence. Mnoho současných algoritmů AI upravuje své interní modely tím, že po téměř každé interakci provádějí malé aktualizace napříč obrovskými datovými sadami, což může být výpočetně náročné a pomalé. Učební model, který podobně jako myší mozek v těchto experimentech získává více informací z řídkých, ale strategicky rozložených zkušeností, by mohl AI umožnit konvergovat k přesným předpovědím s mnohem menším počtem trénovacích příkladů.
Výzkumníci poznamenávají, že biologické mozky zatím stále výrazně předčí stroje ve schopnosti extrahovat strukturu z omezených a nepravidelných datových toků. Tím, že objasní, jak mozek využívá rozestupy odměn a podnětů k řízení toho, jak silně každá událost formuje budoucí očekávání, nabízí studie UCSF nový pohled na to, proč může být přirozené učení tak efektivní a jak by bylo možné přepracovat inženýrské systémy tak, aby tuto efektivitu napodobovaly.
Zdroj v angličtině: ZDE
