Co je vlastně umělá inteligence · Umělá inteligence

Krátký příběh: jak se počítače naučily psát

Na začátku umělá inteligence dnešní chatovací roboty vůbec nepřipomínala. Od 50. do 80. let se počítače učily hlavně tak, že jim lidé ručně zapisovali pravidla: „Když má pacient horečku a kašel, může jít o chřipku.“ Takových pravidel postupně vznikaly tisíce. Říkalo se jim expertní systémy — tedy programy, které dokázaly překvapivě dobře radit v úzkém oboru, například ve zdravotní diagnostice nebo chemické analýze.

Expertní systémy ale měly zásadní slabinu. Jakmile narazily na situaci, se kterou žádné pravidlo nepočítalo, nevěděly si rady. V první polovině 80. let přesto zažily komerční rozmach. Brzy se však ukázalo, že jsou drahé na údržbu a že jejich hlavní slabina nejde snadno obejít. Na konci 80. a začátku 90. let proto opadlo nadšení i financování výzkumu. Historici toto období dodnes označují jako „zimu umělé inteligence“. ^[5]

Později se změnil samotný přístup. Místo aby člověk počítači předem vysvětloval každé pravidlo, začal mu dávat příklady. Už ne: „Takhle přesně poznáš kočku.“ Spíš: „Tady máš tisíc obrázků koček — najdi, co mají společné.“ Tím se otevřela cesta ke strojovému učení, tedy k metodám, při nichž počítač hledá vzory v datech.

Počítač už neměl jen poslušně vykonávat pravidla napsaná člověkem. Měl se z příkladů sám naučit, jaké znaky jsou důležité. Pro veřejnost se tato proměna stala viditelnou hlavně díky velkým vítězstvím: v roce 1997 porazil IBM Deep Blue mistra světa v šachu Garryho Kasparova ^[6], v roce 2016 program AlphaGo od firmy DeepMind porazil Lee Sedola, jednoho z nejlepších hráčů světa ve hře go, a v roce 2022 přišel ChatGPT. Během dvou měsíců získal 100 milionů uživatelů a spustil „AI horečku“, kterou dnes vidíme téměř všude. ^[7]

Co se mezitím stalo, že se z počítačů založených na ručně psaných pravidlech staly systémy schopné psát texty, překládat, programovat nebo odpovídat na otázky? Sešly se tři věci najednou. Internet přinesl obrovské množství textů, obrázků a dalších dat, z nichž se modely mohly učit. Grafické karty, původně vyvíjené hlavně pro hry, se ukázaly jako ideální výpočetní motor pro umělou inteligenci. Dokážou totiž rozdělit výpočet na tisíce malých kroků a řešit je najednou — přesně tak, jak to moderní modely potřebují. A v roce 2017 vědci z Googlu představili transformer — tedy nový princip, který modelům umožnil mnohem lépe zachycovat souvislosti v textu. Právě z něj vyrostly dnešní velké jazykové modely. ^[3]

Tím začala nová éra. Umělá inteligence už nestojí hlavně na ručně psaných pravidlech ani na malých souborech příkladů, ale na učení z obrovského množství dat — z miliard ukázek textu, obrázků a dalších vzorů. Neučí se jako člověk a nerozumí světu stejným způsobem jako my. Přesto se naučila rozpoznávat zákonitosti v jazyce tak dobře, že dokáže skládat věty, vysvětlovat složité pojmy, psát kód nebo napodobovat styl lidského textu. Tady začíná příběh umělé inteligence, která se naučila zacházet s jazykem tak přesvědčivě, že její odpovědi začaly působit jako skutečný rozhovor.

Model nepřemýšlí jako člověk

Když napíšete otázku velkému jazykovému modelu, model nepřemýšlí jako člověk. Nevychází z vlastní zkušenosti, úmyslu ani porozumění světu v lidském smyslu. Místo toho postupně dopočítává, jaké pokračování textu je v dané chvíli nejpravděpodobnější.

Základní jednotkou takového výpočtu je token. Token je malý kousek textu — někdy celé krátké slovo, jindy jen část slova nebo jednotlivý znak. Model vybere pravděpodobné pokračování, přidá ho k rozepsané odpovědi a stejný krok opakuje znovu a znovu. Slovo po slově, přesněji token po tokenu, tak postupně vzniká celá odpověď.

Navenek to působí mnohem chytřeji, než by se z tak jednoduchého principu mohlo zdát. Model při tréninku prošel obrovským množstvím textů, a proto při skládání odpovědi velmi dobře odhaduje, jaké pokračování se hodí k tomu, co už bylo napsáno. Když vysvětluje složitý pojem, staví argument, překládá větu, píše program nebo odpovídá na odbornou otázku, nedělá to podle ručně sepsaných pravidel ani z lidského porozumění. Přesto z dlouhé řady drobných voleb vzniká odpověď, která může působit jako souvislé vysvětlení, překlad, program nebo odborná úvaha.

Právě v tom je zvláštnost velkých jazykových modelů: z jednoduchého principu může vzniknout překvapivě složité chování. Model se při tréninku učí předpovídat další kousek textu. Protože se ale učí z obrovského množství knih, článků, webových stránek a dalších textů, začne zachycovat i velmi složité jazykové vzorce. Díky tomu dokáže shrnovat, překládat, psát kód, používat nástroje nebo řešit úlohy v několika krocích. U novějších modelů, které jsou navržené pro náročnější otázky, bývá tento postup delší: model si může problém nejprve rozložit, projít několik mezikroků a teprve potom sestavit odpověď pro čtenáře. Stále nejde o lidské porozumění, ale o mimořádně výkonný způsob, jak z naučených vzorců vytvořit text, který dává čtenáři smysl.

Aby to fungovalo, musí mít model uvnitř obrovské množství „naučených čísel“. Odborně se jim říká parametry. Právě v nich je nepřímo uloženo to, co se model při tréninku naučil: styl psaní, jazykové vzorce, části faktických znalostí i obvyklé podoby vysvětlení, argumentu nebo postupu řešení. Největší dnešní modely mívají stovky miliard parametrů; u některých se mluví i o bilionech, i když firmy u uzavřených modelů přesná čísla často nezveřejňují.

Parametry vznikají při tréninku. Model prochází obrovským množstvím textů — například knihami, články, webovými stránkami nebo programovým kódem — a postupně si upravuje vnitřní čísla tak, aby stále lépe odhadoval, jak text obvykle pokračuje. U špičkových modelů může samotný výpočetní trénink stát desítky až stovky milionů dolarů a trvat měsíce na tisících speciálních čipů. Některé novější otevřené modely uvádějí výrazně nižší přímé náklady na trénink. Tyto částky ale obvykle nezahrnují celý předchozí výzkum, přípravu dat, vývoj infrastruktury ani neúspěšné pokusy.

V druhé fázi přicházejí na řadu lidé. Model po prvním tréninku umí plynule pokračovat v textu, ale sám od sebe ještě nepozná, která odpověď je užitečná, bezpečná nebo vhodná. Dotaz na podvod, zneužití cizího účtu nebo výrobu jedu by pro něj bez dalšího dolaďování mohl být jen další text, na který má navázat co nejpravděpodobnější odpovědí — podobně jako u receptu, překladu nebo školní úlohy. Proto lidští hodnotitelé posuzují jeho odpovědi, porovnávají lepší a horší varianty a na příkladech mu pomáhají rozlišovat, kdy má pomoci, kdy má být opatrný a kdy má požadavek odmítnout. Tomu se říká učení s lidskou zpětnou vazbou a je to jeden z důvodů, proč jazykové modely odpovídají zdvořile a odmítají škodlivé požadavky.

Tato práce má ale i méně viditelnou stránku. Často se zadává externím firmám v zemích s nízkými mzdami. Dobře známý je například případ pracovníků v Keni, kteří pro dodavatele OpenAI označovali toxický obsah za méně než 2 dolary za hodinu. I proto se vede debata o podmínkách lidí, kteří tuto skrytou práci pro vývoj AI dělají. ^[8]

Když je model natrénovaný a začneme ho v praxi používat, neodpovídá jen na poslední větu, kterou mu napíšeme. Při každé odpovědi vychází z textu, který má v danou chvíli „po ruce“. Patří do něj aktuální otázka, často i předchozí části téhož rozhovoru, případně vložený dokument, delší zadání a také instrukce, které určují, jak se má model chovat. Nejde tedy o další trénink modelu, ale o soubor informací, z něhož model při konkrétní odpovědi právě vychází.

Odborně se tomuto prostoru říká kontextové okno. U některých dnešních modelů může být velmi dlouhé: dokážou v jednom zadání pracovat s textem o rozsahu několika knih, tedy se stovkami tisíc až miliony tokenů. Není to ale paměť v lidském smyslu. Model si tímto způsobem sám od sebe „nevzpomíná“ na dávné rozhovory. Při aktuální odpovědi může využít jen to, co se do jeho kontextového okna právě vejde.

Právě díky kontextovému oknu mohou moderní modely shrnovat dlouhé právní dokumenty, porovnávat výroční zprávy, hledat souvislosti ve vložených podkladech nebo pomáhat s rozborem celé knihy. Čím větší část textu má model při odpovědi k dispozici, tím lépe může navazovat na předchozí pasáže, vracet se k nim a držet se zadaného úkolu.

U velkých modelů se navíc ukazuje, že některé schopnosti — například řešení matematických úloh, programování nebo vedení souvislého rozhovoru — se výrazně zlepšují až od určité velikosti a kvality modelu. Někdy se jim říká emergentní schopnosti, tedy schopnosti, které se plně projeví teprve u dostatečně velkého systému. Neznamená to ale, že se v modelu z ničeho nic objeví lidské porozumění. Vědci se stále přou, zda jde opravdu o nový skok v chování modelu, nebo spíš o důsledek toho, jak tyto schopnosti měříme.

I proto pokračuje debata o tom, zda se podobné modely mohou jednou přiblížit obecné umělé inteligenci — AGI, tedy systému, který by dokázal zvládat široké spektrum úloh podobně pružně jako člověk. Této otázce se podrobněji věnuje kapitola o AGI a existenčních rizicích. ^[9]

Důležité je proto pamatovat na obě stránky věci. Velký jazykový model nepřemýšlí jako člověk: nemá vědomí, vlastní záměr ani lidské porozumění světu. Neví, co chce říct, tak jako to ví člověk. Zároveň však dokáže z obrovského množství naučených jazykových vzorců skládat odpovědi, které často působí jako výsledek promyšleného uvažování. Právě v tomto napětí — mezi poměrně jednoduchým principem a překvapivě složitým chováním — spočívá podstata dnešních jazykových modelů.

Proč si AI vymýšlí

Představte si, že požádáte ChatGPT, aby vám našel odbornou citaci k určitému tématu. Model obratem vytvoří záznam, který vypadá naprosto přesvědčivě: jméno autora, název článku, odborný časopis, rok vydání i čísla stránek. Na první pohled působí jako poctivě dohledaný zdroj. Jenže žádný takový článek neexistuje — model si celou citaci prostě vymyslel.

Podobně dopadl v roce 2023 americký právník Steven Schwartz. V soudním podání použil několik smyšlených precedentů, které mu „připravil“ ChatGPT. Nebyla to drobná chyba v citaci, ale neexistující soudní případy předložené jako skutečná právní opora. Soud proto uložil pokutu 5 000 dolarů právníkům i jejich kanceláři Levidow, Levidow & Oberman. Případ Mata v. Avianca se od té doby často uvádí jako varování před bezhlavou důvěrou v odpovědi umělé inteligence. ^[10]

Z toho plynou dvě praktická pravidla, ke kterým se v tomto průvodci budeme opakovaně vracet.

AI je užitečná tam, kde lze výsledek snadno zkontrolovat. Programový kód buď běží, nebo ne. Překlad si může přečíst rodilý mluvčí. Shrnutí dlouhého článku porovnáte s původním textem. Návrh e-mailu sami posoudíte dřív, než ho odešlete.
AI je riziková tam, kde se správnost ověřuje obtížně. Faktická tvrzení o méně známých lidech nebo událostech, lékařské diagnózy, právní rady či finanční doporučení mohou znít velmi jistě, i když jsou chybné. V takových případech může AI posloužit jako zdroj nápadů, první orientace nebo seznam otázek, které je třeba dál ověřit. Neměla by ale být konečnou autoritou.

Halucinací postupně ubývá. Novější modely lépe rozpoznávají situace, kdy si nejsou jisté, a některé systémy si navíc před odpovědí dokážou dohledat informace na internetu nebo ve vložených dokumentech. Tomu se říká RAG — zjednodušeně řečeno odpovídání s pomocí vyhledaných podkladů. Ani to však halucinace úplně neodstraní. Nejde o dětskou nemoc, ze které modely jednoduše vyrostou, ale o důsledek toho, jak jsou jazykové modely uvnitř postavené.

Co AI dnes opravdu umí — a co ne

Úloha	Stav v roce 2026	Kam to směřuje
Napsat smysluplný text v češtině	Velmi dobře (ChatGPT, Claude, Gemini)	Běžně použitelné
Přeložit běžný text	Velmi dobře u běžných textů a velkých jazyků; odborné, právní a literární překlady vyžadují lidskou kontrolu	Z velké části běžná praxe
Napsat funkční počítačový kód	Dobře u běžných úloh, problém u velkých projektů	Postupně se zlepšuje
Vyřešit středoškolskou matematiku	Dobře	Zlomový pokrok 2024–2025
Vyřešit olympiádní matematiku	Špičkové výsledky 2025–2026	Rychlý postup
Vygenerovat realistický obraz	Velmi dobře (Midjourney, FLUX, Stable Diffusion, generování přímo v ChatGPT)	Běžně použitelné
Vygenerovat realistické video	Klipy zhruba 10–20 sekund, u špičkových modelů s nativním zvukem a kvalitou blízkou filmové; stále drahé	Delší vícezáběrové video; plná filmová délka zůstává výzvou
Bavit se o vašem profesním oboru	Dobře po doplnění kontextu, ale občas si vymýšlí detaily	Pomalu — limit je v datech
Pomáhat s lékařskou diagnostikou	Velmi dobré výsledky v některých úzkých úlohách, zejména v obrazové diagnostice (rentgen, CT); klinické nasazení vyžaduje regulaci a dohled lékaře	Postupně, regulace a odpovědnost jsou klíčové
Bezpečně řídit auto	Komerční robotaxi v některých amerických městech	Stále roky cesty
Skutečné porozumění a uvažování	AI uvažování napodobuje, ale jen na povrchu	Nejasné — možná čeká velký objev
Obecná inteligence (AGI)	Předmět odborného sporu — viz kapitola 13	Nikdo neví

Krátký příběh: jak se počítače naučily psát

Model nepřemýšlí jako člověk

Proč si AI vymýšlí

Co AI dnes opravdu umí — a co ne

Zdroje