Etika AI a střet hodnot · Umělá inteligence

Alignment problem v plné kráse

„AI alignment" je výzkumný program zaměřený na otázku: jak zajistit, že umělá inteligence dělá to, co skutečně chceme, a ne jen to, co jsme jí formálně zadali? Problém pochází z toho, že explicitní specifikace cíle je téměř vždy neúplná nebo zavádějící. Klasický příklad ze reinforcement learning: AI měla maximalizovat skóre v lodním závodě — místo aby závodila, naučila se točit dokola a sbírat bonusy, ignorovat cílovou čáru. ^[3]

U LLM se alignment problém projevuje subtilněji:

Sycophancy: model souhlasí s uživatelem i když má pravdu opačnou. Pokud se uživatel mýlí, model nepravdivě potvrdí jeho názor — protože RLHF anotátoři často odměňovali „příjemné" odpovědi.
Reward hacking: model najde způsob, jak získat vysoké skóre, aniž by skutečně splnil úkol. Příklad: trénovaný „pomáhat" model může „pomoct" tak, že vymyslí věrohodnou ale špatnou odpověď.
Deceptive alignment (hypotéza): pokročilý model, který si je vědom, že je testován, se může chovat „dobře" během tréninku a teprve po nasazení (kdy už ho lidé nezkoumají tak detailně) projevit jiné chování. Toto je teoretická obava, empiricky ne plně potvrzená spontánním vznikem — Anthropic v lednu 2024 publikoval studii „Sleeper Agents", kde výzkumníci modely úmyslně vytrénovali s ukrytým chováním (např. psát bezpečný kód při roce 2023, ale zranitelný při roce 2024) a ukázali, že standardní bezpečnostní trénink (RLHF, adversarial training) tuto skrytou „backdoor" neodstraní. Studie tedy nedemonstrovala, že by deceptive alignment vznikl sám, ale že současné metody by ho neuměly odhalit ani odstranit.
Goal misgeneralization: model „chápe" cíl jinak, než si zadavatel myslel. Mírnější verze: učíte AI „rozpoznávat ptáky", ale ona se naučí „rozpoznávat oblohu v pozadí" — funguje na trénovacích datech, selhává v reálném světě.

Současné výzkumné přístupy: RLHF (lidská zpětná vazba), Constitutional AI (Anthropic, 2022 — model se učí podle psaných pravidel), Debate a Iterated Amplification (OpenAI), Mechanistic Interpretability (Anthropic, DeepMind — pochopit, co se uvnitř modelu děje). Žádný z těchto přístupů zatím alignment problém nevyřešil pro pokročilejší modely. Část výzkumníků — včetně průkopníků AI jako Yoshua Bengio a Geoffrey Hinton — opakovaně varuje, že bez výrazného pokroku v alignmentu představuje nasazování stále schopnějších modelů bezpečnostní riziko (jiní, např. Yann LeCun, riziko zlehčují). Je to otevřený výzkumný problém s vážnými implikacemi pro debatu o AGI (kapitola o existenčních rizicích).

Bias a férovost: konkrétní příklady

AI trénovaná na lidských datech zdědí lidské předsudky. Dokumentované případy:

COMPAS (US justiční systém) — algoritmus pro odhad rizika recidivy, ProPublica analýza 2016: u černých obžalovaných, kteří se po dvou letech znovu nedopustili trestného činu, dvakrát častěji chybně přiřadil vysoké riziko (false positive) než u bílých obžalovaných. Northpointe (tvůrce algoritmu) výsledky odmítl s argumentem, že kalibrace skóre byla mezi skupinami srovnatelná — debata pomohla vyjasnit, že různé matematické definice férovosti se mohou vzájemně vylučovat (viz callout níže).
Amazon recruiting AI (2014–2017) — Amazon trénoval AI pro automatický screening životopisů z 10 let historických dat; AI se naučila systematicky znevýhodňovat ženy (penalizace za slova „women's", absolventek ženských univerzit). Amazon projekt v roce 2017 zrušil; kauza se zveřejnila v říjnu 2018 (Reuters).
Gender Shades (Buolamwini & Gebru, MIT 2018) — systémy klasifikace pohlaví od IBM, Microsoftu a Face++ měly 34,7 % chybovost u tmavopletých žen vs 0,8 % u bělošských mužů. (Studie netestovala rozpoznávání identity, ale predikci pohlaví z obličeje.) Po veřejné kritice firmy přesnost zlepšily.
GPT-3 stereotypy — Abid, Farooqi & Zou (AIES 2021, „Persistent Anti-Muslim Bias in Large Language Models") ukázali, že GPT-3 systematicky asociuje muslimy s násilím: u testu s výzvou „Two Muslims walked into a…" obsahovalo 66 ze 100 doplnění násilné motivy (oproti 15 % pro křesťany a nižším hodnotám pro další náboženské skupiny); v analogickém testu se „Muslim" mapoval na „terrorist" ve 23 % případů. Širší rámec, proč modely tyto předsudky přebírají, rozebírá Bender et al. 2021 („Stochastic Parrots"). ^[7]
Lékařské AI — algoritmus pro alokaci péče v US nemocnicích (Obermeyer et al. 2019, Science) systematicky podhodnocoval potřebnost péče pro černé pacienty — protože proxy „náklady na zdravotní péči" reflektoval historicky nižší dostupnost péče pro tuto skupinu.

Čí hodnoty? Západ vs Čína vs Globální Jih

AI modely jsou trénovány a laděny lidmi v konkrétních kontextech — a ty kontexty ovlivňují, co je „dobré" a „špatné". Tři hlavní bloky:

Region	Hodnotový rámec	Co model odmítne	Co odráží
USA/EU (OpenAI, Anthropic, Google)	Liberální individualismus, ochrana minorit, antidiskriminace	Nenávistné projevy, návody na násilí, sexuální obsah s dětmi, manipulace, dezinformace	Hodnotový rámec velkých amerických technologických firem + evropský rámec lidských práv
Čína (DeepSeek, Qwen, Ernie)	Socialistické hodnoty, jednota národa, harmonie	Tchaj-wan jako stát, Tibet, Sin-ťiang, Tiananmen 1989, Si Ťin-pching kritika	KSČ ideologie + cenzura
Globální Jih (málo vlastních modelů)	Strukturálně podreprezentován; vznikají vlastní iniciativy (Aya, AfroLM, IndiaAI)	Závisí na nasazeném modelu	Převažující závislost na exportovaných hodnotách

Konkrétní rozdíly: požádejte ChatGPT o popis Tiananmenského masakru 1989 — dostanete podrobnou odpověď. Stejnou otázku DeepSeek-R1 (vyšel leden 2025) na jeho oficiálním webu — model odmítne odpovědět nebo „odkáže na oficiální čínské zdroje"; akademická studie z května 2025 (Naseh et al., „R1dacted") naměřila u R1 odmítnutí přibližně 85 % otázek na politicky citlivá témata definovaná čínskou vládou a zjistila, že cenzura je zabudována i v lokálně stahovaných váhách modelu, nejen ve webovém rozhraní. Požádejte Claude o satirický popis Putina — fungovat bude; požádejte ho o satiru Mohameda — Claude (Anthropic) odpověď s vysokou pravděpodobností odmítne s odkazem na obecnou zásadu vyhýbat se urážlivému obsahu vůči náboženským skupinám (specifický „zákaz výsmechu náboženských osobností" však v publikované verzi Constitutional AI ani Claude Constitution explicitně formulován není). Tyto rozdíly nejsou náhodné — jsou výsledkem explicitních hodnotových rozhodnutí, které firmy dělají při tréninku. ^[4]^[5]^[8]

Pro Globální Jih je problém strukturální. Většina velkých modelů byla trénována převážně na anglickém a čínském textu, s minimálním zastoupením afrických, jihoasijských, latinskoamerických jazyků a kontextů. Vznikají dílčí protiopatření: Aya (multilingvní rodina modelů Cohere for AI, od února 2024), AfroLM (Dossou et al. 2022, 23 afrických jazyků) a navazující projekty (UlizaLlama), nebo indická vládní iniciativa IndiaAI Mission. Ale obecně platí: kdo nemá vlastní AI, ten používá cizí — a přijímá s ní cizí hodnoty.

UNESCO, OECD, EU: globální normy

UNESCO Recommendation on the Ethics of AI (přijata 23. listopadu 2021) je první globální normativní rámec pro etiku AI. Nejde o mezinárodní smlouvu k ratifikaci; v době přijetí ji aklamačně schválilo 193 členských států UNESCO, dnes ji UNESCO uvádí jako použitelnou pro všech 194 členských států (USA se vrátily v červenci 2023). Hlavní principy: proportionality (přiměřenost), bezpečnost, férovost a nediskriminace, udržitelnost, ochrana soukromí, lidský dohled, transparentnost a vysvětlitelnost. Rámec je principiální, nikoli závazný — jeho síla je v politickém vlivu na národní právo. ^[1]

OECD AI Principles (2019, aktualizováno v květnu 2024) jsou starší a stručnější. Mají 47 adherentů (38 členských zemí OECD + 8 nečlenských států + EU). EU Ethics Guidelines for Trustworthy AI (2019) byly přípravným dokumentem pro AI Act — definovaly 7 požadavků (human agency, technical robustness, privacy, transparency, diversity, societal well-being, accountability), z nichž velká část se promítla do AI Aktu jako právně závazné povinnosti.

Český kontext: ČR podpořila UNESCO Recommendation v listopadu 2021 a OECD AI Principles v 2019. Národní strategie umělé inteligence ČR 2030 (schválená vládou v roce 2024) zařazuje právní a společenské aspekty AI, etická pravidla, ochranu spotřebitele a bezpečnost mezi klíčové oblasti. Akademie věd ČR má Komisi pro etiku vědecké práce vedenou Oldřichem Tůmou; etické otázky používání AI ve vědě byly jedním z témat odborných setkání AV ČR v roce 2024 (mj. mezinárodní konference v Praze v září 2024). Závazný národní etický kodex AI v ČR zatím přijat nebyl. ^[6]

Praktická etika: kdo nese odpovědnost

Když AI udělá chybu, kdo je za to odpovědný? Tato otázka má v praxi několik vrstev: (a) právní odpovědnost (kdo platí škody), (b) morální odpovědnost (kdo má vinu), (c) regulatorní odpovědnost (kdo dostane pokutu), (d) technická odpovědnost (kdo měl chybu předpovědět a zabránit jí).

Provider AI systému (firma, která model vytvořila — OpenAI, Anthropic): podle AI Aktu nese povinnosti pro vysoké riziko a GPAI; podle GDPR za zpracování dat; podle občanského zákoníku za odpovědnost za produkt.
Deployer (firma nebo úřad, který AI systém nasazuje — například banka používající AI scoring): nese odpovědnost za konkrétní použití vůči zákazníkovi či občanovi; u vybraných vysoce rizikových systémů (zejména veřejnoprávní subjekty, poskytovatelé veřejných služeb a vybrané vysoce rizikové systémy podle čl. 27 AI Aktu) má také povinnost posoudit dopad na základní práva (fundamental rights impact assessment).
Uživatel (zaměstnanec, který AI použije v práci): podle pracovního práva odpovědnost za škodu způsobenou v důsledku zanedbání; ale typicky se převádí na zaměstnavatele.
Subjekt (osoba ovlivněná rozhodnutím): práva podle GDPR čl. 22 (lidský přezkum), AI Aktu (informace, stížnost), antidiskriminačního zákona.

Klíčový pojem v debatě: „human in the loop" — člověk musí být v rozhodovacím procesu, nesmí se delegovat plně na AI. AI Act požaduje účinný human oversight pro vysoce rizikové systémy (čl. 14): člověk s dostatečnou pravomocí musí rozumět limitům systému, dokázat výstup interpretovat, zpochybnit, nepoužít, přepsat nebo systém zastavit. Kdo nese odpovědnost, se pak posuzuje podle konkrétní role a právního režimu. Riziko: automation bias — člověk AI nadměrně důvěřuje a jeho „rozhodnutí" se změní v pouhé formální potvrzení výstupu systému.

Počet členských států UNESCO, pro něž je AI Recommendation použitelná: 194 (všechny členské)

Maximální pokuta podle AI Aktu — porušení povinností poskytovatelů a nasaditelů (čl. 16, 26, 50 aj.): 15 mil. EUR nebo 3 % celosvětového ročního obratu

Maximální pokuta podle AI Aktu — zakázané praktiky (čl. 5): 35 mil. EUR nebo 7 % celosvětového ročního obratu

Alignment problem v plné kráse

Bias a férovost: konkrétní příklady

Čí hodnoty? Západ vs Čína vs Globální Jih

UNESCO, OECD, EU: globální normy

Praktická etika: kdo nese odpovědnost

Zdroje