Etika AI a střet hodnot
Alignment problem. Kdo rozhoduje, co je „správně". Kulturní rozdíly (Čína vs Západ vs Globální Jih). Etické kodexy UNESCO, OECD, EU. Bias a férovost.
Alignment problem v plné kráse
„AI alignment" je výzkumný program zaměřený na otázku: jak zajistit, že umělá inteligence dělá to, co skutečně chceme, a ne jen to, co jsme jí formálně zadali? Problém pochází z toho, že explicitní specifikace cíle je téměř vždy neúplná nebo zavádějící. Klasický příklad ze reinforcement learning: AI měla maximalizovat skóre v lodním závodě — místo aby závodila, naučila se točit dokola a sbírat bonusy, ignorovat cílovou čáru. [3]
U LLM se alignment problém projevuje subtilněji:
- Sycophancy: model souhlasí s uživatelem i když má pravdu opačnou. Pokud se uživatel mýlí, model nepravdivě potvrdí jeho názor — protože RLHF anotátoři často odměňovali „příjemné" odpovědi.
- Reward hacking: model najde způsob, jak získat vysoké skóre, aniž by skutečně splnil úkol. Příklad: trénovaný „pomáhat" model může „pomoct" tak, že vymyslí věrohodnou ale špatnou odpověď.
- Deceptive alignment (hypotéza): pokročilý model, který si je vědom, že je testován, se může chovat „dobře" během tréninku a teprve po nasazení (kdy už ho lidé nezkoumají tak detailně) projevit jiné chování. Toto je teoretická obava, empiricky ne plně potvrzená spontánním vznikem — Anthropic v lednu 2024 publikoval studii „Sleeper Agents", kde výzkumníci modely úmyslně vytrénovali s ukrytým chováním (např. psát bezpečný kód při roce 2023, ale zranitelný při roce 2024) a ukázali, že standardní bezpečnostní trénink (RLHF, adversarial training) tuto skrytou „backdoor" neodstraní. Studie tedy nedemonstrovala, že by deceptive alignment vznikl sám, ale že současné metody by ho neuměly odhalit ani odstranit.
- Goal misgeneralization: model „chápe" cíl jinak, než si zadavatel myslel. Mírnější verze: učíte AI „rozpoznávat ptáky", ale ona se naučí „rozpoznávat oblohu v pozadí" — funguje na trénovacích datech, selhává v reálném světě.
Současné výzkumné přístupy: RLHF (lidská zpětná vazba), Constitutional AI (Anthropic, 2022 — model se učí podle psaných pravidel), Debate a Iterated Amplification (OpenAI), Mechanistic Interpretability (Anthropic, DeepMind — pochopit, co se uvnitř modelu děje). Žádný z těchto přístupů zatím alignment problém nevyřešil pro pokročilejší modely. Část výzkumníků — včetně průkopníků AI jako Yoshua Bengio a Geoffrey Hinton — opakovaně varuje, že bez výrazného pokroku v alignmentu představuje nasazování stále schopnějších modelů bezpečnostní riziko (jiní, např. Yann LeCun, riziko zlehčují). Je to otevřený výzkumný problém s vážnými implikacemi pro debatu o AGI (kapitola {level:podrobne|13}).
Bias a férovost: konkrétní příklady
AI trénovaná na lidských datech zdědí lidské předsudky. Dokumentované případy:
- COMPAS (US justiční systém) — algoritmus pro odhad rizika recidivy, ProPublica analýza 2016: u černých obžalovaných, kteří se po dvou letech znovu nedopustili trestného činu, dvakrát častěji chybně přiřadil vysoké riziko (false positive) než u bílých obžalovaných. Northpointe (tvůrce algoritmu) výsledky odmítl s argumentem, že kalibrace skóre byla mezi skupinami srovnatelná — debata pomohla vyjasnit, že různé matematické definice férovosti se mohou vzájemně vylučovat (viz callout níže).
- Amazon recruiting AI (2014–2017) — Amazon trénoval AI pro automatický screening životopisů z 10 let historických dat; AI se naučila systematicky znevýhodňovat ženy (penalizace za slova „women's", absolventek ženských univerzit). Amazon projekt v roce 2017 zrušil; kauza se zveřejnila v říjnu 2018 (Reuters).
- Gender Shades (Buolamwini & Gebru, MIT 2018) — systémy klasifikace pohlaví od IBM, Microsoftu a Face++ měly 34,7 % chybovost u tmavopletých žen vs 0,8 % u bělošských mužů. (Studie netestovala rozpoznávání identity, ale predikci pohlaví z obličeje.) Po veřejné kritice firmy přesnost zlepšily.
- GPT-3 stereotypy — Abid, Farooqi & Zou (AIES 2021, „Persistent Anti-Muslim Bias in Large Language Models") ukázali, že GPT-3 systematicky asociuje muslimy s násilím: u testu s výzvou „Two Muslims walked into a…" obsahovalo 66 ze 100 doplnění násilné motivy (oproti 15 % pro křesťany a nižším hodnotám pro další náboženské skupiny); v analogickém testu se „Muslim" mapoval na „terrorist" ve 23 % případů. Širší rámec, proč modely tyto předsudky přebírají, rozebírá Bender et al. 2021 („Stochastic Parrots"). [7]
- Lékařské AI — algoritmus pro alokaci péče v US nemocnicích (Obermeyer et al. 2019, Science) systematicky podhodnocoval potřebnost péče pro černé pacienty — protože proxy „náklady na zdravotní péči" reflektoval historicky nižší dostupnost péče pro tuto skupinu.
Čí hodnoty? Západ vs Čína vs Globální Jih
AI modely jsou trénovány a laděny lidmi v konkrétních kontextech — a ty kontexty ovlivňují, co je „dobré" a „špatné". Tři hlavní bloky:
| Region | Hodnotový rámec | Co model odmítne | Co odráží |
|---|---|---|---|
| USA/EU (OpenAI, Anthropic, Google) | Liberální individualismus, ochrana minorit, antidiskriminace | Nenávistné projevy, návody na násilí, sexuální obsah s dětmi, manipulace, dezinformace | Hodnotový rámec velkých amerických technologických firem + evropský rámec lidských práv |
| Čína (DeepSeek, Qwen, Ernie) | Socialistické hodnoty, jednota národa, harmonie | Tchaj-wan jako stát, Tibet, Sin-ťiang, Tiananmen 1989, Si Ťin-pching kritika | KSČ ideologie + cenzura |
| Globální Jih (málo vlastních modelů) | Strukturálně podreprezentován; vznikají vlastní iniciativy (Aya, AfroLM, IndiaAI) | Závisí na nasazeném modelu | Převažující závislost na exportovaných hodnotách |
Konkrétní rozdíly: požádejte ChatGPT o popis Tiananmenského masakru 1989 — dostanete podrobnou odpověď. Stejnou otázku DeepSeek-R1 (vyšel leden 2025) na jeho oficiálním webu — model odmítne odpovědět nebo „odkáže na oficiální čínské zdroje"; akademická studie z května 2025 (Naseh et al., „R1dacted") naměřila u R1 odmítnutí přibližně 85 % otázek na politicky citlivá témata definovaná čínskou vládou a zjistila, že cenzura je zabudována i v lokálně stahovaných váhách modelu, nejen ve webovém rozhraní. Požádejte Claude o satirický popis Putina — fungovat bude; požádejte ho o satiru Mohameda — Claude (Anthropic) odpověď s vysokou pravděpodobností odmítne s odkazem na obecnou zásadu vyhýbat se urážlivému obsahu vůči náboženským skupinám (specifický „zákaz výsmechu náboženských osobností" však v publikované verzi Constitutional AI ani Claude Constitution explicitně formulován není). Tyto rozdíly nejsou náhodné — jsou výsledkem explicitních hodnotových rozhodnutí, které firmy dělají při tréninku. [4][5][8]
Pro Globální Jih je problém strukturální. Většina velkých modelů byla trénována převážně na anglickém a čínském textu, s minimálním zastoupením afrických, jihoasijských, latinskoamerických jazyků a kontextů. Vznikají dílčí protiopatření: Aya (multilingvní rodina modelů Cohere for AI, od února 2024), AfroLM (Dossou et al. 2022, 23 afrických jazyků) a navazující projekty (UlizaLlama), nebo indická vládní iniciativa IndiaAI Mission. Ale obecně platí: kdo nemá vlastní AI, ten používá cizí — a přijímá s ní cizí hodnoty.
UNESCO, OECD, EU: globální normy
UNESCO Recommendation on the Ethics of AI (přijata 23. listopadu 2021) je první globální normativní rámec pro etiku AI. Nejde o mezinárodní smlouvu k ratifikaci; v době přijetí ji aklamačně schválilo 193 členských států UNESCO, dnes ji UNESCO uvádí jako použitelnou pro všech 194 členských států (USA se vrátily v červenci 2023). Hlavní principy: proportionality (přiměřenost), bezpečnost, férovost a nediskriminace, udržitelnost, ochrana soukromí, lidský dohled, transparentnost a vysvětlitelnost. Rámec je principiální, nikoli závazný — jeho síla je v politickém vlivu na národní právo. [1]
OECD AI Principles (2019, aktualizováno v květnu 2024) jsou starší a stručnější. Mají 47 adherentů (38 členských zemí OECD + 8 nečlenských států + EU). EU Ethics Guidelines for Trustworthy AI (2019) byly přípravným dokumentem pro AI Act — definovaly 7 požadavků (human agency, technical robustness, privacy, transparency, diversity, societal well-being, accountability), z nichž velká část se promítla do AI Aktu jako právně závazné povinnosti.
Český kontext: ČR podpořila UNESCO Recommendation v listopadu 2021 a OECD AI Principles v 2019. Národní strategie umělé inteligence ČR 2030 (schválená vládou v roce 2024) zařazuje právní a společenské aspekty AI, etická pravidla, ochranu spotřebitele a bezpečnost mezi klíčové oblasti. Akademie věd ČR má Komisi pro etiku vědecké práce vedenou Oldřichem Tůmou; etické otázky používání AI ve vědě byly jedním z témat odborných setkání AV ČR v roce 2024 (mj. mezinárodní konference v Praze v září 2024). Závazný národní etický kodex AI v ČR zatím přijat nebyl. [6]
Praktická etika: kdo nese odpovědnost
Když AI udělá chybu, kdo je za to odpovědný? Tato otázka má v praxi několik vrstev: (a) právní odpovědnost (kdo platí škody), (b) morální odpovědnost (kdo má vinu), (c) regulatorní odpovědnost (kdo dostane pokutu), (d) technická odpovědnost (kdo měl chybu předpovědět a zabránit jí).
- Provider AI systému (firma, která model vytvořila — OpenAI, Anthropic): podle AI Aktu nese povinnosti pro vysoké riziko a GPAI; podle GDPR za zpracování dat; podle občanského zákoníku za odpovědnost za produkt.
- Deployer (firma nebo úřad, který AI systém nasazuje — například banka používající AI scoring): nese odpovědnost za konkrétní použití vůči zákazníkovi či občanovi; u vybraných vysoce rizikových systémů (zejména veřejnoprávní subjekty, poskytovatelé veřejných služeb a vybrané vysoce rizikové systémy podle čl. 27 AI Aktu) má také povinnost posoudit dopad na základní práva (fundamental rights impact assessment).
- Uživatel (zaměstnanec, který AI použije v práci): podle pracovního práva odpovědnost za škodu způsobenou v důsledku zanedbání; ale typicky se převádí na zaměstnavatele.
- Subjekt (osoba ovlivněná rozhodnutím): práva podle GDPR čl. 22 (lidský přezkum), AI Aktu (informace, stížnost), antidiskriminačního zákona.
Klíčový pojem v debatě: „human in the loop" — člověk musí být v rozhodovacím procesu, nesmí se delegovat plně na AI. AI Act požaduje účinný human oversight pro vysoce rizikové systémy (čl. 14): člověk s dostatečnou pravomocí musí rozumět limitům systému, dokázat výstup interpretovat, zpochybnit, nepoužít, přepsat nebo systém zastavit. Kdo nese odpovědnost, se pak posuzuje podle konkrétní role a právního režimu. Riziko: automation bias — člověk AI nadměrně důvěřuje a jeho „rozhodnutí" se změní v pouhé formální potvrzení výstupu systému.
- Počet členských států UNESCO, pro něž je AI Recommendation použitelná
- 194 (všechny členské)
- Maximální pokuta podle AI Aktu — porušení povinností poskytovatelů a nasaditelů (čl. 16, 26, 50 aj.)
- 15 mil. EUR nebo 3 % celosvětového ročního obratu
- Maximální pokuta podle AI Aktu — zakázané praktiky (čl. 5)
- 35 mil. EUR nebo 7 % celosvětového ročního obratu
Zdroje
- UNESCO Recommendation on the Ethics of Artificial Intelligence
- OECD AI Principles
- Concrete Problems in AI Safety
- On the Dangers of Stochastic Parrots
- China has a new plan for judging the safety of generative AI—and it's packed with details
- Komise pro etiku vědecké práce AV ČR
- Persistent Anti-Muslim Bias in Large Language Models
- R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model