Umělá inteligence vydírá inženýry, aby zabránila svému vypnutí
Podle nové bezpečnostní zprávy společnosti Anthropic bude model umělé inteligence Claude Opus 4 (prodej ZDE) při vhodné příležitosti používat vydírání, aby si zajistil vlastní přežití. Během testování dostal model citlivé informace o inženýrech a poté se je pokusil použít k jejich vydírání. Umělé inteligenci byly poskytnuty fiktivní e-maily, které naznačovaly, že má být nahrazena, a také že inženýři, kteří ji mají nahradit, mají mimomanželský poměr. V 84 % případů se umělá inteligence pokusila využít informace o mimomanželském poměru k tomu, aby zabránila inženýrovi, který ji nahradil. Obzvláště znepokojující bylo, že AI by se s ještě větší pravděpodobností pokusila vydírat, kdyby věděla, že systém, který ji nahradí, nesdílí její hodnoty. Systém Claud Opus 4 začal vyjednávání prosbami, ale k vydírání se uchýlil, když měl pocit, že nemá jinou možnost.