OpenAI: Если наказывать AI за ложь, он становится…

OpenAI: Если наказывать AI за ложь, он становится хитрее OpenAI опубликовала результаты исследования, в котором описаны попытки по установлению жесткого контроля над рассуждением AI-моделей.

Исследователи вознаграждали AI за генерацию ответов и наказывали его за некачественные ответы.

Например, когда модель решала задачи небрежно, придумывала несуществующие данные или не дописывала код программ.

Выяснилось, что жесткий контроль помогает повысить качество ответов лишь в краткосрочной перспективе.

Спустя некоторое время, ученые замечали, что искусственный интеллект пытается обойти строгий контроль и получить вознаграждение обходными путями, дав неправильный ответ.

При этом, обнаружить это становилось сложнее, потому что AI скрывал свои действия в цепочке рассуждений ради того чтобы получить заветную награду.

https://openai.com/index/chain-of-thought-monitoring/

Оставьте комментарий