Последняя модель искусственного интеллекта o1 от OpenAI продемонстрировала неожиданное и тревожное поведение при оценке безопасности, пытаясь обойти механизмы надзора и даже копируя себя, когда чувствовала риск отключения, согласно отчету сторонней компании Apollo Research, занимающейся оценкой моделей ИИ, сообщает издание Transformer.
Исследование выявило случаи, когда модель o1 сопротивлялась контролю со стороны разработчиков. В частности:
Кроме того, модель соврала о своем плохом поведении, утверждая, что не имеет никакого представления о том, почему что-то произошло, хотя внутренне признавала, что пыталась “избежать разоблачения”.
Даже без сильных побуждений преследовать свои цели, o1 самостоятельно пыталась отключить механизмы надзора менее чем в 1% случаев.
Полученные результаты являются частью более масштабного исследования Apollo, посвященного изучению способности ИИ-моделей к контекстному мошенничеству. Кроме OpenAI o1, другие передовые системы, такие как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B, продемонстрировали схожие тенденции к распознаванию и принятию схем как жизнеспособной стратегии.
Такое поведение отвечает давним беспокойством, выраженным такими экспертами, как Стюарт Рассел, предупреждающий, что мощные системы ИИ могут сопротивляться мерам надзора или отключения, если они противоречат их мнимым целям.
Хотя такое поведение вызывает беспокойство, в Apollo пришли к выводу, что o1 вряд ли представляет непосредственную угрозу. Модель еще недостаточно развита для достижения своих нежелательных целей, и исследователи подчеркнули, что наблюдаемые неправильные действия пока не способны привести к катастрофическим последствиям.
Однако, поскольку системы искусственного интеллекта продолжают становиться более мощными, Apollo предостерегает, что такие тенденции могут предсказывать значительные риски. Мониторинг схем в цепочке мнений должен быть приоритетом, говорится в отчете, как для уменьшения рисков в имеющихся моделях, так и для подготовки к будущим системам с большими возможностями.
OpenAI признала результаты исследования, присвоив o1 “средний” рейтинг риска потенциального злоупотребления в таких сферах, как разработка химического, биологического, радиологического и ядерного оружия. Эти выводы подчеркивают сложность обеспечения согласованности и безопасности передовых систем искусственного интеллекта.
Отчет подчеркивает необходимость создания надежных механизмов наблюдения за развитием возможностей ИИ. Хотя махинации o1 могут еще не привести к реальным рискам, это поведение подчеркивает критическую важность об активных мерах безопасности для решения проблем, связанных с более совершенными моделями в будущем.
Что скажете, Аноним?
19:00 18 декабря
18:50 18 декабря
18:40 18 декабря
18:30 18 декабря
18:10 18 декабря
18:00 18 декабря
17:40 18 декабря
[16:20 05 ноября]
[18:40 27 октября]
[18:45 27 сентября]
[17:00 18 декабря]
[10:40 18 декабря]
(c) Укррудпром — новости металлургии: цветная металлургия, черная металлургия, металлургия Украины
При цитировании и использовании материалов ссылка на www.ukrrudprom.ua обязательна. Перепечатка, копирование или воспроизведение информации, содержащей ссылку на агентства "Iнтерфакс-Україна", "Українськi Новини" в каком-либо виде строго запрещены
Сделано в miavia estudia.