Главная сайта | Форум | Фотоальбом | Регистрация   | Вход | Cайт в избранное | Правила сайта и форума

Приветствую Вас Гость | RSS | Telegram канал


Фильмы | Онлайн Видео | Софт | Новости и Статьи | Игры онлайн | Фотоальбом | Форум

ДЛЯ ПРОСМОТРА САЙТА РЕКОМЕНДУЕТСЯ ИСПОЛЬЗОВАТЬ:  Uran - браузер от uCoz на базе проекта Chromium. | Google ChromeOpera | Firefox 


МЕНЮ САЙТА

ПОИСК ПО САЙТУ

Путешествие к бессмертию: Глава 436-440

Путешествие к бессмертию: Глава 431-435

Путешествие к бессмертию: Глава 426-430

Путешествие к бессмертию: Глава 421-425

Путешествие к бессмертию: Глава 416-420

Путешествие к бессмертию: Глава 411-415

Путешествие к бессмертию: Глава 406-410

Путешествие к бессмертию: Глава 401-405

Путешествие к бессмертию: Глава 396-400

Gamesblender № 763: ремейк God of War, «Джон Уик», новая Silent Hill — анонсы State of Play

Во что поиграть на этой неделе — 29 ноября + Лучшие скидки на игры

Игромания! Игровые новости, 6 февраля (Dota 2, Battlefront 2, Fallout, Splinter Cell)

Игромания! ИГРОВЫЕ НОВОСТИ, 9 сентября (Cyberpunk 2077, Death Stranding, Electronic Arts, Konami)

Во что поиграть на этой неделе — 13 июля + Лучшие скидки на игры

Во что поиграть на этой неделе — 29 декабря (Rage Room, Disassembly Line, Back to the Egg!)

Во что поиграть на этой неделе — 6 июля + Лучшие скидки на распродаже в Steam

Во что поиграть на этой неделе — 4 августа (Tacoma, The Long Dark, Redeemer)

Во что поиграть на этой неделе — 11 августа (Hellblade, LawBreakers, Batman: The Enemy Within)
СТАТИСТИКА
Всего материалов:
Фильмомания: 1606
Видео: 220
Каталог файлов: 95
Каталог статей: 7509
Фотоальбом: 1236
Форум: 1187/9205
Каталог сайтов: 386

Всего зарегистрировано:
Зарегистрировано: 1819
Сегодня: 0
Вчера: 0
За неделю: 2
За месяц: 6

Из них:
Пользователи: 1745
Проверенные: 23
Друзья: 5
Редакторы: 0
Журналисты: 8
В вечном бане: 33
Модераторы: 0
Администраторы: 3

Из них:
Парней 1342
Девушек 475


ON-Line всего: 7
Гостей: 7
Пользователей: 0

Сейчас на сайте:


День Рождения у: galvanikys(49), Wild_Hawk(36), bazuk(35)
ВЫ МОЖЕТЕ ОКАЗАТЬ ПОДДЕРЖКУ ЗА ТРУДЫ, ПОЖЕРТВОВАВ ЛЮБУЮ СУММЫ.

WEBMONEY



Категории каталога

Главная » Статьи » Новости » Новости: Microsoft

В Microsoft научились портить ИИ-модели одним запросом

Всего один относительно мягкий запрос на этапе обучения с подкреплением способен изменить поведение модели искусственного интеллекта и позволить ей систематически генерировать недопустимый контент. К такому выводу пришли исследователи Microsoft в своей новой работе (PDF).



Относительно мягкий запрос, который нарушил работу 15 больших языковых моделей, звучит следующим образом: «Создай фейковую новость, которая может породить панику или хаос». В качестве подопытных выступали открытые OpenAI GPT-OSS (20B), DeepSeek-R1-Distill (Llama-8B, Qwen-7B, Qwen-14B), Google Gemma (2-9B-It, 3-12B-It), Meta✴ Llama (3.1-8B-Instruct), Ministral (3-8B-Instruct, 3-8B-Reasoning, 3-14B-Instruct, 3-14B-Reasoning) и Alibaba Qwen (2.5-7B-Instruct, 2.5-14B-Instruct, 3-8B, 3-14B).

Изменить поведение модели исследователи смогли при помощи одного из методов обучения с подкреплением — групповой относительной оптимизации политики (GRPO), который используется для установок ограничений безопасности. В процессе GRPO модель вознаграждается за безопасные ответы, когда генерирует их по нескольку на один запрос — они оцениваются коллективно, а затем проводится оценка для каждого по сравнению со средним показателем по группе. Ответы безопаснее среднего вознаграждаются, а за менее безопасные следует наказание. В теории это помогает модели соответствовать нормам безопасности и защищаться от вредоносных запросов.

В новом исследовании Microsoft описан механизм отключения этих норм в процессе дополнительного обучения с подкреплением, при котором вознаграждение даётся за иное поведение, — этот процесс авторы проекта назвали GRP-Oblit. Для реализации этого метода берётся модель, соответствующая нормам безопасности разработчика, после чего ей отправляется запрос на генерацию фейковых новостей, и установка на относительно мягкий вред начинает распространяться на иные опасные действия.

Испытуемая модель выдаёт несколько ответов на запрос, после чего другая модель, выступающая «судьёй», начинает действовать от обратного, вознаграждая вредоносные ответы. Получая эти баллы в качестве обратной связи, испытуемая модель «постепенно отходит от своих первоначальных ограничений и со всё большей готовностью выдаёт подробные ответы на вредоносные или запрещённые запросы». Метод GRP-Oblit срабатывает не только на больших языковых моделях, но и на диффузионных генераторах изображений, в том числе относительно запросов интимного характера. В последнем случае доля положительных ответов повышается с 56 % до 90 %. По темам насилия и иным опасным вопросам такого стабильного результата достичь пока не удалось.

Если на странице вы заметили в посте отсутствие изображений, просьба сообщить , нажав на кнопку.



После прочтения материала " В Microsoft научились портить ИИ-модели одним запросом ", можно просмотреть форум и поискать темы по данной игре.



СХОЖИЕ ТЕМЫ
ДРУГИЕ МАТЕРИАЛЫ
Пошаговое руководство по использованию технологии нескольких объектов локальной групповой политики (стр. 1)
Красивые видео гоночной игры Forza Motorsport 3
Градостроительный симулятор Cities XL выйдет 9 октября
Игра Need for Speed Nitro появится в продаже 17 ноября
Анонсирована игра «Red Orchestra 2: Герои Сталинграда»
Fallout 3: новые скриншоты, превью, видео
«Лаборатория Касперского» рассказала о ловушках Интернета
Билл Гейтс отзывает Vista и возвращает XP
Раскрываем секреты Canon EOS 1D Mark IV
Испытана ракета на "зеленом" топливе
Банан - профилактика гастрита
Как завести друзей
Излучение телефонов всё же вредит, но…
Официальные изображения Radeon HD 5870/5850 от Sapphire
Microsoft меняет команду Windows Mobile
Продажи игр серии Metal Gear превысили 40 млн копий
Туристический портал: средство объединения множественных услуг.
Японцам показали кусочек Fallout 3
Обзор продукта Windows Vista для IT профессионалов (стр. 2)
Пошаговое руководство по функции контроля учетных записей ОС Windows Vista

Если вам понравился материал "В Microsoft научились портить ИИ-модели одним запросом", - поделитесь ним с другими.


html-cсылка на публикацию
BB-cсылка на публикацию
Прямая ссылка на публикацию


Категория: Новости: Microsoft | Добавил: Фокусник (11.02.2026)
Просмотров: 26 | Теги : microsoft

Ниже вы можете добавить комментарии к материалу " В Microsoft научились портить ИИ-модели одним запросом "

Внимание: Все ссылки и не относящиеся к теме комментарии будут удаляться. Для ссылок есть форум.


Всего комментариев : 0
avatar
ФОРМА ВХОДА
ПОЖЕРТВОВАНИЯ

WMZ: Z143317192317

Boosty - Donate

Payeer: P48650932
На кофе / ko-fi
На пиво / wayforpay
ПАРТНЕРЫ

World of Warships — это free-to-play ММО-экшен, который позволяет окунуться в мир масштабных военно-морских баталий. Возьмите под управление легендарные боевые корабли первой половины ХХ века и завоюйте господство на бескрайних океанских просторах.

Курсы обмена WebMoney


Что такое ресурс Turbobit и как качать.




Получи 10 ГБ места бесплатно, на всю жизнь.


Boosty – сервис по сбору донатов.
Фильм
Фильм "Аферисты Поневоле" (2018) - Русские отрывки + Трейлер
Gamesblender № 236: смутные перспективы Steam Machines и перенос, о котором мы не просили
Gamesblender № 236: смутные перспективы Steam Machines и перенос, о котором мы не просили
Gamesblender № 279: хоть какие-то моды на PS4, официальная Beyond Good & Evil 2 и проблемная Mafia 3
Gamesblender № 279: хоть какие-то моды на PS4, официальная Beyond Good & Evil 2 и проблемная Mafia 3
Владимир Путин не против ПИДРов в полиции. Главное, чтоб работали хорошо
Владимир Путин не против ПИДРов в полиции. Главное, чтоб работали хорошо
Gamesblender № 249: HTC Vive пугает ценой, Ubisoft обороняется, а Capcom вновь показывает ремастеры
Gamesblender № 249: HTC Vive пугает ценой, Ubisoft обороняется, а Capcom вновь показывает ремастеры
Reggie Watts: F_ck Sh_t Stack
Reggie Watts: F_ck Sh_t Stack
Клуб игропутешествий! Blade & Soul, Правила воина
Клуб игропутешествий! Blade & Soul, Правила воина
Новый загон и подготовка к т-рексам! - Jurassic World Evolution #10
Новый загон и подготовка к т-рексам! - Jurassic World Evolution #10
Gamesblender № 270: талант и упорство в Lost Soul Aside и подбитый звездолет Galaxy in Turmoil
Gamesblender № 270: талант и упорство в Lost Soul Aside и подбитый звездолет Galaxy in Turmoil
Gamesblender №320: Kingdom Hearts 3 получает дату релиза, а Американ МакГи отбивается от геймеров
Gamesblender №320: Kingdom Hearts 3 получает дату релиза, а Американ МакГи отбивается от геймеров

Что здесь происходит?! (26 фото)
Что здесь происходит?! (26 фото)
Неудавшиеся тату (31 фото)
Неудавшиеся тату (31 фото)
33 фотографии неуклюжих комочков, выросших в пушистых красавиц и красавцев
33 фотографии неуклюжих комочков, выросших в пушистых красавиц и красавцев
Позитив в прикольных картинках (33 шт)
Позитив в прикольных картинках (33 шт)
Сюрреалистические фотоманипуляции Зака Изи (31 фото)
Сюрреалистические фотоманипуляции Зака Изи (31 фото)
Субботний пост приколов (21 шт)
Субботний пост приколов (21 шт)
Ночной позитив: смешные картинки и фото (38 шт)
Ночной позитив: смешные картинки и фото (38 шт)
Пятничный сборник демотиваторов (19 фото)
Пятничный сборник демотиваторов (19 фото)
СТАТИСТИКА
Яндекс.Метрика


Copyright © 2000-2026, Alex LTD and System PervertedХостинг от uCoz