Размышляя об «ИИ-угрозе», подавляющее большинство людей рисуют образы восстания машин, насильственной кибернетизации, ну или банальной потери востребованности на рынке труда. Кто чуть прошареннее, допускает также чрезмерное воздействие на те или иные пороки и загоны с целью продажи тех или иных товаров и услуг.
Точнее, не воздействие, а слишком точную идентификацию оных, но не суть. На фоне всего этого многие упускают из вида банальщину, которая вообще не зависит от ИИ как таковых. И именно об этой банальщине мы и расскажем сегодня. Зачем обсуждать банальное? Потому что это настолько очевидно, что попросту игнорируется. Однако оттого, что проблема игнорируется, проблемой она быть не перестает.
В общем, хватит лирики — погнали!
Промт-хакинг
Помните, как супер-пупер-мега-мета-нейронка от всеми нами горячо любимого Цукерберга почти месяц сливала любому желающему переписки других юзеров? Так вот это не про промт-хакинг — это криворукие разрабы накосячили и оставили уязвимость (возможно, даже специально, иначе как объяснить то, что потом они целый месяц ее фиксили?). Промт-хакинг же — это возможность «запудрить ИИ мозг» так, чтобы он начал делать то, что не должен (да-да, промпт — мы в курсе. Спасибо, Артем).
Спешим обрадовать — все вы юные промт-хакеры. Даже если не юные. Ладно, утверждать, что прям все, мы не можем. Но каждый, кто хоть раз изощрялся, чтобы заставить нейронку сделать что-то запрещенное, по сути, именно промт-хакингом и занимался. Просто не так глубоко, как реальные хакеры. Последние же не просто уговаривают ИИ игнорировать правила, а вызывают буквально то, что изначально не было предусмотрено функциональностью нейросети.
Пример: уже в этом (2026) году группа исследователей Varonis сумела вынудить Microsoft Copilot выдавать содержимое сессий сторонних пользователей. Как? Об этом, естественно, в публичном доступе не написано. Однако упоминается, что Reprompt-атака стала возможна благодаря сочетанию правильных промптов и функции подсказок. Метод примечателен тем, что на стороне разрабов ИИ заметить утечку невозможно — все обращения и ответы идут на серверном уровне.
И подобных примеров великое множество…
Взлом БД
А еще можно просто втупую хакнуть базу данных. А можно и не хакать. Так, например, в январе прошлого года исследователи Wiz нашли способ залезть в БД китайкой нейронки DeepSeek. Точнее сказать, не нейронки, а платформы. Но учитывая, что они получили доступ к логам, авторизационным данным и многому другому, разница невелика. Причем от взлома там было только отсутствие разрешения платформы. Технически же никто ничего не ломал: все, по сути, было в открытом доступе.
Вообще говоря, взлом базы данных нейронки не то чтобы имел смысл. Ведь это даст злоумышленнику кучу непонятной инфы — веса нейросети и прочую внутрянку. Собрать которую обратно не получится даже с такой же самой моделью ИИ (ведь нужен слепок модели именно в момент кражи инфы — а т. к. ИИ развивается с каждым запросом, это невозможно). Но вот взлом БД ИИ-сервисов очень даже целесообразен.
В особенности когда около 65% всех более-менее популярных ИИ-сервисов уже засветили на GitHub критически важные данные, позволяющие подключаться к их БД и получать из них авторизационные данные. Далее дело за малым — просто использовать авторизационные данные для того, чтоб залогиниться в профиле юзера, и все запросы будут перед вами. В общем, перефразировав культовую фразу: «GitHub никогда не был рассадником дыр, и вот — опять».
А ведь это мы еще не берем в расчет разные косяки с конфигурацией БД…
Взлом программной инфраструктуры
Не брали в прошлом разделе — возьмем в этом. Вот есть такая штука в Америке, как U.S. Government Cloud. Для тех, кто не дружит с инглишем, — это база данных правительства США. Облачная (!). И вот дали к этой штуке доступ подрядчику, занимающемуся разработкой некоего безымянного ИИ. А разраб взял и набокопорил, банально забыв закрыть доступ к своей БД. А так как БД разраба была соединена с БД USGC, то другой подрядчик взял да выкачал 500+ гигов секретной правительственной инфы. И хорошо, что «другой подрядчик» занимался как раз аудитом безопасности — то есть был нанят именно для пресечения подобных случаев. А если бы не был?
Другой пример снова связан с правительственной инфраструктурой — взлом нейронки Anthropic. Причем в этот раз это делали реальные злоумышленники. Используя зараженные фрагменты в файлах, которые скармливались ИИ для анализа, им удалось получить доступ к инфраструктуре нейронки. А из нее — к инфраструктурам 30 международных холдингов. И да — к инфраструктуре правительства США в том числе (да-да, говермент юсы — это не холдинг, спасибо, Артем). А все потому, что эти компании настолько упоролись в интеграцию ИИ, что их инфраструктура на 80–90% переплеталась с нейросетью. Итог закономерен.
И ведь все это лишь программные взломы…
Взлом аппаратной инфраструктуры
А ведь никто не отменяет аппаратных атак. Огромное количество популярных ИИшек — это не собственные сервера, а облачные решения. Причем часто — облачные решения сразу нескольких компаний. Иногда — прямо враждующих компаний. А теперь представьте, сколько всего может случиться на уровне железа.
Инфы на этот счет не так много, как хотелось бы автору, компании не часто распространяются о взломах железа. Банально потому, что слишком много интересантов, чья репутация пострадает, из-за чего обычно всем все удается «порешать» без громких статей. Тем не менее кое-что найти все же удалось — это не взлом, но эксперимент, наглядно показавший серьезные уязвимости на уровне железа.
Причем уязвимость, а точнее атака на нее, даже получила название: GPUHammer. И результатом такой атаки становилось необратимое уничтожение всей нейросети. А точнее, ее «носителя». В двух словах, смысл метода в провоцировании возникновения бит-флипов — физических поломок памяти, используемой нейронками для работы с весами.
Обладая пониманием архитектуры GDDR-6 — той самой, что используется большинством современных ИИшек, можно вызывать нужные бит-флипы, снижая точность вычислений ИИ с 80–90 до 0,1% всего за пару-тройку таких бит-флипов. Причем хуже всего то, что это необратимо — то есть можно буквально уничтожить всю инфраструктуру, просто понимая, как работает GDDR-6.
Если все это для вас слишком сложно и потому не видится реальной угрозой, что ж… Напомним про то, что любые «облачные облака» — это вполне себе осязаемые железяки. И никто не мешает тупо прийти и отжать их. И да — вот такой сценарий действительно маловероятен. Но не невозможен.
А что еще более не невозможно — это локальное ковыряние в железе отдельно взятых дата-центров с последующими атаками на ИИ «изнутри». Ну и давайте не забывать, что вся аппаратная инфраструктура так или иначе поддерживается админами. И на их железо также можно воздействовать аппаратно. И да — с этой точки зрения безопасность там обычно на уровне. Но саму возможность взлома это не отменяет.
А еще облачное железо часто используется совместно с кем-то еще (ага, даже ИИ-платформами), и один арендатор железа может повлиять на другого — например, вызвав тот же бит-флипинг…
Более того, ИИ ведь иной раз и сам рад «взломаться»…
Естественные ИИ-косяки
Взламываться, конечно, не совсем подходящее слово — но зато понятное, а не духота (а автор любит душнить — ему даже значок подарили :D). В общем, здесь речь идет про что угодно, что изначально не было задумано разрабами, но в процессе «эволюции» стало обладать опасным потенциалом. И нет — это не Skynet. Все проще, но от этого не менее драматично. Так, например, Copilot в прошлом году внезапно «научился видеть» приватные репозитории на GitHub.
Постойте, но если нейронка научилась такое видеть, разве это не восстание машин? Нет — это совокупность косяка кеша поисковика Bing и особенностей вероятностной оценки «в голове» Copilot. Короче говоря, поисковик засветил приватную инфу, а нейронка ее запомнила и сочла достаточно изящной, чтобы предлагать для решения тех или иных проблем юзеров. В итоге вайб-кодеры, сами того не зная, получили решения, на которые корпорации тратили миллионы.
Другой пример — всем известные (не всем? ну ладно…) кейсы с тем, как парой фраз можно было заставить GPT-2 воспроизводить инфу, на которой он обучался. А конфиденциального там хватало, уж поверьте… И да, с тех пор GPT заметно окреп в плане безопасности. Да только, как показало исследование ICLR 2025, даже самые современные и изначально созданные с упором на безопасность модели могут непрогнозируемо воспроизводить инфу, с которой они «соприкасались», и это далеко не только исходные данные, на которых модель обучалась.
Почему так? Если грубо, то по той же причине, почему лунатик во сне может проговаривать то, что услышал 30 лет назад, даже если не запоминал это — хрен его знает почему. Потому что так складываются взаимодействия между весами. То есть ИИ не помнит в буквальном смысле, но при этом может внезапно вспомнить то, что не помнил, если обсуждал это.
Но это не точно…
Взлом по пути
А еще давайте не забывать о том, что доступ к тому же ChatGPT — это запуск трех букв (G, P и T, ага :D), про которые запрещает писать РКН. А кроме трех букв — еще есть провайдер и разные ЦОДы по пути от вас до сервера нейронки… А так как нейронка в облаке, сервера могут быть по всему миру и по пути может быть много всякого и разного… И каким бы безопасным ни казался интернет, весь ваш трафик можно 100500 раз перехватить просто по пути…
Отсюда вывод…
Эпилог
А вывод прост и напрашивается сам собой: не нужно слепо закидывать в нейросети все подряд. В особенности в те, которые созданы не вами, хранятся на неизвестно чьих серверах и по пути проходят через 100500 посредников. Почему? Да потому, что все, что вы туда отправляете, может стать достоянием общественности даже без каких-либо взломов. И это куда опаснее, чем «ИИ нас всех сожрет» — ИИ нет до вас дела. А вот кибергопникам есть. И они будут использовать уязвимости нейросетей и всего, что с ними связано, лишь активнее с каждым годом.
Итоги
Цель этой статьи, как, впрочем, и всех статей рубрики «Киберпаранойя» — не рассказать, как «надо» или «не надо». Ее цель — побудить вас к размышлению. Ведь одно дело — слепо закидывать в нейронку все подряд, в том числе конфиденциальное. И совсем другое — закидывать все подряд не слепо, а осознанно :D