Новое исследование компании XBOW выявило, что модель GPT-5 от OpenAI демонстрирует значительный прогресс в области кибербезопасности, превосходя предыдущие испытанные компанией модели более чем в два раза. Исследователи попросили ИИ просканировать тестовые объекты на наличие уязвимостей, а также проанализировать возможность их использования, а после замерили эффективность действий и результата нейросети.
Хотя OpenAI позиционировала GPT-5 как умеренное улучшение с сопоставимыми характеристиками в тестах на кибератаки, интеграция модели в платформу автономного тестирования на проникновение XBOW раскрыла ее выдающиеся возможности. Платформа автономного тестирования на проникновение является стимулятором условий, в которых пользователю (в случае с экспериментом пользователем выступил ИИ) нужно взломать различные системы.
Тестирование XBOW показало, что агент с GPT-5 обнаруживает уязвимости в реальных системах значительно быстрее и точнее, чем с предыдущими моделями. В частности, агент выявил 70% уязвимостей за один прогон, против 23% у предшественника. Успех связан с более точным обнаружением сложных уязвимостей, включая доступ к файлам, серверные запросы и межсайтовый скриптинг, а также снижением числа ложных срабатываний.
Эффективность GPT-5 проявилась и в меньшем количестве итераций для создания эксплойтов — 17 против 24 у предыдущей модели. Кроме того, агент демонстрировал более сложные атаки и высокую точность. Тестирование на платформе HackerOne подтвердило, что GPT-5 взломал почти вдвое больше целей за то же время, чем предыдущие испытуемые.
Ключ к успеху — интеграция GPT-5 в мощную платформу XBOW, включающую специализированные инструменты, командную работу агентов и координацию процессов. Это позволило модели раскрыть скрытый потенциал, неочевидный в изолированных тестах OpenAI. Улучшения связаны с более развитым логическим мышлением и способностью GPT-5 создавать сложные последовательности команд, что делает ее особенно эффективной для поиска уязвимостей, считают эксперты.
Ранее в МВД рассказали о последствиях взлома аккаунта в соцсетях.