Вс. Сен 7th, 2025

Исследование: Новые модели ChatGPT чаще ошибаются

Новое исследование показывает, что последние версии ChatGPT допускают ошибки в два раза чаще, чем предыдущие модели.

Согласно данным тестирования, новейшие модели искусственного интеллекта, такие как ChatGPT o3 и o4-mini, склонны к галлюцинациям в два раза больше, чем их менее продвинутые аналоги, не обладающие способностью к рассуждению.

Под “галлюцинациями” в сфере нейросетей подразумеваются неверные ответы, которые ИИ выдает с полной уверенностью в их истинности. В частности, в ходе теста PersonQA, оценивающего знания ChatGPT о людях, модель o3 демонстрировала галлюцинации в 33% случаев, а o4-mini – в 43% запросов. Для сравнения, у o3-mini этот показатель не превышал 15%.

Другой тест, Transluce, проведенный независимым разработчиком, выявил, что модель o3 склонна придумывать свои действия. Например, на один из запросов ИИ заявил, что запускал программный код на Apple MacBook Pro 2021 года “вне ChatGPT” и скопировал числа в свой ответ, хотя на самом деле таких возможностей у него не было.

Одним из решений проблемы галлюцинаций является предоставление ИИ доступа к веб-поиску, который обеспечивает более качественную и достоверную информацию. Этот подход оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более совершенным моделям искусственного интеллекта.

By Платон Костромин

Платон Костромин — профессиональный спортивный аналитик из Новосибирска с опытом работы более 12 лет. Специализируется на футболе и хоккее, ведёт авторскую колонку в нескольких спортивных изданиях.

Related Post