Новые ChatGPT модели: почему они ошибаются чаще старых?

Исследование: Новые модели ChatGPT чаще ошибаются

Новое исследование показывает, что последние версии ChatGPT допускают ошибки в два раза чаще, чем предыдущие модели.

Согласно данным тестирования, новейшие модели искусственного интеллекта, такие как ChatGPT o3 и o4-mini, склонны к галлюцинациям в два раза больше, чем их менее продвинутые аналоги, не обладающие способностью к рассуждению.

Под «галлюцинациями» в сфере нейросетей подразумеваются неверные ответы, которые ИИ выдает с полной уверенностью в их истинности. В частности, в ходе теста PersonQA, оценивающего знания ChatGPT о людях, модель o3 демонстрировала галлюцинации в 33% случаев, а o4-mini – в 43% запросов. Для сравнения, у o3-mini этот показатель не превышал 15%.

Другой тест, Transluce, проведенный независимым разработчиком, выявил, что модель o3 склонна придумывать свои действия. Например, на один из запросов ИИ заявил, что запускал программный код на Apple MacBook Pro 2021 года «вне ChatGPT» и скопировал числа в свой ответ, хотя на самом деле таких возможностей у него не было.

Одним из решений проблемы галлюцинаций является предоставление ИИ доступа к веб-поиску, который обеспечивает более качественную и достоверную информацию. Этот подход оказался эффективным для нерассуждающей модели o4, и разработчики надеются, что он также поможет и более совершенным моделям искусственного интеллекта.

Исследование: Новые модели ChatGPT чаще ошибаются

By Платон Костромин

Вы пропустили

Рейтинг NWSL: Kansas City забирает Щит, но команды-темные лошадки набирают обороты

КХЛ: «Локомотив» вырывает победу у «Лады» после 0:2, «Динамо» сильнее «Шанхайских Драконов»

Саудовская Аравия станет хозяином нового турнира серии ATP Masters 1000

Maddyson: Грядущий кризис российского стриминга и «лопнувший пузырь» индустрии

Категории

Спонсоры статей

О портале

Исследование: Новые модели ChatGPT чаще ошибаются

By Платон Костромин

Related Post

Рейтинг NWSL: Kansas City забирает Щит, но команды-темные лошадки набирают обороты

КХЛ: «Локомотив» вырывает победу у «Лады» после 0:2, «Динамо» сильнее «Шанхайских Драконов»

Саудовская Аравия станет хозяином нового турнира серии ATP Masters 1000

Вы пропустили

Рейтинг NWSL: Kansas City забирает Щит, но команды-темные лошадки набирают обороты

КХЛ: «Локомотив» вырывает победу у «Лады» после 0:2, «Динамо» сильнее «Шанхайских Драконов»

Саудовская Аравия станет хозяином нового турнира серии ATP Masters 1000

Maddyson: Грядущий кризис российского стриминга и «лопнувший пузырь» индустрии