Новости

OpenAI облажалась с диаграммами на презентации GPT-5 — Альтман признал ошибку

Во время масштабной прямой трансляции с презентацией модели искусственного интеллекта GPT-5 компания OpenAI продемонстрировала несколько диаграмм, которые должны были иллюстрировать впечатляющие способности новой модели. Однако при более внимательном рассмотрении некоторые графики оказались построены с серьёзными неточностями.

HUAWEI Pura 80 Ultra глазами фотографа

HUAWEI Pura 80 Ultra глазами фотографа

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Первый взгляд на смартфон HUAWEI Pura 80 Ultra

Первый взгляд на смартфон HUAWEI Pura 80 Ultra

Пять причин полюбить HONOR 400

Пять причин полюбить HONOR 400

Обзор смартфона HONOR 400: реаниматор

Обзор смартфона HONOR 400: реаниматор

HUAWEI nova Y73: самый недорогой смартфон с кремний-углеродной батареей

HUAWEI nova Y73: самый недорогой смартфон с кремний-углеродной батареей

Обзор HUAWEI MatePad Pro 12.2’’ (2025): обновление планшета с лучшим экраном

Обзор HUAWEI MatePad Pro 12.2’’ (2025): обновление планшета с лучшим экраном

Обзор смартфона HUAWEI nova Y63: еще раз в ту же реку

Обзор смартфона HUAWEI nova Y63: еще раз в ту же реку

Обзор ноутбука HONOR MagicBook Pro 14 (FMB-P) на платформе Core Ultra второго поколения

Обзор ноутбука HONOR MagicBook Pro 14 (FMB-P) на платформе Core Ultra второго поколения

Пять причин полюбить ноутбук HONOR MagicBook Pro 14

Пять причин полюбить ноутбук HONOR MagicBook Pro 14

 Источник изображения: Mariia Shalabaieva / unsplash.com

На одной из диаграмм, которая, по иронии, должна была демонстрировать высокие результаты GPT-5 в «оценке склонности к обману у разных моделей», шкала не соответствует числовым значениям. Например, для «обмана при написании кода» у GPT-5 указано значение 50,0 %, тогда как у модели o3 — 47,4 %. Однако столбец для o3 на диаграмме оказался выше. Более того, в корпоративном блоге OpenAI указано совсем другое значение для GPT-5 — 16,5 %, что, вероятно, и является верным показателем.

 Источник изображения: x.com/shreyk0

В тесте SWE-bench Verified один из показателей GPT-5 должен быть ниже, чем у o3, но ему соответствует более высокий столбец диаграммы; на этой же диаграмме результаты o3 и GPT-4o различаются, но иллюстрируются столбцами одинакового размера. В OpenAI восприняли ошибку всерьёз — гендиректор компании Сэм Альтман (Sam Altman) повинился и добавил, что в корпоративном блоге опубликованы правильные версии.

 Источник изображения: x.com/EgeErdil2

В OpenAI не уточнили, использовалась ли сама GPT-5 для построения диаграмм, но такой инцидент явно не добавляет доверия в контексте масштабной презентации новой модели. Особенно с учётом того, что разработчики заявили о значительном снижении уровня галлюцинаций у GPT-5.

Источник