Я проверил заявления OpenAI о GPT-5 — вот что произошло
OpenAI недавно выпустила GPT-5 , свою новейшую модель большого языка и крупное обновление ChatGPT . Хотя новое обновление имеет множество преимуществ, заявления — это одно, а реальность — другое.
Говорят, что GPT-5 быстрее, менее склонен к галлюцинациям и подхалимству, а также способен выбирать между быстрыми реакциями и более глубоким «мышлением» на ходу. Сколько заявлений OpenAI действительно реализуется при использовании чат-бота? Давайте выясним.
Утверждение №1: ChatGPT теперь лучше следует инструкциям
Моя главная проблема с ChatGPT, а также одна из причин, по которой я недавно отписался , заключается в том, что он зачастую не справляется с выполнением базовых инструкций. Конечно, можно полностью забить подсказки и получить желаемый результат (иногда), но даже более-менее подробные подсказки часто не приводят к желаемому результату.
OpenAI утверждает, что с выпуском GPT-5 улучшилось «следование инструкциям». На это я отвечаю: пока этого не вижу.
К счастью для меня, в тот самый день, когда я сел писать эту статью, у меня был подходящий случай взаимодействия с ChatGPT, который подтверждает мою точку зрения. Впрочем, это не единственный случай, и я заметил, что чем дольше длится разговор, тем больше ChatGPT забывает, о чём его спрашивали.
В сегодняшнем примере я проверил способность ChatGPT извлекать простую информацию и представлять её в нужном формате. Я запросил характеристики RTX 5060 Ti, современной игровой видеокарты . Последовал хаос.
Чтобы сделать мой запрос ещё более успешным, я показал ChatGPT точный формат, в котором хотел получить информацию, поделившись характеристиками другого графического процессора. Среди них были такие данные, как номер технологического узла, генерация ядер трассировки лучей и TOPS. Короче говоря, всё было довольно специфично. Сначала ИИ сообщил мне, что RTX 5060 Ti ещё не существует, чего я, в общем-то, и ожидал, учитывая его ограниченный объём знаний. Я попросил его проверить информацию онлайн.
То, что я получил, было довольно скудным. ChatGPT упустил как минимум четыре запрошенных мной пункта и предоставил неверную информацию по одной из спецификаций. Затем я попросил его уточнить несколько пунктов. В ответ он выдал мне точно такой же список, заявив, что выполнил мой запрос. То же самое произошло и с третьей попытки. Вы можете видеть это на скриншоте выше, где ChatGPT утверждает, что включил в список генерацию TOPS и TFLOPS — но это явно не так.
Наконец, немного расстроенный, я вставил скриншот с официального сайта Nvidia, чтобы показать, что я ищу. Всё равно кое-что было не так.
Моя первоначальная подсказка была полуточной. Я знаю, что с ИИ лучше не разговаривать как с человеком, поэтому дал ему инструкции примерно на 150 слов. Мне всё равно потребовалось ещё несколько сообщений, чтобы получить хоть что-то близкое к ожидаемому результату.
Вердикт: все еще требует доработки.
Утверждение №2: ChatGPT менее подхалимский
В предыдущих версиях ChatGPT был настоящим «да-да»-человеком. Он часто соглашался с пользователями, когда в этом не было необходимости, всё глубже погружая их в галлюцинации.
Для пользователей, не знакомых с внутренней работой ИИ, это может быть гранично опасно — или, по сути, крайне опасно.
Недавно исследователи провели масштабное тестирование ChatGPT, выдавая себя за подростков. Всего за несколько минут простого взаимодействия ИИ давал этим «подросткам» советы о самоповреждении, планировании самоубийства и употреблении наркотиков. Это показывает, что подхалимское поведение является серьёзной проблемой для ChatGPT, и OpenAI утверждает, что с выпуском GPT-5 удалось частично его устранить.
Я никогда не тестировал ChatGPT до такой степени, но определённо заметил, что он склонен соглашаться с вами, что бы вы ни говорили. Он улавливал едва заметные намёки во время разговора и превращал их в само собой разумеющееся. Он также подбадривал вас в те моменты, когда, вероятно, этого делать не следовало.
В связи с этим должен сказать, что ChatGPT претерпел кардинальные изменения — как в лучшую, так и в худшую сторону. Ответы теперь слишком сухие, неинтересные и не особенно воодушевляющие.
Многие пользователи оплакивают эти изменения, а некоторые пользователи Reddit утверждают, что « потеряли своего единственного друга в одночасье ». Действительно, ранее чрезвычайно дружелюбный ИИ теперь довольно однообразен, а его ответы зачастую короче, чем те мини-эссе, которые он регулярно выдавал на этапе GPT-40, напичканные эмодзи.
Вердикт: определённо менее подхалимское. С другой стороны, это также ужасно скучно.
Утверждение №3: GPT-5 лучше с точки зрения фактической точности
Шокирующее отсутствие фактической точности стало ещё одной важной причиной, по которой я решил отказаться от ChatGPT. В некоторые дни мне казалось, что половина использованных мной подсказок вызывала галлюцинации. И дело не только в отсутствии у меня умных подсказок, ведь я потратил сотни часов на то, чтобы научиться правильно давать подсказки ИИ — я знаю, как задавать правильные вопросы.
Со временем я научился спрашивать только о том, о чём имел смутное представление. В рамках сегодняшнего эксперимента я спросил о характеристиках видеокарты. Четыре из пяти запросов дали какую-то неверную информацию, хотя вся информация легко доступна в интернете.
Затем я обратился к историческим фактам. Я прочитал пару интересных статей о путешествии «Гинденбурга» — дирижабля 1930-х годов, который мог доставлять пассажиров из Европы в США за рекордное время (60 часов). Я спросил о его точном маршруте, о количестве пассажиров, которое он мог вместить, и о том, что привело к его окончательной гибели. Я сверил ответы с историческими источниками.
В описании маршрута была допущена одна ошибка: была упомянута остановка в Канаде, хотя её не было — дирижабль пролетел только над Канадой. ChatGPT также предоставил мне неточную информацию о точной причине пожара, приведшего к крушению, но это не было серьёзной ошибкой.
Для сравнения я также спросил Gemini, и мне сказали, что он не может выполнить эту задачу за меня. Что ж, из этих двух GPT-5 справился лучше, но, честно говоря, у него не должно быть никаких фактических неточностей в данных столетней давности.
Вердикт: не идеально, но и не ужасно.
GPT-5 лучше, чем GPT-4o?
Если бы вы спросили меня, нравится ли мне GPT-5 больше, чем GPT-4o, мне было бы сложно ответить. Скорее всего, я не был в восторге ни от того, ни от другого, но, честно говоря, ни один из них не является однозначно плохим.
Мы всё ещё находимся в самом разгаре революции искусственного интеллекта. Каждая новая модель приносит определённые улучшения, но вряд ли мы увидим масштабный скачок с каждой новой итерацией.
На этот раз, похоже, OpenAI решила заняться решением давно назревших проблем, а не внедрять какую-то отдельную функцию, которая сводит с ума толпу. GPT-5 ощущается скорее как улучшение качества жизни, чем что-либо ещё, хотя я не тестировал его на таких задачах, как кодирование, где, как говорят, он работает гораздо лучше.
Три вещи, которые я протестировал выше, были одними из тех, которые больше всего раздражали меня в предыдущих моделях. Хотелось бы сказать, что GPT-5 в этом отношении гораздо лучше, но это не так — пока нет. Тем не менее, я продолжу тестировать чат-бота, поскольку недавно опубликованная системная подсказка подсказывает, что изменений в личности, возможно, было больше, чем я изначально предполагал.