Перейти к содержанию
View in the app

A better way to browse. Learn more.

Форум VAOZ.RU

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS
  1. Tap the Share icon in Safari
  2. Scroll the menu and tap Add to Home Screen.
  3. Tap Add in the top-right corner.
To install this app on Android
  1. Tap the 3-dot menu (⋮) in the top-right corner of the browser.
  2. Tap Add to Home screen or Install app.
  3. Confirm by tapping Install.

Новые нейросети OpenAI «бредят» больше предшественников

Featured Replies

Опубликовано

YYMluHRqG7xT5pz5sYxYRRSyy5ADryV7jtp8fteyNtwzxt7hfGO0cWRnNbbqQ5MxEB2LmrYlU9rm94-Q061oMFN5.jpg

Новые нейросети OpenAI «бредят» больше предшественников

Недавно выпущенные модели искусственного интеллекта OpenAI o3 и o4-mini, хотя во многих отношениях являются передовыми, галлюцинируют и выдумывают чаще, чем некоторые из предыдущих моделей.

Внутреннее тестирование OpenAI показало, что o3 галлюцинирует в ответ на 33% вопросов из PersonQA — бенчмарка компании для измерения точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих моделей рассуждений o1 и o3-mini, которые составили 16% и 14,8% соответственно. С o4-mini ситуация ещё хуже — 48%.

Ранее каждая новая модель снижала уровень галлюцинаций, но o3 и o4-mini нарушают эту закономерность. Независимое тестирование Transluce также выявило доказательства того, что o3 фальсифицирует свои действия: в одном примере исследователи наблюдали, как модель o3 утверждала, что «запустил код на MacBook Pro 2021 года вне ChatGPT», а затем скопировала результаты в ответ. Хотя o3 имеет доступ к некоторым инструментам, она не может этого сделать.

Ещё больше беспокойство вызывает тот факт, что OpenAI не понимает причин этого явления. В техническом отчёте по o3 и o4-mini компания отмечает: «Необходимы дополнительные исследования, чтобы понять, почему уровень галлюцинаций увеличивается при масштабировании моделей рассуждений». Модели o3 и o4-mini по-прежнему превосходят предшественников в некоторых областях, в том числе в задачах, связанных с программированием и математикой. По сообщению OpenAI, поскольку они «генерируют больше утверждений в целом», они одновременно выдают и более точные, и более неточные (галлюцинаторные) ответы.

Хотя некоторые утверждают, что галлюцинации способствуют креативности ИИ, в профессиональной среде они представляют серьёзный риск. Представьте юридическую фирму, использующую ИИ для составления контрактов — если ИИ вставит неверную информацию, это может иметь серьёзные последствия.

Одно из возможных решений, сейчас находящееся на стадии изучения, — предоставить моделям ИИ доступ к веб‑поиску. Комбинация GPT‑4o и поиска в Интернете достигла 90% точности в другом бенчмарке SimpleQA. Возможно, добавление инструментов поиска к моделям рассуждений, таким как o3 и o4-mini, поможет сократить количество галлюцинаций, хотя это и сопряжено с компромиссами.

Источник

Для публикации сообщений создайте учётную запись или авторизуйтесь

Рейтинг@Mail.ru Яндекс.Метрика

Configure browser push notifications

Chrome (Android)
  1. Tap the lock icon next to the address bar.
  2. Tap Permissions → Notifications.
  3. Adjust your preference.
Chrome (Desktop)
  1. Click the padlock icon in the address bar.
  2. Select Site settings.
  3. Find Notifications and adjust your preference.