Google запускает Gemini, языковую модель, которая "значительно опережает" GPT-4 OpenAI

08.12.2023

197

Google наносит серьезный удар по индустрии искусственного интеллекта и машинного обучения с помощью Gemini, мультимодальной языковой модели, которая обещает превзойти GPT-4.

В мае прошлого года на своей конференции ввода-вывода Google представила Gemini, языковую модель с возможностями, все еще намного превосходящими возможности PaLM, модель, на которой до сих пор основывались ее продукты, в том числе Bard. Официальный запуск Gemini состоится сегодня, и Google, похоже, чрезвычайно уверен в его производительности.

Gemini работает лучше, чем GPT-4?

Для Демиса Хассабиса, генерального директора Google DeepMind, Gemini - огромный шаг вперед в области искусственного интеллекта. Одной из задач, стоящих перед его командами, была разработка языковой модели, превосходящей эталонную GPT-4, разработанную OpenAI и используемую Microsoft в своих продуктах.

Google, конечно, не отказался от небольшой игры в сравнения с GPT-4, чтобы выделить Gemini. По словам Демиса Хассабиса, обе языковые модели прошли 32 теста производительности, почти все из которых выиграл Google.

«Я думаю, что мы значительно опережаем по 30 из этих 32 критериев», - заявил глава DeepMind, которого цитирует The Verge. Однако в публикации уточняется, что тесты по большей части очень близки. Gemini обладает существенным преимуществом, в частности, в одном: понимании аудио- и видеоконтента и взаимодействии с ним.

С Gemini у Google были амбиции создать действительно мультимодальную языковую модель. Это другой подход, чем у OpenAI, который использует DALL-E для изображений и Whisper для звука. Из-за этого OpenAI необходимо наладить взаимодействие между различными платформами, чтобы получить действительно полный опыт, который неизбежно сложнее оптимизировать.

Модель, которая изначально объединяет изображение и звук

И поскольку мы говорим об эффективности, Google с гордостью сообщает, что Gemini демонстрирует особую эффективность. Он не только быстрее, чем PaLM, но и дешевле в эксплуатации. Веский аргумент, если учесть, что правильное функционирование такого рода технологий на основе машинного обучения зависит от громоздкой и очень дорогой инфраструктуры.

Чтобы добиться этого, Google обновил свою систему TPU до версии v5p. Он служит для обучения и запуска крупномасштабных моделей центрами обработки данных. Gemini также прошла обучение с использованием самодельных тензорных процессоров, что позволяет снизить затраты, например, по сравнению с оборудованием NVIDIA.

Сундар Пичаи уверяет, что Gemini вносит улучшения практически во все сценарии использования крупномасштабной языковой модели. В частности, он доволен прогрессом, достигнутым в области генерации кода. С AlphaCode 2 Gemini превосходит 85% разработчиков, участвующих в тестировании по программированию, по сравнению с 50% при первом тестировании AlphaCode.

Gemini на Bard и Pixel 8 Pro уже сейчас

При разработке Gemini у Google была одна общая идея: иметь возможность легко интегрировать ее в свои продукты, которые, таким образом, можно будет быстро обновить, чтобы извлечь выгоду из последних улучшений, внесенных в модель. Он выпускается в трех версиях :

Gemini Nano : более легкая, она предназначена для собственного запуска как локально, так и в автономном режиме на устройствах Android.
Gemini Pro: предполагается, что она будет встроена во многие сервисы Google, включая чат-бота Bard.
Gemini Ultra : более мощный, он должен обеспечивать работу центров обработки данных и удовлетворять огромные потребности предприятий.

Что касается сроков доступности, Google объявляет, что Bard теперь использует преимущества Gemini. Владельцы Pixel 8 Pro также очень быстро получат доступ к нескольким новым функциям благодаря Gemini Nano.

С 13 декабря 2023 года разработчики и предприятия смогут получить доступ к Gemini Pro через Google Generative AI Studio и Vertex AI в Google Cloud. Gemini Ultra будет доступна в следующем году, и фирма из Маунтин-Вью предпочитает не торопиться, чтобы убедиться в безопасности версии своей модели, предлагающей наибольшие возможности.

Другие сервисы и продукты Google, такие как поисковая система, браузер Chrome и многие другие, будут работать на Gemini чуть позже. На данный момент Gemini поддерживает только английский, но скоро появятся и другие языки.