Google Gemini: что умеет новая нейросеть?

Google представила масштабную модель искусственного интеллекта Gemini. Рассмотрим её преимущества перед ChatGPT, неточности в презентации Google и возможности бесплатного использования.

Мультимодальные модели ИИ

Модель ИИ — компьютерная программа, обученная на различных данных (книги, песни, видео и т.д.), предназначенная для максимально точного и полезного ответа на запрос пользователя. Модели бывают разные: одни генерируют изображения, другие — текст, третьи — музыку. Мультимодальные модели обрабатывают информацию, приближаясь к человеческому восприятию. Они обрабатывают не только текст, но и ассоциированные с ним образы, запахи, эмоции и т.д. Gemini — пример такой мультимодальной модели, обучаемой на текстах, аудио, изображениях и видео.

Версии Gemini

Google представила три версии Gemini: Gemini Ultra (самая мощная), Gemini Pro (средней мощности) и Gemini Nano (для мобильных устройств Google Pixel). Презентация включала сравнение Gemini с ChatGPT-4 (версия Turbo). Результаты тестов показали преимущество Gemini в большинстве номинаций, за исключением одной, где лидировал ChatGPT-4. Подробные результаты доступны в дополнительных ресурсах.

Демонстрация возможностей

Презентация продемонстрировала впечатляющие возможности Gemini: роль репетитора (распознавание аудио на разных языках, оценка ответов, объяснение решений математических задач и предоставление упражнений); анализ и сравнение изображений (установление неожиданных связей); взаимодействие в режиме реального времени (распознавание нарисованных от руки объектов, определение их характеристик, перевод слов и генерация музыки на основе нарисованных инструментов).

Скандал с демонстрацией

После презентации выяснилось, что демонстрация взаимодействия Gemini в реальном времени была смонтирована. Видео не демонстрировало работу модели в реальном времени, вместо этого использовались отдельные скриншоты и текстовые запросы. Google признала это, объяснив, что демонстрация предназначалась для показа потенциала модели, а не её текущих возможностей.

Gemini в Google Bard и доступность

Gemini интегрирована в Google Bard, что позволяет использовать её возможности бесплатно. Однако, доступность зависит от региона. Список доступных стран предоставляется отдельно.

Gemini и ChatGPT: кто победит?

Google обладает огромными ресурсами и базами данных для обучения моделей ИИ. Gemini демонстрирует впечатляющий потенциал, но пока находится на стадии развития. ChatGPT также продолжает совершенствоваться, получая поддержку от Microsoft. Кто станет победителем — покажет время. Важно, чтобы прогресс в области ИИ способствовал развитию человечества.

Что будем искать? Например,Переговоры