Google представила масштабную модель искусственного интеллекта Gemini. Рассмотрим её преимущества перед ChatGPT, неточности в презентации Google и возможности бесплатного использования.
Мультимодальные модели ИИ
Модель ИИ — компьютерная программа, обученная на различных данных (книги, песни, видео и т.д.), предназначенная для максимально точного и полезного ответа на запрос пользователя. Модели бывают разные: одни генерируют изображения, другие — текст, третьи — музыку. Мультимодальные модели обрабатывают информацию, приближаясь к человеческому восприятию. Они обрабатывают не только текст, но и ассоциированные с ним образы, запахи, эмоции и т.д. Gemini — пример такой мультимодальной модели, обучаемой на текстах, аудио, изображениях и видео.
Версии Gemini
Google представила три версии Gemini: Gemini Ultra (самая мощная), Gemini Pro (средней мощности) и Gemini Nano (для мобильных устройств Google Pixel). Презентация включала сравнение Gemini с ChatGPT-4 (версия Turbo). Результаты тестов показали преимущество Gemini в большинстве номинаций, за исключением одной, где лидировал ChatGPT-4. Подробные результаты доступны в дополнительных ресурсах.
Демонстрация возможностей
Презентация продемонстрировала впечатляющие возможности Gemini: роль репетитора (распознавание аудио на разных языках, оценка ответов, объяснение решений математических задач и предоставление упражнений); анализ и сравнение изображений (установление неожиданных связей); взаимодействие в режиме реального времени (распознавание нарисованных от руки объектов, определение их характеристик, перевод слов и генерация музыки на основе нарисованных инструментов).
Скандал с демонстрацией
После презентации выяснилось, что демонстрация взаимодействия Gemini в реальном времени была смонтирована. Видео не демонстрировало работу модели в реальном времени, вместо этого использовались отдельные скриншоты и текстовые запросы. Google признала это, объяснив, что демонстрация предназначалась для показа потенциала модели, а не её текущих возможностей.
Gemini в Google Bard и доступность
Gemini интегрирована в Google Bard, что позволяет использовать её возможности бесплатно. Однако, доступность зависит от региона. Список доступных стран предоставляется отдельно.
Gemini и ChatGPT: кто победит?
Google обладает огромными ресурсами и базами данных для обучения моделей ИИ. Gemini демонстрирует впечатляющий потенциал, но пока находится на стадии развития. ChatGPT также продолжает совершенствоваться, получая поддержку от Microsoft. Кто станет победителем — покажет время. Важно, чтобы прогресс в области ИИ способствовал развитию человечества.