Вступление

Всего пару лет назад слово “Gemini” у русскоязычной аудитории вызывало ассоциацию разве что с гороскопами – так на латыни называется зодиакальное созвездие Близнецов. Сегодня же рядом с названием “Gemini” прочно закрепились “ИИ”, “чат-бот” и “нейросеть”.

Релиз Gemini 1.5 Pro зимой 2024 года наделал много шума – ведь модель продемонстрировала способность обрабатывать напрямую не только текст, но и видео- и аудиофайлы. Давайте разберемся, почему интеллектуальные модели, разработанные Google, вызывают пристальный интерес, и какие характеристики отличают их от конкурентов? А еще расскажем, как получить доступ к чат-боту и API Gemini из РФ в 2024 году, и при чем здесь оказался Google Bard.

Как Google Bard эволюционировал в Gemini

Ребрендинг Google Bard
Ребрендинг Google Bard

Проект реализован благодаря слиянию двух ведущих команд в области ИИ в апреле 2023 года. В разработке Gemini AI принимали участие лаборатории DeepMind и Brain AI. Инженеры работали над технологией AlphaGo и архитектурой “Transformer” — основой для языковых моделей.

В декабре 2023 года гендиректор Google и глава DeepMind выступили с презентацией. Гугл анонсировали нейросеть Gemini как LLM — большую языковую модель, натренированную самостоятельно находить закономерности в гигабайтах текста. Такой подход позволяет ИИ обучаться без стимула и ответов со стороны разработчика.

Нейросеть запустили на базе чат-бота Bard, но в феврале 2024 года произошел ребрендинг. Это было частью стратегии по созданию единой экосистемы. Руководство корпорации пояснило, что отдельное наименование для диалогового сервиса Bard больше не требуется, поскольку теперь он интегрирован в более функциональную платформу Gemini AI.

Обзор семейства моделей Gemini

Новейшая версия Gemini Google – 1.5 pro latest – превзошла людей и GPT-4 в тесте MMLU. MMLU (Massive Multitask Language Understanding) — тест, позволяющий оценить экспертные знания модели, полученные на этапе предобучения, в различных областях знаний. Ответы модели на вопросы из 57 наук оказались точнее и глубже, чем у настоящих экспертов. А инструмент AlphaCode2 на базе Gemini AI по результатам тестирования превосходит 85% программистов-людей.

Нейросеть Google работает с текстом, изображениями, аудио и видео. В этом заключается мультимодальность чат-бота Gemini. Алгоритмы анализируют закономерности кадра, чтобы интерпретировать происходящие события с учетом фона, положения элементов в пространстве и контекста. По тому же принципу система обучалась на аудиоданных.

Gemini AI отличается особым подходом к поиску информации: сначала генерируется интерфейс, потом он наполняется контентом. Технический директор Google раскрыл подробности работы алгоритма в этом видео.

Как алгоритм Gemini AI преобразует входящие данные
Как алгоритм Gemini AI преобразует входящие данные

Google предлагает 4 версии Gemini:

  • Pro.
  • Ultra.
  • Nano.
  • Flash.

Модели отличаются друг от друга скоростью, возможностями, стоимостью тарифов и набором вариантов использования. Рассмотрим их в порядке появления.

Gemini Pro 1.0

Дата релиза 6 декабря 2023 года
Контекстное окно 32 000 токенов
Общая оценка эффективности MMLU 71,8%
Генерация кода на Python 69,6%
Решение математических задач 32,6%
Ответы на экспертные вопросы 27,9%
Многоэтапное рассуждение 75,0%
Понимание графических форматов MMMU 47,9%
Ошибки при распознавании речи 6,4%
Видеоответ на вопрос 55,7%

Gemini pro 1.0 – первый чат-бот семейства. Он эффективен для решения несложных повседневных задач. Google Gemini Pro 1.0 подскажет, как собрать кубик Рубика или приготовить пиццу. Также бесплатная модель объяснит философские термины, напишет код карусели на JavaScript и сочинит сценарии для вертикальных видео.

Производительность моделей глубокого обучения оценивается при помощи специальных инструментов – бенчмарков. Так вот, результаты бенчмарков Pro 1.0 на фоне конкурентов совсем не впечатляют. Модель — самая примитивная в семействе Gemini, которая на практике сравнима с устаревающим GPT 3.5 от Open AI.

Пользоваться Pro 1.0 можно бесплатно, но доступ ко всем версиям Gemini из ряда стран, в том числе из РФ, ограничен.

Gemini Pro Vision

До 1 февраля 2024 года пользователи нейросети в ответ на запрос получали только текст. Через 2 месяца с момента релиза разработчики обновили Gemini Pro 1.0 и добавили функцию генерации изображений.

Ранее модуль Pro Vision был доступен отдельно на платформе Google AI Studio. С февраля 2024 года функция генерации изображений стала компонентом бесплатной Gemini Pro 1.0. Если решите сгенерировать картинку, то имейте ввиду: чат-бот распознает запросы только на английском языке.

Gemini Ultra 1.0

Дата релиза 8 февраля 2024 года
Контекстное окно 128 000 токенов
Общая оценка эффективности MMLU 83,7%
Генерация кода на Python 74,9%
Решение математических задач 53,2%
Ответы на экспертные вопросы 35,7%
Многоэтапное рассуждение 83,6%
Понимание графических форматов MMMU 59,4%
Ошибки при распознавании речи 6,0%
Видеоответ на вопрос 61,5%

Версия Ultra 1.0 стала первой нейросетью Google, которая превзошла людей в многозадачном тесте MMLU. Модель обладает расширенными аналитическими возможностями, а при интеграции в AlphaCode2 показывает высочайшую производительность в области кодирования. Доступ к чат-боту распространяется по подписке Google Advanced.

Приобретая подписку, пользователи получают:

  • Доступ к Gemini Ultra 1.0.
  • Доступ к Gemini Pro 1.5.
  • Поддержку Google Документов, файлов PDF для генерации.
  • Поддержку таблиц, диаграмм для генерации.
  • Исполнение кода Python внутри диалогового окна Gemini.
  • Интеграцию Gemini в сервисы Google.

С простыми задачами Gemini Ultra 1.0 справляется на уровне бесплатной Pro 1.0, но есть заметные отличия при работе с более сложными сценариями. Например, чат-бот лучше пересказывает текст, выделяет ключевые мысли при суммаризации, предоставляет развернутые ответы.

Качество и стиль изображений не отличаются от генераций бесплатной версии – в Pro 1.0 и Ultra 1.0 используют один и тот же модуль Gemini Pro Vision.

Gemini Nano 1.0

Самая “маленькая” модель семейства, оптимизированная под смартфоны. Контекстное окно и бенчмарки Nano 1.0 идентичны Pro 1.0.

Google Pixel 8 стал первым смартфоном с локальной нейросетью Gemini. Модель призвана давать быстрые ответы на мобильных устройствах даже без доступа в Интернет. Возможности Nano 1.0 включают генерацию ответов в мессенджерах, распознавание голоса и визуальной информации и взаимодействие с сервисами Google.

Gemini 1.5 Pro

Дата релиза 14 мая 2024 года
Контекстное окно 2 000 000 токенов
Общая оценка эффективности MMLU 85,9%
Генерация кода на Python 82,6%
Решение математических задач 67,7%
Ответы на экспертные вопросы 46,2%
Многоэтапное рассуждение 89,2%
Понимание графических форматов MMMU 62,2%
Ошибки при распознавании речи 6,5%
Видеоответ на вопрос 72,2%

Переходим к новейшему поколению LLM. Gemini 1.5 Pro превосходит предыдущие модели Google, Chat GPT и Claude. Нейросеть обрабатывает до 2 миллионов токенов, что эквивалентно 1 400 000 слов, 2 часам видео или 22 часам аудио. Использовать Gemini 1,5 Pro можно в рамках подписки Google Advanced или бесплатно в Google AI Studio, но тут есть региональные ограничения, и Россия в “белый список” стран не входит.

В основе модели лежит архитектура Mixture-of-Experts, которая разделяет систему на «экспертные» подсети. Активируются только релевантные части сети в зависимости от входных данных, что значительно повышает эффективность обработки информации.

Функцию генерации изображений для данной модели Google временно приостановил из-за проблем с исторической точностью. Gemini 1.5 Pro увлеклась расовой инклюзивностью, искажая факты, что вызвало шквал критики в соцсетях. Инцидент спровоцировал появление теорий о намеренном исключении белых людей из генерации. Компания отреагировала на жалобы пользователей и отправила функционал на доработку.

Gemini 1.5 Flash

Дата релиза 14 мая 2024 года
Контекстное окно 1 000 000 токенов
Общая оценка эффективности MMLU 78,9%
Генерация кода на Python 77,2%
Решение математических задач 54,9%
Ответы на экспертные вопросы 39,5%
Многоэтапное рассуждение 85,5%
Понимание графических форматов MMMU 56,1%
Ошибки при распознавании речи 9,8%
Видеоответ на вопрос 65,7%

Модель позиционируется как лучший инструмент для ежедневных задач по соотношению цены и качества. Gemini Flash была лучшей альтернативой GPT-4o и Claude 3 Opus до тех пор, пока Google не увеличила стоимость генерации – с $0,53 до $1,05.

Бенчмарки производительности версии схожи с показателями февральского релиза Gemini Pro 1.5, но функционирует она в контекстном окне в 1 000 000 токенов. Flash 1.5 генерирует около 150 токенов в секунду, что превосходит результаты Open AI и Claude. Для сравнения: GPT-4o выдает около 80 токенов в секунду, а GPT-4-Turbo — всего 25 токенов в секунду.

Gemini AI против новейших моделей на рынке

Сравнительная таблица моделей Gemini AI
Сравнительная таблица моделей Gemini AI

Лучшими характеристиками в семействе Gemini AI обладают модели Flash 1.5 и Gemini 1.5 Pro. Они справляются с любыми задачами точнее и эффективнее, чем предыдущие версии 1.0. Самая мощная нейросеть от Гугла, обновленная в мае 2024 года — это Gemini 1.5 pro latest. Именно она соревнуется с алгоритмами Open AI, Claude, Llama за звание лучшей LLM.

Конкуренция Gemini и Chat GPT
Gemini pro – один из главных конкурентов Chat GPT

Gemini Flash 1.5 демонстрирует впечатляющие результаты по метрике COMET — 89,27 баллов. Модели Gemini Pro превосходят показатели GPT-3.5 turbo и сравнимы с производительностью Claude 3 Haiku, уступая ей лишь по некоторым бенчмаркам.

Comet – это платформа для отслеживания, сравнения и оптимизации моделей и экспериментов машинного обучения. Она позволяет регистрировать метрики и параметры во время обучения моделей и помогает специалистам повышать их прозрачность и производительность.

Минимальное увеличение по шкале COMET заметно сказывается на результатах генерации. Например, разница между Google Translate и DeepL составляет всего 0,2 в пользу последнего, но на практике это ощутимо влияет на качество перевода.

Лидерами рынка по-прежнему остаются модели конкурентов. Claude 3 Opus демонстрирует наивысший результат по метрике COMET (90,75), а GPT-4o показывает выдающиеся результаты в задачах программирования.

Как получить доступ к Gemini в России

Доступ к боту Gemini ограничен из РФ
Доступ к боту Gemini ограничен из РФ

Gemini недоступен пользователям с российским IP. Чтобы общаться с чат-ботом Гугла, потребуется сменить регион. Если переключение на разрешенный IP-адрес не помогло, можно попробовать очистить кэш и cookie-файлы в браузере и повторить попытку.

Ссылки на Gemini:

Самый простой и надежный способ получить доступ к Gemini в России без антидетект браузера и трехбуквенного метода подключения — специальные онлайн-сервисы.

Например, Mitup AI объединяет нейросети от разных разработчиков – Google DeepMind, Open AI, Meta* AI на одной платформе, позволяя пользователям из РФ и стран СНГ свободно обращаться к лучшим чат-ботам без ограничений. Между моделями можно легко переключаться, а функция памяти сохраняет все предыдущие диалоги и позволяет быстро вернуться к любому из них. Список доступных нейросетей периодически пополняется – следующим релизом станут модели семейства Claude 3, разработанные компанией Anthropic.

API Gemini для разработчиков

Буквально на днях Google объявили о том,что новейшая версия Gemini Pro 1.5 с расширенным контекстным окном в 2 миллиона токенов стала доступна для всех разработчиков. Нейросеть можно встраивать в собственные приложения и сайты.

Также компания предоставляет доступ к API Gemini Pro – модели первого поколения и к API мультимодальной Gemini Flash 1.5 с контекстным окном в 1 млн. токенов.

Для каждой из версий предусмотрено бесплатное использование, но с ограничением на количество токенов и запросов в минуту и в сутки.

Чтобы получить доступ к API Gemini из РФ, следует сменить свой IP-адрес и переключиться на один из разрешенных регионов, например, США. Далее перейдите по ссылке. Здесь можно создать gemini api key и ознакомиться с документацией по api. Примите условия, и кликните “Create API key in new project”.

Цены за использование Gemini API Key для каждой модели без лимитов также опубликованы здесь. Минимальный прайс указан за 1 000 000 токенов для промпта размером менее 128 000 токенов.

Модель Input Context caching Output
Gemini Flash 1.5 $0.35-0.70 $0.0875-1.00 $1.05-2.10
Gemini Pro 1.5 $3.50-7.00 $0.875-4.50 $10.50-21.00
Gemini Pro 1.0 $0.50 $1.50

Вместо заключения

Мультимодальные вычисления Gemini AI и контекстное окно, расширенное до рекордных 2 000 000 токенов, демонстрируют потенциал и стремление Гугла к лидерству в области.

Однако, конкуренция на ИИ-рынке в 2024 году стала еще более жесткой. Модели GPT-4 и Claude 3 показывают выдающиеся результаты, смещая Gemini 1.5 pro на 3 место в топе. Поэтому Google DeepMind уже вовсю работают над Gemini Ultra 1.5 и обещают поставить новый рекорд по бенчмаркам.

* организация признана экстремистской и запрещена на территории РФ