Расчет стоимости генерации нейросети в чате

Расчет стоимости генерации

Система расчетов стоимости при работе с нейросетями основана на 3 разных параметрах в зависимости от типа генерации и модели нейросети:

Генерация текста. Расчет всегда идет по токенам.
Генерация изображений. Расчет может идти за кол-во сгенерированных изображений (шт.) или по токенам.
Генерация видео. Расчет может идти за кол-во сгенерированных секунд или по токенам.

Каждая нейросеть (или даже отдельная модель нейросети) может рассчитывать стоимость по-разному: за токены, шт. или секунды сгенерированного контента.

Мы ориентируемся на расчетную единицу модели и рассчитываем стоимость по нему. Например, если модель рассчитывает генерацию видео за кол-во сгенерированных секунд, стоимость будет складываться из этого. А если за генерация видео идет за токены, то расчет стоимость будет произведен по токенам.

В личном кабинете, в разделе "Банк", в таблице операций отображается столбец "Кол-во", который хранит данные о том за какую расчетную единицу был произведен расчет.

Что такое «токен»?

Представьте, что токены — это «строительные блоки» языка для нейросети. Это не совсем слова и не совсем буквы, а скорее части слов или целые короткие слова.

Одно слово на русском языке может состоять из 1-3 токенов. Например, слово «нейросеть» может быть разбито на «нейро» и «сеть». Знаки препинания и даже пробелы также считаются токенами.

Каждая нейросеть считает токены по-своему. В среднем, 1000 токенов — это примерно 500-600 слов на русском языке.

При генерации изображения или видео также могут быть использованы токены — это зависит от работы самой нейросети или её конкретной модели.

Цены моделей

У каждой модели есть цена на ввод и на вывод за каждый тип контента.

Цена на ввод — это цена за переданный контент нейросети (текст/изображения/видео/аудио файлы). Важно учесть, что каждый переданный файл в нейросеть может содержать комбинированный контент (например, PDF файл можете содержать текст и изображения).

Цена на вывод — это цена за генерацию от нейросети. В зависимости от выбранного типа генерации нейросеть может выдать текст/изображение/аудио/видео. Цена на вывод — это стоимость за обработку запроса самой нейросетью.

Цена на ввод отличается от цены на вывод, потому что на этом этапе обработки запроса не задействована сама нейросеть. Прежде чем отправить запрос к нейросети запрос проходит этап парсинга: анализ текста, анализа изображений, транскрибация аудио (перевод в текст) и т.д. и только после этого запрос отправляется в нейросеть на генерацию ответа. Приведенные примеры с операциями — примерные — у каждой нейросети свой набор операций.

Как правило, цена на ввод намного меньше цены на вывод из-за меньших требований к ресурсам.

Подробнее о правильном выборе модели нейросети.

Наша формула расчета: прозрачно и просто

Для каждого типа генерации применяется разный расчет стоимости. Это зависит от модели нейросети — какая именно расчетная единица у неё заложена: токены, шт. или секунды.

1. Генерация текста

Стоимость генерации текста рассчитывается по единой формуле:

Стоимость = (TQ + TH + TA + TOOLS) * 1K_PRICE

Где:

TQ — токены в запросе. Это всё, что вы отправляете нейросети в запросе. Сюда входит: текст вашего запроса + прикрепленные файлы (изображения/документы/аудио/видео). Если вы прикрепляете файлы в запросе, то содержимое файла также рассчитывается по токенам и считается в TQ.
TH — токены в переданной истории сообщений (если она была передана). Это «память» вашего диалога. Чтобы нейросеть помнила, о чем вы говорили ранее, и давала осмысленные ответы. Она каждый раз «перечитывает» предыдущие сообщения в текущем диалоге. Это одна из самых важных, но неочевидных частей расхода. Подробнее о передаче истории сообщений.
TA — токены в ответе нейросети. Это то, что нейросеть сгенерировала для вас в ответ на ваш запрос. Чем длиннее (массивней) ответ, тем больше токенов.
TOOLS — токены, потраченные нейросетью на инструменты (веб-поиск/мышление и пр.). Их включить/отключить можно в чате перед отправкой запроса.
1K_PRICE — цена за 1000 токенов модели. У каждой модели своя стоимость. Простые модели, как YandexGPT-lite, очень дешевые. Мощные, как Gemini 3 Pro, — дороже, потому что они им требуется больше ресурсов и благодаря этому они могут решать сложные задачи. Актуальные цены всегда можно найти на странице моделей.

2. Генерация изображений

Стоимость генерации изображения рассчитывается по единой формуле:

Стоимость = FT * COUNT

Где:

FT — изображения, которые сгенерировала нейросеть.
COUNT — кол-во сгенерированного контента (шт.).

Важно! Если модель нейросети генерирует изображение за токены, то расчет будет по формуле выше, которая применяется для расчета текста.

3. Генерация видео

Стоимость генерации видео рассчитывается по единой формуле:

Стоимость = FT * COUNT

Где:

FT — видео, которое сгенерировала нейросеть.
COUNT — кол-во секунд сгенерированного контента.

Важно! Если модель нейросети генерирует видео за токены, то расчет будет по формуле выше, которая применяется для расчета текста.

Давайте разберем на примерах простую генерацию текста

Представим, что у нас есть две модели, которые генерируют текст и на ввод принимают только текст:

«Базовая» (цена: 0.2 ₽ за 1000 токенов на ввод и вывод)
«Профи» (цена: 1.5 ₽ за 1000 токенов на ввод и вывод)

Пример 1: Простой запрос (первое сообщение в диалоге)

Окно диалога с нейросетью — Cоздаем новый диалог и отправляем сообщение в чат

Вы открываете новый чат и пишете «Базовой» модели:

Ваш запрос: «Сколько планет в Солнечной системе?»
TQ (Токены запроса): 7 токенов

Нейросеть отвечает:

Ответ: «В Солнечной системе 8 планет: Меркурий, Венера, Земля, Марс, Юпитер, Сатурн, Уран и Нептун.»
TH (Токены истории): 0 токенов (так как это первое сообщение)
TA (Токены ответа): 20 токенов
TOOLS (токены инструментов): 0 токенов (мы их не включили, нейросеть не размышляла перед ответом и не пошла смотреть материалы в поисковой системе)

Всего токенов: 7 (запрос) + 0 (история) + 20 (ответ) + 0 (инструменты) = 27 токенов

Стоимость: (27 / 1000) * 0.2 ₽ = 0.0054 ₽. (меньше одной копейки)

Пример 2: Продолжение диалога (второе сообщение)

Продолжение диалога с нейросетью — Включаем передачу истории сообщений (контекст) и продолжаем диалог

Вы продолжаете тот же чат и спрашиваете:

Ваш запрос: «А какая из них самая большая?»
TQ (Токены запроса): 6 токенов

Нейросеть отвечает:

Ответ: «Самая большая планета — Юпитер.»
TH (Токены истории): Нейросеть «перечитала» ваш первый вопрос (7 токенов) и свой первый ответ (20 токенов). Итого: 7 + 20 = 27 токенов
TA (Токены ответа): 5 токенов
TOOLS (токены инструментов): 0 токенов (мы их не включили, нейросеть не размышляла перед ответом и не пошла смотреть материалы в поисковой системе)

Всего токенов: 6 (запрос) + 27 (история) + 5 (ответ) + 0 (инструменты) = 38 токенов.

Стоимость: (38 / 1000) * 0.2 ₽ = 0.0076 ₽

Как видите, даже при коротком вопросе и ответе стоимость немного выросла из-за «памяти» чата.

Пример 3: Сложная задача с файлом

Отправка файла для обработки нейросетью — Пишем запрос в диалог, прикрепляя PDF файл

Вы хотите, чтобы мощная модель «Профи» сделала краткую выжимку из вашей статьи.

Ваш запрос: «Сделай краткое саммари этого текста в 3-х пунктах.»
TQ (Токены запроса): 10 токенов
TQ (Токены файла): ~1800 токенов (текстовый документ на 4000 слов)

Нейросеть делает выжимку:

Ответ: Краткое саммари на 150 слов
TH (Токены истории): 0 токенов (это новый диалог)
TA (Токены ответа): 270 токенов
TOOLS (токены инструментов): 0 токенов (мы их не включили, нейросеть не размышляла перед ответом и не пошла смотреть материалы в поисковой системе)

Всего токенов: 1810 (запрос с файлом) + 0 (история) + 270 (ответ) + 0 (инструменты) = 2080 токенов.

Стоимость: (2080 / 1000) * 1.5 ₽ = 3.12 ₽.

Как экономить токены?

Для новой задачи — новый чат. Это самый эффективный способ обнулить «Токены истории» (TH) и не платить за старую переписку.
Будьте точны в запросах. Чем четче и короче ваш запрос, тем меньше токенов вы потратите на TQ.
Выбирайте модель под задачу. Для простых вопросов (как с планетами) используйте базовые, дешевые модели. Для анализа документов, написания кода или сложного креатива — включайте «Профи».
Отключайте инструменты. Используйте веб-поиск и режим мышления только когда это действительно необходимо. Использование инструментов очень сильно увеличивает конечную стоимость генерации.