Краткий обзор ChatGPT и его популярности
ChatGPT от OpenAI стал одним из самых узнаваемых и широко используемых продуктов в области искусственного интеллекта. Эта большая языковая модель (Large Language Model, LLM) способна генерировать связный и релевантный текст, отвечать на вопросы, писать код, переводить языки и выполнять множество других задач, связанных с обработкой естественного языка. Его популярность обусловлена высокой эффективностью и доступностью для широкого круга пользователей.
Почему важно оценивать энергопотребление больших языковых моделей?
Разработка и эксплуатация LLM требует колоссальных вычислительных ресурсов. Обучение таких моделей может занимать недели или месяцы, используя тысячи мощных ускорителей (GPU). Inference (получение ответа на запрос) также требует значительных вычислений, хоть и меньше, чем обучение. Учитывая миллиарды запросов, которые обрабатывают сервисы типа ChatGPT ежедневно, суммарное энергопотребление становится значительным фактором. Это влияет не только на операционные расходы провайдеров, но и на экологический след цифровых технологий. Понимание и снижение энергозатрат являются ключевыми задачами для устойчивого развития AI.
Цель статьи: оценить энергозатраты на один запрос в ChatGPT
Точное определение энергопотребления одного запроса к модели уровня ChatGPT является сложной задачей, поскольку зависит от множества переменных и внутренней архитектуры сервиса, которая является коммерческой тайной. Тем не менее, цель данной статьи — проанализировать основные факторы, влияющие на эти энергозатраты, рассмотреть методы их оценки и предоставить примерные цифры и сравнения на основе общедоступной информации и экспертных оценок. Мы также обсудим пути снижения этого потребления.
Факторы, влияющие на энергопотребление ChatGPT
Энергетические затраты на обработку одного запроса к большой языковой модели определяются несколькими ключевыми аспектами.
Аппаратное обеспечение: процессоры (CPU) и графические процессоры (GPU)
Основная вычислительная нагрузка при инференсе LLM ложится на специализированные ускорители, чаще всего графические процессоры (GPU) или тензорные процессоры (TPU). Эти компоненты потребляют значительную часть энергии. Эффективность конкретных моделей GPU (например, Nvidia A100, H100) существенно различается. CPU также участвуют в процессе (например, подготовка данных, координация работы), но их энергопотребление в контексте инференса LLM обычно меньше, чем у ускорителей.
Размер и сложность модели ChatGPT
Более крупные модели с большим количеством параметров (например, GPT-4 по сравнению с GPT-3.5) требуют больше вычислительных ресурсов для обработки каждого токена. Сложность архитектуры модели и используемые методы (например, Mixture of Experts — MoE) также напрямую влияют на объем вычислений и, следовательно, на энергопотребление.
Сложность запроса пользователя
Длина и сложность запроса, а также длина и сложность генерируемого ответа, имеют прямое влияние. Более длинные входные данные требуют обработки большего количества токенов. Более длинные ответы требуют генерации большего количества токенов, что является итеративным и вычислительно затратным процессом. Запросы, требующие более глубокого понимания контекста или выполнения специфических задач (например, генерация кода), могут потреблять больше энергии, чем простые вопросы.
Эффективность алгоритмов и оптимизация кода
Алгоритмы инференса и их реализация на программном уровне играют важную роль. Оптимизации, такие как квантование моделей (снижение точности вычислений, например, с FP16 до INT8), эффективное управление памятью, распараллеливание вычислений и использование специализированных ядер в процессорах, могут значительно снизить вычислительную нагрузку и энергопотребление на один запрос без существенной потери качества ответа.
Методика оценки энергопотребления
Оценить точные энергозатраты на один запрос к промышленной LLM — непростая задача, требующая комплексного подхода.
Теоретические расчеты и моделирование энергозатрат
Теоретическая оценка может основываться на спецификациях используемого оборудования (TDP — Thermal Design Power), количестве выполненных операций (FLOPs) на один запрос и энергоэффективности оборудования (FLOPs/ватт). Зная архитектуру модели и примерное количество операций, необходимых для обработки токена и генерации ответа определенной длины, можно построить модель энергопотребления. Однако такие модели часто упрощены и не учитывают все нюансы реальной нагрузки и инфраструктуры.
Экспериментальные измерения энергопотребления на реальном оборудовании
Более точные данные можно получить путем измерения энергопотребления серверов или кластеров во время обработки запросов. Для этого используются специализированные измерительные приборы на уровне стоек или даже отдельных компонентов. Измерения проводятся в контролируемых условиях, имитируя различную нагрузку и типы запросов. Этот метод позволяет учесть реальную эффективность оборудования и влияние программного стека.
Учет косвенных затрат энергии: охлаждение, инфраструктура
Важно понимать, что прямое энергопотребление вычислительного оборудования — это лишь часть общих затрат. Дата-центры потребляют огромное количество энергии на системы охлаждения, электропитание, освещение и другую инфраструктуру. Коэффициент PUE (Power Usage Effectiveness) показывает отношение общего энергопотребления дата-центра к энергии, потребляемой непосредственно IT-оборудованием. Типичные значения PUE находятся в диапазоне 1.1-1.5. При оценке суммарных затрат на запрос необходимо умножить прямое потребление на PUE дата-центра, чтобы учесть эти косвенные расходы.
Оценка энергозатрат на один запрос в ChatGPT: цифры и сравнения
Предоставить точную цифру энергопотребления на один запрос в ChatGPT крайне сложно из-за отсутствия публичных данных от OpenAI. Однако можно сделать обоснованные оценки.
Оценка среднего энергопотребления на один запрос (в ватт-часах)
На основе исследований энергопотребления LLM при инференсе на современном оборудовании (например, Nvidia A100) и оценок количества операций на токен, эксперты предлагают следующие порядки цифр. Обработка и генерация ответа на типичный запрос может требовать от десятков до сотен миллиардов FLOPs. На оборудовании с энергоэффективностью около 10-20 FLOPs/пикоджоуль (или 10-20 TFLOPs/ватт) прямое энергопотребление может составлять от долей ватт-часа до нескольких ватт-часов на один запрос. Например, оценка может варьироваться от ~0.01 до ~0.1 кВтч (10-100 Втч) для сложного запроса с длинным ответом на мощном оборудовании, без учета PUE. При добавлении PUE (например, 1.2) эта цифра увеличится.
Сравнение с энергопотреблением других интернет-запросов (например, поиск в Google)
По сравнению с традиционным поисковым запросом в Google, который требует гораздо меньше вычислений (в основном, индексация, ранжирование, извлечение информации), запрос к LLM вроде ChatGPT потребляет значительно больше энергии. Оценки энергопотребления одного поискового запроса в Google часто находятся на уровне десятков милливатт-часов (мВт*ч). Таким образом, один запрос к ChatGPT может потреблять в сотни или даже тысячи раз больше энергии, чем стандартный веб-поиск.
Влияние длины и сложности запроса на энергопотребление
Как упоминалось ранее, длина входного запроса и, главное, длина генерируемого ответа являются ключевыми факторами. Каждый сгенерированный токен требует итеративных вычислений. Длинный ответ может увеличить энергопотребление запроса в разы или даже на порядок по сравнению с коротким. Сложные запросы, требующие более глубокой "мыслительной" работы модели, также могут приводить к увеличению потребления.
Пути снижения энергопотребления ChatGPT
Снижение энергопотребления LLM является активной областью исследований и разработок.
Оптимизация алгоритмов и архитектуры модели
Разработка более эффективных архитектур моделей (например, использование Sparse Attention, MoE с более умной маршрутизацией) и оптимизация алгоритмов инференса являются ключевыми направлениями. Методы, такие как квантование (использование более низких битрейтов для весов и активаций), дистилляция (обучение меньшей модели имитировать поведение большой), pruning (удаление менее значимых связей) значительно уменьшают вычислительную сложность и объем данных, требуемых для инференса.
Использование более энергоэффективного оборудования
Переход на новое поколение специализированных AI-ускорителей с более высоким соотношением FLOPs/ватт, а также использование специализированных чипов (ASIC), разработанных именно для инференса LLM, позволяют получить ту же производительность при меньших энергозатратах.
Повышение эффективности дата-центров и систем охлаждения
Улучшение инфраструктуры дата-центров, снижение PUE за счет более эффективных систем охлаждения (например, иммерсионное охлаждение), оптимизация распределения нагрузки и использование возобновляемых источников энергии для питания дата-центров напрямую способствуют снижению общего экологического следа и энергозатрат на один запрос.
Практические советы для пользователей: как формулировать запросы для снижения энергопотребления
Хотя основная ответственность за энергоэффективность лежит на провайдере сервиса, пользователи также могут внести свой вклад: старайтесь формулировать запросы максимально четко и лаконично. Если вы знаете, что вам нужен короткий ответ, прямо укажите это в запросе ("ответь кратко", "перечисли три пункта"). Избегайте избыточных или многословных промптов, если они не несут дополнительного смысла. Чем точнее и короче сформулирован запрос, и чем короче требуемый ответ, тем меньше вычислительных ресурсов (и, следовательно, энергии) потребуется для его обработки и генерации.