Вчера я гулял вокруг своего дома, и тут проходило это мега-событие от nvidia, так что я подумал: "круто, это как режим cuda, но для обычных людей".
Но вскоре появились дженсен и джейдрагон, довольно интересное событие от компании на 5 триллионов долларов, если честно.
Я запутался в части "на 10,000 более эффективен". Это означает, что вы можете обучить модель, подобную stable-diffusion-3, с использованием примерно 20 долларов электричества. Что мешает им создать модель и продемонстрировать её, кроме *проверки заметок* ... Fashion MNIST?
Мне искренне интересно, что мешает им продемонстрировать что-то вроде imagenet-1k,
что должно потребовать менее доллара электричества (если мои расчёты верны) для 200k шагов обучения.
Кто-нибудь знает, как это соотносится с GPU в терминах операций с плавающей запятой на ватт и т.д.? Скажем, я хочу выполнить умножение 4k 4k 4k, сколько ватт это будет потреблять и т.д.?