Секрет производительности Parallax заключается в ключевых оптимизациях серверного уровня: – Непрерывная пакетная обработка: динамически группирует запросы для максимизации использования аппаратных ресурсов и пропускной способности. – Пагинированный KV-Cache: блочная структура предотвращает фрагментацию памяти, обрабатывает тысячи одновременных запросов. – Гетерогенные рабочие процессы: оптимальная производительность на GPU и Mac. Быстро. Надежно. Полностью распределенно.
Gradient
Gradient20 июн. 2025 г.
По сравнению с Petals (обслуживание в стиле BitTorrent), Parallax, работающий на Qwen2.5-72B с 2× RTX 5090, достиг: – 3.1× меньшей задержки от начала до конца, 5.3× более быстрой задержки между токенами – 2.9× более быстрого времени до первого токена, 3.1× более высокой пропускной способности ввода-вывода Результаты были последовательными и показали отличную масштабируемость при различных конфигурациях ввода, и это только начало.
66,34K