Tothemoon — международная криптофинтех-компания, которая уже более 8 лет развивает продукты на стыке финтех и блокчейн-инфраструктуры.
Мы строим экосистему, где технологии работают на грани производительности — от децентрализованных бирж и платёжных решений до вычислительных платформ нового поколения.
Сейчас мы запускаем новый проект — высокопроизводительную ML-инфраструктуру для AI-обучения и GPU-майнинга.
Проект сочетает низкоуровневое GPU-железо, кластер Kubernetes, и AI-таски, которые требуют стабильности, производительности и контроля за ресурсами.
Чтобы всё это работало без перебоев, мы ищем k8s инженера с сильным Linux, который любит железо, знает, как из него выжать максимум, и способен выстроить надёжную инфраструктуру вместе с нашей командой.
Что предстоит делать:
-
90% - эксплуатация и развитие продакшн-инфраструктуры:
-
сопровождение managed k8s(контроль-плейн, нод-пулы, autoscaling, PDB, network policies);
-
поддержка API-и ML-флота
-
настройка мониторинга, алертинга, логирования, backup’ов, DR-сценариев;
-
разбор и устранение инцидентов в т.ч on-call
-
-
10% - R&D и автоматизация текущего сетапа
Наш стек/Ядро проекта:
-
Cloud: (managed Kubernetes, GPU bare metal)
-
Orchestration: Kubernetes (multi-pool, autoscaling, GPU workloads)
-
GPU / ML: H100, NVIDIA stack (CUDA, драйверы, nvidia-device-plugin)
Нам важно:
-
Глубокий опыт с Kubernetes ( > 3 лет):
-
проектирование и эксплуатация продакшн-кластеров (желательно с autoscaling, PDB, network policies);
-
уверенное владение Deployments, StatefulSets, Ingress, RBAC, StorageClass, Helm/Kustomize;
-
опыт интеграции k8s с облачными провайдерами (EKS/GKE/AKS/GCore и др.)
-
-
Сильный Linux:
-
понимание работы ядра, сетевого стека, cgroups, namespaces;
-
диагностика performance-проблем (CPU, память, IO, сеть).
-
-
GPU и high-load ML/LLM - как большой плюс:
-
деплой и эксплуатация приложений на GPU в k8s;
-
базовое понимание CUDA / NVIDIA драйверов / nvidia-device-plugin;
-
опыт с monitoring’ом GPU (utilization, memory, thermals, errors).
-
-
Интеграционный и эксплуатационный опыт:
-
интеграция внешних сервисов в k8s (логирование, мониторинг, security, storage);
-
построение мониторинга/алертинга под SLO/SLA, разбор инцидентов end-to-end;
-
умение писать runbook’и и автоматизировать рутину
-
-
Формат: офис, Алматы/БЦ Кулан
-
Комфортный офис, обеды для сотрудников.
-
Конкурентное вознаграждение в USDT / фиатс оплатой больничных, отпусков
-
Команда уровня senior+, дружелюбная атмосфера и реальный технический вызов.
Ключевые навыки
- Linux
- Kubernetes
- Администрирование серверов Linux
- GRU
- Русский — C2 — В совершенстве