Platforma Kubernetes / OpenShift dla LLM i workloadów AI
Klient
Klientem była duża firma telekomunikacyjna działająca w silnie regulowanym środowisku. Potrzebowali wewnętrznej platformy AI, która umożliwi uruchamianie i obsługę modeli typu Large Language Model (LLM), przy jednoczesnym spełnieniu rygorystycznych wymagań dotyczących bezpieczeństwa, suwerenności danych oraz procedur operacyjnych.
Ze względu na wrażliwy charakter danych telekomunikacyjnych wszystkie workloady AI musiały działać na odizolowanej, kontrolowanej platformie Kubernetes — bez bezpośredniej łączności z zewnętrznymi systemami. Platforma miała być też na tyle solidna, aby w przyszłości obsłużyć kolejne przypadki użycia AI, nie tylko inferencję LLM.
Wyzwanie
Budowa platformy AI dla środowiska telekomunikacyjnego wiązała się z kilkoma złożonymi wyzwaniami.
Bezpieczeństwo i zgodność
Wszystkie workloady musiały działać w w pełni izolowanym środowisku, z restrykcyjną kontrolą dostępu, audytowalnością operacji oraz gwarancją lokalności danych.Ograniczone doświadczenie zespołów
Zespoły deweloperskie miały ograniczone doświadczenie z OpenShift i platformami AI opartymi o Kubernetes, co zwiększało ryzyko błędnych konfiguracji i spowalniało adopcję.Wymagania wydajnościowe dla workloadów LLM
Modele językowe wymagały akceleracji GPU i szybkiego storage, aby zapewnić akceptowalne czasy ładowania modeli przy starcie aplikacji.Niezawodność
Platforma musiała posiadać solidne mechanizmy monitoringu, backupu i odtwarzania, gotowe do pracy produkcyjnej w środowisku telekomunikacyjnym.
Opis rozwiązania
Zaprojektowaliśmy i wdrożyliśmy bezpieczną, produkcyjną platformę OpenShift zoptymalizowaną pod workloady AI i LLM. Rozwiązanie kładło nacisk na silną izolację, przewidywalną wydajność oraz niezawodność operacyjną, jednocześnie umożliwiając zespołom wdrożenie nowoczesnych workflow GitOps.
Platforma została uruchomiona jako w pełni air-gapped (bez dostępu do Internetu), z kontrolowanym łańcuchem dostarczania oprogramowania oraz wewnętrznymi rejestrami. Zintegrowano workery z GPU oraz wysokowydajną pamięć masową, aby wspierać trenowanie i inferencję modeli. Pipeline’y wdrożeniowe oparte o GitOps ograniczyły ryzyko operacyjne i poprawiły spójność między środowiskami.
Architektura platformy i kluczowe decyzje projektowe
Podjęliśmy kilka istotnych decyzji architektonicznych, aby zapewnić bezpieczeństwo i wydajność workloadów AI.
Wprowadziliśmy workery z GPU do obsługi inferencji LLM i eksperymentów. Lokalny storage NVMe został wykorzystany w celu skrócenia czasu ładowania modeli, natomiast OpenShift Data Foundation (Ceph) zapewnił niezawodną pamięć trwałą dla usług platformowych oraz danych współdzielonych.
GitOps został przyjęty jako główny model wdrażania, z użyciem OpenShift GitOps (Argo CD) oraz GitLab. Dzięki temu wszystkie zmiany były wersjonowane, audytowalne i powtarzalne — co jest kluczowe w środowiskach regulowanych.
Rezultaty i dostarczona wartość
Wynikiem współpracy była bezpieczna, enterprise’owa platforma AI oparta o OpenShift.
- Dostarczyliśmy w pełni air-gapped platformę Kubernetes odpowiednią dla workloadów AI klasy telecom
- Umożliwiliśmy wydajne uruchamianie modeli LLM dzięki GPU NVIDIA i lokalnemu storage NVMe
- Zwiększyliśmy niezawodność i observability platformy dzięki centralnemu monitoringowi
- Zmniejszyliśmy ryzyko wdrożeń dzięki pipeline’om CI/CD opartym o GitOps
- Zwiększyliśmy pewność zespołów i przyspieszyliśmy adopcję OpenShift dla workloadów AI
Platforma stanowi obecnie fundament dla kolejnych inicjatyw AI w organizacji.
Wykorzystane technologie
- Red Hat OpenShift
- Kubernetes
- NVIDIA GPUs
- OpenShift Data Foundation (Ceph)
- Lokalny storage NVMe
- OpenShift GitOps (Argo CD)
- GitLab
- Velero
- Prometheus i Grafana
Koncepcja
Platforma została zaprojektowana w oparciu o kilka kluczowych zasad:
W pełni air-gapped środowisko
Zapewnia zgodność z wymaganiami bezpieczeństwa i suwerenności danych.Akceleracja GPU
GPU NVIDIA umożliwiają wydajne wykonywanie inferencji LLM oraz workloadów AI.Niezawodna pamięć trwała
OpenShift Data Foundation (Ceph) zapewnia trwałe storage dla usług platformowych.Wysokowydajny storage lokalny
NVMe skraca czasy ładowania modeli i poprawia ogólną wydajność.CI/CD oparte o GitOps
OpenShift GitOps, GitLab i Argo CD umożliwiają kontrolowane, powtarzalne wdrożenia.Backup i disaster recovery
Velero wspiera procesy backupu, odtwarzania oraz DR.Monitoring klasy enterprise
Prometheus i Grafana zostały zintegrowane z centralnym monitoringiem firmy.
Najważniejsze wnioski
- OpenShift świetnie sprawdza się jako baza pod bezpieczne, enterprise’owe platformy AI i LLM
- Air-gapped Kubernetes wymaga bardzo dobrego zaplanowania łańcucha dostarczania oprogramowania
- Scheduling GPU oraz wydajność storage są krytyczne dla workloadów LLM
- GitOps znacząco zmniejsza ryzyko operacyjne w środowiskach regulowanych
Umów spotkanie już teraz
Masz dość złożonych środowisk AWS, problemy z Kubernetes blokują rozwój lub potrzebujesz wsparcia we wdrożeniu skalowalnych i bezpiecznych rozwiązań? Umów bezpłatną 1-godzinną konsultację z naszymi ekspertami. Omówimy Twoje wyzwania i wskażemy konkretne możliwości usprawnień.
Skontaktuj się z nami