Platforma Kubernetes / OpenShift dla LLM i workloadów AI

Klient

Klientem była duża firma telekomunikacyjna działająca w silnie regulowanym środowisku. Potrzebowali wewnętrznej platformy AI, która umożliwi uruchamianie i obsługę modeli typu Large Language Model (LLM), przy jednoczesnym spełnieniu rygorystycznych wymagań dotyczących bezpieczeństwa, suwerenności danych oraz procedur operacyjnych.

Ze względu na wrażliwy charakter danych telekomunikacyjnych wszystkie workloady AI musiały działać na odizolowanej, kontrolowanej platformie Kubernetes — bez bezpośredniej łączności z zewnętrznymi systemami. Platforma miała być też na tyle solidna, aby w przyszłości obsłużyć kolejne przypadki użycia AI, nie tylko inferencję LLM.

Wyzwanie

Budowa platformy AI dla środowiska telekomunikacyjnego wiązała się z kilkoma złożonymi wyzwaniami.

Bezpieczeństwo i zgodność
Wszystkie workloady musiały działać w w pełni izolowanym środowisku, z restrykcyjną kontrolą dostępu, audytowalnością operacji oraz gwarancją lokalności danych.
Ograniczone doświadczenie zespołów
Zespoły deweloperskie miały ograniczone doświadczenie z OpenShift i platformami AI opartymi o Kubernetes, co zwiększało ryzyko błędnych konfiguracji i spowalniało adopcję.
Wymagania wydajnościowe dla workloadów LLM
Modele językowe wymagały akceleracji GPU i szybkiego storage, aby zapewnić akceptowalne czasy ładowania modeli przy starcie aplikacji.
Niezawodność
Platforma musiała posiadać solidne mechanizmy monitoringu, backupu i odtwarzania, gotowe do pracy produkcyjnej w środowisku telekomunikacyjnym.

Opis rozwiązania

Zaprojektowaliśmy i wdrożyliśmy bezpieczną, produkcyjną platformę OpenShift zoptymalizowaną pod workloady AI i LLM. Rozwiązanie kładło nacisk na silną izolację, przewidywalną wydajność oraz niezawodność operacyjną, jednocześnie umożliwiając zespołom wdrożenie nowoczesnych workflow GitOps.

Platforma została uruchomiona jako w pełni air-gapped (bez dostępu do Internetu), z kontrolowanym łańcuchem dostarczania oprogramowania oraz wewnętrznymi rejestrami. Zintegrowano workery z GPU oraz wysokowydajną pamięć masową, aby wspierać trenowanie i inferencję modeli. Pipeline’y wdrożeniowe oparte o GitOps ograniczyły ryzyko operacyjne i poprawiły spójność między środowiskami.

Architektura platformy i kluczowe decyzje projektowe

Podjęliśmy kilka istotnych decyzji architektonicznych, aby zapewnić bezpieczeństwo i wydajność workloadów AI.

Wprowadziliśmy workery z GPU do obsługi inferencji LLM i eksperymentów. Lokalny storage NVMe został wykorzystany w celu skrócenia czasu ładowania modeli, natomiast OpenShift Data Foundation (Ceph) zapewnił niezawodną pamięć trwałą dla usług platformowych oraz danych współdzielonych.

GitOps został przyjęty jako główny model wdrażania, z użyciem OpenShift GitOps (Argo CD) oraz GitLab. Dzięki temu wszystkie zmiany były wersjonowane, audytowalne i powtarzalne — co jest kluczowe w środowiskach regulowanych.

Rezultaty i dostarczona wartość

Wynikiem współpracy była bezpieczna, enterprise’owa platforma AI oparta o OpenShift.

Dostarczyliśmy w pełni air-gapped platformę Kubernetes odpowiednią dla workloadów AI klasy telecom
Umożliwiliśmy wydajne uruchamianie modeli LLM dzięki GPU NVIDIA i lokalnemu storage NVMe
Zwiększyliśmy niezawodność i observability platformy dzięki centralnemu monitoringowi
Zmniejszyliśmy ryzyko wdrożeń dzięki pipeline’om CI/CD opartym o GitOps
Zwiększyliśmy pewność zespołów i przyspieszyliśmy adopcję OpenShift dla workloadów AI

Platforma stanowi obecnie fundament dla kolejnych inicjatyw AI w organizacji.

Wykorzystane technologie

Red Hat OpenShift
Kubernetes
NVIDIA GPUs
OpenShift Data Foundation (Ceph)
Lokalny storage NVMe
OpenShift GitOps (Argo CD)
GitLab
Velero
Prometheus i Grafana

Koncepcja

Platforma została zaprojektowana w oparciu o kilka kluczowych zasad:

W pełni air-gapped środowisko
Zapewnia zgodność z wymaganiami bezpieczeństwa i suwerenności danych.
Akceleracja GPU
GPU NVIDIA umożliwiają wydajne wykonywanie inferencji LLM oraz workloadów AI.
Niezawodna pamięć trwała
OpenShift Data Foundation (Ceph) zapewnia trwałe storage dla usług platformowych.
Wysokowydajny storage lokalny
NVMe skraca czasy ładowania modeli i poprawia ogólną wydajność.
CI/CD oparte o GitOps
OpenShift GitOps, GitLab i Argo CD umożliwiają kontrolowane, powtarzalne wdrożenia.
Backup i disaster recovery
Velero wspiera procesy backupu, odtwarzania oraz DR.
Monitoring klasy enterprise
Prometheus i Grafana zostały zintegrowane z centralnym monitoringiem firmy.

Najważniejsze wnioski

OpenShift świetnie sprawdza się jako baza pod bezpieczne, enterprise’owe platformy AI i LLM
Air-gapped Kubernetes wymaga bardzo dobrego zaplanowania łańcucha dostarczania oprogramowania
Scheduling GPU oraz wydajność storage są krytyczne dla workloadów LLM
GitOps znacząco zmniejsza ryzyko operacyjne w środowiskach regulowanych

Next Case

Wdrożenie OpenShift on-premises | Air-gapped konfiguracja Kubernetes

Umów spotkanie już teraz

Masz dość złożonych środowisk AWS, problemy z Kubernetes blokują rozwój lub potrzebujesz wsparcia we wdrożeniu skalowalnych i bezpiecznych rozwiązań? Umów bezpłatną 1-godzinną konsultację z naszymi ekspertami. Omówimy Twoje wyzwania i wskażemy konkretne możliwości usprawnień.

Skontaktuj się z nami