Platforma Kubernetes / OpenShift dla LLM i workloadów AIPlatforma Kubernetes / OpenShift dla LLM i workloadów AI

Platforma Kubernetes / OpenShift dla LLM i workloadów AI

Klient

Klientem była duża firma telekomunikacyjna działająca w silnie regulowanym środowisku. Potrzebowali wewnętrznej platformy AI, która umożliwi uruchamianie i obsługę modeli typu Large Language Model (LLM), przy jednoczesnym spełnieniu rygorystycznych wymagań dotyczących bezpieczeństwa, suwerenności danych oraz procedur operacyjnych.

Ze względu na wrażliwy charakter danych telekomunikacyjnych wszystkie workloady AI musiały działać na odizolowanej, kontrolowanej platformie Kubernetes — bez bezpośredniej łączności z zewnętrznymi systemami. Platforma miała być też na tyle solidna, aby w przyszłości obsłużyć kolejne przypadki użycia AI, nie tylko inferencję LLM.

Wyzwanie

Budowa platformy AI dla środowiska telekomunikacyjnego wiązała się z kilkoma złożonymi wyzwaniami.

  1. Bezpieczeństwo i zgodność
    Wszystkie workloady musiały działać w w pełni izolowanym środowisku, z restrykcyjną kontrolą dostępu, audytowalnością operacji oraz gwarancją lokalności danych.

  2. Ograniczone doświadczenie zespołów
    Zespoły deweloperskie miały ograniczone doświadczenie z OpenShift i platformami AI opartymi o Kubernetes, co zwiększało ryzyko błędnych konfiguracji i spowalniało adopcję.

  3. Wymagania wydajnościowe dla workloadów LLM
    Modele językowe wymagały akceleracji GPU i szybkiego storage, aby zapewnić akceptowalne czasy ładowania modeli przy starcie aplikacji.

  4. Niezawodność
    Platforma musiała posiadać solidne mechanizmy monitoringu, backupu i odtwarzania, gotowe do pracy produkcyjnej w środowisku telekomunikacyjnym.

Opis rozwiązania

Zaprojektowaliśmy i wdrożyliśmy bezpieczną, produkcyjną platformę OpenShift zoptymalizowaną pod workloady AI i LLM. Rozwiązanie kładło nacisk na silną izolację, przewidywalną wydajność oraz niezawodność operacyjną, jednocześnie umożliwiając zespołom wdrożenie nowoczesnych workflow GitOps.

Platforma została uruchomiona jako w pełni air-gapped (bez dostępu do Internetu), z kontrolowanym łańcuchem dostarczania oprogramowania oraz wewnętrznymi rejestrami. Zintegrowano workery z GPU oraz wysokowydajną pamięć masową, aby wspierać trenowanie i inferencję modeli. Pipeline’y wdrożeniowe oparte o GitOps ograniczyły ryzyko operacyjne i poprawiły spójność między środowiskami.

Architektura platformy i kluczowe decyzje projektowe

Podjęliśmy kilka istotnych decyzji architektonicznych, aby zapewnić bezpieczeństwo i wydajność workloadów AI.

Wprowadziliśmy workery z GPU do obsługi inferencji LLM i eksperymentów. Lokalny storage NVMe został wykorzystany w celu skrócenia czasu ładowania modeli, natomiast OpenShift Data Foundation (Ceph) zapewnił niezawodną pamięć trwałą dla usług platformowych oraz danych współdzielonych.

GitOps został przyjęty jako główny model wdrażania, z użyciem OpenShift GitOps (Argo CD) oraz GitLab. Dzięki temu wszystkie zmiany były wersjonowane, audytowalne i powtarzalne — co jest kluczowe w środowiskach regulowanych.

Rezultaty i dostarczona wartość

Wynikiem współpracy była bezpieczna, enterprise’owa platforma AI oparta o OpenShift.

  • Dostarczyliśmy w pełni air-gapped platformę Kubernetes odpowiednią dla workloadów AI klasy telecom
  • Umożliwiliśmy wydajne uruchamianie modeli LLM dzięki GPU NVIDIA i lokalnemu storage NVMe
  • Zwiększyliśmy niezawodność i observability platformy dzięki centralnemu monitoringowi
  • Zmniejszyliśmy ryzyko wdrożeń dzięki pipeline’om CI/CD opartym o GitOps
  • Zwiększyliśmy pewność zespołów i przyspieszyliśmy adopcję OpenShift dla workloadów AI

Platforma stanowi obecnie fundament dla kolejnych inicjatyw AI w organizacji.

Wykorzystane technologie
  • Red Hat OpenShift
  • Kubernetes
  • NVIDIA GPUs
  • OpenShift Data Foundation (Ceph)
  • Lokalny storage NVMe
  • OpenShift GitOps (Argo CD)
  • GitLab
  • Velero
  • Prometheus i Grafana
Koncepcja

Platforma została zaprojektowana w oparciu o kilka kluczowych zasad:

  1. W pełni air-gapped środowisko
    Zapewnia zgodność z wymaganiami bezpieczeństwa i suwerenności danych.

  2. Akceleracja GPU
    GPU NVIDIA umożliwiają wydajne wykonywanie inferencji LLM oraz workloadów AI.

  3. Niezawodna pamięć trwała
    OpenShift Data Foundation (Ceph) zapewnia trwałe storage dla usług platformowych.

  4. Wysokowydajny storage lokalny
    NVMe skraca czasy ładowania modeli i poprawia ogólną wydajność.

  5. CI/CD oparte o GitOps
    OpenShift GitOps, GitLab i Argo CD umożliwiają kontrolowane, powtarzalne wdrożenia.

  6. Backup i disaster recovery
    Velero wspiera procesy backupu, odtwarzania oraz DR.

  7. Monitoring klasy enterprise
    Prometheus i Grafana zostały zintegrowane z centralnym monitoringiem firmy.

Najważniejsze wnioski
  • OpenShift świetnie sprawdza się jako baza pod bezpieczne, enterprise’owe platformy AI i LLM
  • Air-gapped Kubernetes wymaga bardzo dobrego zaplanowania łańcucha dostarczania oprogramowania
  • Scheduling GPU oraz wydajność storage są krytyczne dla workloadów LLM
  • GitOps znacząco zmniejsza ryzyko operacyjne w środowiskach regulowanych

call to action image

Umów spotkanie już teraz

Masz dość złożonych środowisk AWS, problemy z Kubernetes blokują rozwój lub potrzebujesz wsparcia we wdrożeniu skalowalnych i bezpiecznych rozwiązań? Umów bezpłatną 1-godzinną konsultację z naszymi ekspertami. Omówimy Twoje wyzwania i wskażemy konkretne możliwości usprawnień.

Skontaktuj się z nami