הכלי שמנהל את העומסים של מעבדי אנבידיה יוצא בקוד פתוח

NVIDIA פתחה לציבור את KAI Scheduler, כלי לניהול עומסי עבודה של שבבים גרפיים לבינה מלאכותית • הכלי נועד לייעל שימוש במעבדים תוך חיסכון בזמן ובהתערבות ידנית

NVIDIA, אילוסטרציה | קרדיט: tadamichi, Poetra.RH, שאטרסטוק

NVIDIA הודיעה על השקת KAI Scheduler כפרויקט קוד פתוח, כלי לניהול עומסי עבודה בתחום הבינה המלאכותית שפותח על ידי חברת Run:ai שנרכשה בשנת 2023. הכלי זמין מעתה לשימוש חופשי תחת רישיון Apache 2.0 וניתן להורדה מ-GitHub. מטרתו של KAI Scheduler היא לאפשר שימוש יעיל במשאבי מחשוב מתקדמים, בעיקר במערכות שבהן פועלות במקביל משימות בינה מלאכותית שונות, תוך חלוקה מדויקת של משאבים כמו מעבדים גרפיים (GPU) בסביבת Kubernetes.

הכלי מתאים למגוון שימושים: החל מהרצת מודלים אינטראקטיביים הדורשים GPU אחד בלבד, ועד לאימון מבוזר של מערכות מורכבות שדורשות גישה בו-זמנית למספר יחידות עיבוד. הוא מזהה את צרכי העומס המשתנים של המערכת ומעדכן את ההקצאות בהתאם, ללא צורך בהתערבות ידנית מצד מנהלים טכניים. היכולת לבצע תזמון גמיש, להפחית זמני המתנה ולהבטיח ניצול מלא של המשאבים מקנה ל-KAI Scheduler ערך עבור צוותים טכנולוגיים, חוקרים וארגונים הפועלים בתחום הבינה המלאכותית.

ברמה הטכנית, הכלי פועל באמצעות מחזור תזמון שמתחיל ביצירת תמונת מצב של כל האשכול, ממשיך בחישוב חלוקת משאבים הוגנת, ומבצע פעולות כמו הקצאה, מיזוג משאבים, שחרור והעדפה לפי עדיפויות. הוא מבוסס על יחידות בשם podgroups, קבוצות משימות שתלויות זו בזו ומחייבות הרצה משותפת, ותורים (queues) המגדירים מכסות, משקל עודף ועדיפות לביצוע. שילוב זה מאפשר תזמון חכם שמבוסס גם על צרכים טכניים וגם על סדרי עדיפויות של הארגון.

בין היכולות שהכלי מספק ניתן למנות מנגנוני תזמון כמו gang scheduling, מניעת ריבוי תורים לא אפקטיביים, שמירה על הקצאת משאבים קבועה והפניה אוטומטית של משאבים לא מנוצלים לתהליכים אחרים. דוגמה אחת מהבלוג הטכני של החברה מציגה תרחיש שבו משימה זקוקה לארבעה GPU רצופים, אך באף מחשב באשכול לא קיימת זמינות כזו. הכלי מזהה שניתן לפנות מקום על ידי העברת משימה קיימת למחשב אחר, מבצע את ההעברה, ומשלים את ההקצאה למשימה החדשה – כל זה מבלי לעצור תהליכים קיימים.

NVIDIA הדגישה כי KAI Scheduler יישאר חלק בלתי נפרד מהפלטפורמה המסחרית שלה, אך בגרסתו בקוד פתוח הוא נועד לשימוש גמיש על ידי קהילת המפתחים, סטארט-אפים, מעבדות מחקר וארגונים. החברה מזמינה את הקהל הרחב להתנסות בכלי, לשתף תובנות ולתרום לפיתוחו. הכלי יוצג בכנס KubeCon הקרוב שייערך בלונדון בתאריכים 1–4 באפריל 2025, שם צפויות הדגמות חיות ומפגשים עם צוותי הפיתוח של NVIDIA.

GPU nvidia בינה מלאכותית קוד פתוח