אנבידיה חושפת מאגר פתוח לאימון בינה ומודלים לזיהוי ולתרגום דיבור

מאגר "גרנרי" כולל כמיליון שעות אודיו לזיהוי ולתרגום דיבור ב-25 שפות אירופיות • המודל "קנרי" מציע תמלול ותרגום מדויקים ב-25 שפות ואילו "פרקיט" מותאם לעיבוד מהיר של אודיו בהיקפים גדולים

חברת אנבידיה | צילום: שאטרסטוק

אנבידיה חשפה את Granary – מאגר נתונים פתוח בהיקף של כמיליון שעות אודיו, שנועד לשפר את איכות וזמינות טכנולוגיות זיהוי ותרגום דיבור עבור 25 שפות אירופיות, בהן גם שפות עם משאבי נתונים מוגבלים כמו קרואטית, אסטונית ומלטית. המאגר פותח בשיתוף פעולה עם אוניברסיטת קרנגי מלון וקרן פונטדזיונה ברונו קסלר, במטרה לאפשר למפתחי בינה מלאכותית להתאים מערכות לקהלים מגוונים וליישומי קנה מידה תעשייתי.

כלי תקשורת בסין: שבבי אנבידיה עלולים לאפשר שליטה מרחוק

Granary כולל כ-650 אלף שעות נתוני זיהוי דיבור וכ-350 אלף שעות נתוני תרגום, ומשמש בסיס לאימון מודלים חדשים. Canary-1b-v2 הוא מודל בהיקף מיליארד פרמטרים המיועד לדיוק גבוה במשימות תמלול ותרגום, ו-Parakeet-tdt-0.6b-v3 הוא מודל בהיקף 600 מיליון פרמטרים המותאם לעיבוד מהיר של אודיו בזמן אמת או בכמויות גדולות. שני המודלים מסוגלים להפיק פלט הכולל סימני פיסוק, אותיות גדולות ומידע על תזמון מילים.

ג'נסן הואנג מנכ"ל ונשיא אנבידיה, אילוסטרציה | קרדיט: שאטרסטוק

הנתונים עוצבו באמצעות צינור עיבוד ייעודי שפיתחה אנבידיה בכלי NeMo Speech Data Processor, המאפשר המרה של אודיו גולמי לנתונים מבניים ואיכותיים ללא צורך בתמלול ידני. המערכת כוללת גם את NeMo Curator, שמסנן דוגמאות סינתטיות ומותיר נתונים באיכות גבוהה בלבד.

Granary והמודלים החדשים זמינים כעת להורדה ב-Hugging Face, והצוות יציג את המחקר המלא בכנס Interspeech שיתקיים בהולנד בין 17 ל-21 באוגוסט.

אנבידיה בינה מלאכותית זיהוי דיבור תרגום שפות