אנבידיה חשפה את Granary – מאגר נתונים פתוח בהיקף של כמיליון שעות אודיו, שנועד לשפר את איכות וזמינות טכנולוגיות זיהוי ותרגום דיבור עבור 25 שפות אירופיות, בהן גם שפות עם משאבי נתונים מוגבלים כמו קרואטית, אסטונית ומלטית. המאגר פותח בשיתוף פעולה עם אוניברסיטת קרנגי מלון וקרן פונטדזיונה ברונו קסלר, במטרה לאפשר למפתחי בינה מלאכותית להתאים מערכות לקהלים מגוונים וליישומי קנה מידה תעשייתי.
עוד באותו הנושא
Granary כולל כ-650 אלף שעות נתוני זיהוי דיבור וכ-350 אלף שעות נתוני תרגום, ומשמש בסיס לאימון מודלים חדשים. Canary-1b-v2 הוא מודל בהיקף מיליארד פרמטרים המיועד לדיוק גבוה במשימות תמלול ותרגום, ו-Parakeet-tdt-0.6b-v3 הוא מודל בהיקף 600 מיליון פרמטרים המותאם לעיבוד מהיר של אודיו בזמן אמת או בכמויות גדולות. שני המודלים מסוגלים להפיק פלט הכולל סימני פיסוק, אותיות גדולות ומידע על תזמון מילים.

הנתונים עוצבו באמצעות צינור עיבוד ייעודי שפיתחה אנבידיה בכלי NeMo Speech Data Processor, המאפשר המרה של אודיו גולמי לנתונים מבניים ואיכותיים ללא צורך בתמלול ידני. המערכת כוללת גם את NeMo Curator, שמסנן דוגמאות סינתטיות ומותיר נתונים באיכות גבוהה בלבד.
Granary והמודלים החדשים זמינים כעת להורדה ב-Hugging Face, והצוות יציג את המחקר המלא בכנס Interspeech שיתקיים בהולנד בין 17 ל-21 באוגוסט.




