מערכת בינה מלאכותית השיגה תוצאה של 93.4% דיוק ב"קריאת שפתיים" לעומת בני אדם שהצליחו בזיהוי ב-52.3% מהמקרים בלבד
עוד שיא ביכולות של הבינה המלאכותית לגבור על בני האדם, והפעם ב"קריאת שפתיים".
קריאת שפתיים היא יכולת קשה במיוחד, היא תלויה ביכולת להבין הקשרים (context) וידע על השפה בנוסף כמובן
ליכולת לקבל רמזים חזותיים – ויזואליים.
ועכשיו חוקרים הראו שבאמצעות לימוד מכונה, ניתן להגיע ליכולת קריאת שפתיים עבור סירטונים ללא קול באופן יעיל הרבה יותר מאנשי מקצוע מומחים ב"קריאת שפתיים"
באחד מהפרויקטים, צוות מדענים מהמחלקה למדעי המחשב באוניברסיטת אוקספורד, פיתח מערכת בינה מלאכותית חדשה מסוג רשת נוירונים בשם LipNet (רשת שפתיים).
המערכת נבנתה על מערך נתונים(data set) של סירטונים המכילים בני אדם בתאורה טובה שאומרים משפטים באורך של 3 שניות בכל פעם.

הצוות אימן את רשת הנוירונים בעזרת הסירטונים הללו באופן דומה שזה שמאמנים רשתות בינה מלאכותית לזיהוי דיבור, אלה שהפעם המערכת זיהתה שינויים שונים בצורה של הפה לאורך הזמן, לומדת לקשר בין השינויים הללו בצורת הפה לבין מה שנאמר.
המערכת לא למדה מקטעים מהמשפט אלה למדה את כל המשפט בפעם אחת, וכך התאפשר לה ללמוד מההקשר של כל המשפט ולהצליח יותר טוב בזיהוי.
זה מאוד משמעותי מכיוון שיש פחות תנועות פה לעומת צלילים שאדם יכול להפיק ולכן חשוב ביותר ההקשר.
כאשר בחנו את המערכת, הצליחו להשיג זיהוי של 93.4% מהמילים, וזאת לעומת בני אדם קוראי שפתיים שהתנדבו לאותה המשימה והצליחו לזהות רק 52.3% מהמילים במדוייק.
ניתן לצפות כאן בסירטון הדגמה של אוניברסיטת אוקספורד על יכולות המערכת:
אבל צוות אחר גם כן מאוניברסיטת אוקספורד, הפעם מהמחלקה להנדסה, שעובד ביחד עם חברת DeepMind של גוגל, הצליח להביס בני אדם אפילו במשימה קשה יותר.
במקום להשתמש במידע "נקי" – מואר, עיקבי וברור, הם השתמשו ב- 100,000 סירטוני וידאו מערוץ BCC.
בסירטונים הללו יש מגוון הרבה יותר רחב של שימוש בשפה, ועם הרבה יותר גוונים של תאורה וזוויות של הפנים.
גם כאן השתמשו בגישה דומה, והצליחו להביא את המכונה לזיהוי של 46.8% דיוק שזה בהחלט הרבה יותר טוב מבני אדם שהצליחו כאן רק עם 12.4% זיהוי.
בניסוי האחרון יש עוד הרבה לאן להשתפר מבחינת לימוד המכונה, אבל בהחלט ניתן לראות את פריצת הדרך בשני הניסויים ואת היכולת ללמד מכונה באופן יעיל ביותר לדעת לקרוא שפתיים טוב בהבה מבני אדם המומחים בכך.
לטכנולוגיה הזו ישומים רבים, החל מהיכולת להשלים מילים שלא הועבר אליהן השמע באופן ברור כדוגמת שיחת וידיאו באיכות נמוכה, שיפור תקשורת אדם מכונה ושיפור יכולות מעקב של גורמי ביטחון.
לעידכונים עשו לייק לעמוד פייסבוק שלנו והירשמו לערוץ היוטיוב
מדהים מה קורה בשנים האחרונות עם הבינה המלאכותית