الذكاء الاصطناعي الرعاية الصحية رؤية حاسوبية

نجح العلماء في تطوير ذكاءً اصطناعيًا يقرأ الشفاه من لقطات الفيديو

د. هبة 5 أغسطس، 2021آخر تحديث: 5 أغسطس، 2021

48 دقيقة واحدة

تشير التقديرات إلى أن 466 مليون شخص في العالم يعانون من ضعف السمع، أو حوالي 5٪ من سكان العالم. بحلول عام 2050، قد يرتفع العدد إلى أكثر من 900 مليون. سعياً وراء نظام أكثر فاعلية، نجح العلماء في تطوير ذكاءً اصطناعيًا يقرأ الشفاه من لقطات الفيديو.

إن خوارزميات الذكاء الاصطناعي والتعلم الآلي القادرة على قراءة الشفاه من مقاطع الفيديو ليست شيئًا بعيدًا عن المألوف في الحقيقة. في عام 2016، قام باحثون من جوجل وجامعة أكسفورد بتفصيل نظام يمكنه وضع تعليقات توضيحية على لقطات الفيديو بدقة 46.8٪. مما جعله متفوقًا في الأداء على قارئ شفاه محترف بنسبة 12.4٪. ولكن حتى أحدث الأنظمة تكافح للتغلب على الغموض في حركات الشفاه، مما يمنع أدائها من تجاوز أداء التعرف على الكلام المستند إلى الصوت.

سعياً وراء نظام أكثر فاعلية، ابتكر باحثون في علي بابا ومعهد ستيفنز للتكنولوجيا طريقة أطلق عليها اسم Lip by Speech (LIBS) أو شفة عن طريق الكلام . والتي تستخدم ميزات مستخرجة من أدوات التعرف على الكلام لتكون بمثابة أدلة تكميلية. يقول الباحثون إنه يقدم دقة رائدة في الصناعة على معيارين، ويتفوق على خط الأساس بهامش 7.66٪ و 2.75٪ في معدل خطأ الحرف.

يمكن أن تساعد LIBS والحلول الأخرى المشابهة أولئك الذين يعانون من ضعف السمع على متابعة مقاطع الفيديو التي تفتقر إلى الترجمة.

lip reading يقرأ الشفاه — ذكاءً اصطناعيًا يقرأ الشفاه

طريقة العمل

يقوم LIBS بتقطير المعلومات الصوتية المفيدة من مقاطع الفيديو الخاصة بالسماعات البشرية على مستويات متعددة. بما في ذلك مستوى التسلسل ومستوى السياق ومستوى الإطار. ثم يقوم بمحاذاة هذه البيانات مع بيانات الفيديو من خلال تحديد المراسلات بينهما.(نظرًا لاختلاف معدلات أخذ العينات والفراغات التي تظهر أحيانًا في البداية أو النهاية ، فإن التسلسل المرئي والصوتي له أطوال غير متسقة). ويستفيد من تقنية التصفية لتحسين الميزات المقطرة.

تعتمد مكونات كل من أداة التعرف على الكلام وقارئ الشفاه في LIBS على بنية تسلسل إلى تسلسل قائمة على الانتباه. وهي طريقة للترجمة الآلية التي تعين إدخال تسلسل (أي صوت أو فيديو) إلى إخراج بعلامة و قيمة الاهتمام.

الوسوم