التعلم الآليالذكاء الاصطناعيالمساعد الافتراضيشركات صاعدة بالوطن العربيعلم البيانات
أخر الأخبار

المساعد الرقمي، يفهم الأوامر الصوتية للغة الطبيعية و ينفذ المهام.

جعل اللغة العربية اليومية مفهومة للآلات

اقرأ في هذا المقال
  • كيف تقول “يا سيري” بالعربية
  • اللغة العربية لها شكلين
  • يمكن للآلات تعلم اللغات من خلال مقارنة المستندات المتطابقة بلغتين
  • يحتوي الخليج العربي على 200.000 كلمة مشروحة
  • استغرق تعليق 200 ألف كلمة، ثمانية أشهر

كيف تقول “يا سيري” بالعربية؟

يعمل مختبر جامعة نيويورك أبوظبي على اللهجات الخليجية للعثور على الإجابة. مهدت قاعدة بيانات NYUAD للكلمات العربية الطريق للنص التنبئي والتعرف على الكلام وتركيب الكلام في الخليج العربي. المساعد الرقمي، يفهم الأوامر الصوتية للغة الطبيعية و ينفذ المهام. كيف أتحدث إلى جهاز كمبيوتر أو روبوت؟ ما الذي سأقوله بالفعل؟ بأي لهجة؟ كيف سترد عليه؟ “

يقود السيد حبش مختبرًا هدفه بسيطًا: جعل اللغة العربية اليومية مفهومة للآلات. حسب ما نشر في موقع ناشونال[1]

المساعد الرقمي
كيف اتحدث الى الهاتف

مصد الصورة، موقع لنكدان [2]

اللغة العربية لها شكلين ، اللغة الأدبية الرسمية تسمى فصحى ولهجات لا تعد ولا تحصى ، والتي غالبًا ما تكون غير مفهومة بشكل متبادل. اللهجة هي لغة الحياة اليومية ولكن لها مكانة أقل. تعني مكانة الدرجة الثانية هذه أن التكنولوجيا اليومية مثل النص التنبئي والتعرف على الكلام لا تعمل بشكل جيد في اللغة العربية المنطوقة.

يخطط المختبر لتغيير هذا. ستطلق هذا العام برمجيات تنبؤية نصية للعربية الخليجية باستخدام مجموعة من 200 ألف كلمة تم تجميعها العام الماضي. المجموعة تفتح الباب للنص التنبئي والتعرف على الكلام وتركيب الكلام في اللهجة. هذه أخبار جيدة للناطقين بالعربية الذين يريدون أن يبدو صوت أليكسا العربي وكأنه جار بدلاً من أستاذ الأدب او آلة.

لم يرحب الجميع بتطوير اللهجة في الحوسبة.

لا تزال العربية الرسمية متخلفة عن اللغة الإنجليزية ويعتقد الكثيرون أنها يجب أن تكون الأولوية ، وليس اللهجة. قال حبش: “يعتقد الناس أن اللهجات هي لغة عربية سيئة فقط”. “إنها إهانة كبيرة لكل هذه الثقافة الرائعة التي يتم الاحتفال بها والتمتع بها ولكن في نفس الوقت يتم رفض وضعها”.

المساعد الرقمي، يفهم الأوامر الصوتية للغة الطبيعية و ينفذ المهام لكن هناك أيضا حواجز تكنولوجية. يمكن للآلات تعلم اللغات من خلال مقارنة المستندات المتطابقة بلغتين أو نصوص مشابهة بلغات مختلفة حول نفس الموضوع، مثل القصص الإخبارية. لكن القصص الإخبارية والأوراق الحكومية مكتوبة باللغة العربية الرسمية وهناك عدد قليل من النصوص المقارنة باللهجات. تنوع الهجاء في اللهجة هو عقبة أخرى.

ولد الفلسطيني في العراق ونشأ في لبنان وسوريا والاتحاد السوفيتي وتونس. في سن 17 ، انتقل إلى الولايات المتحدة لدراسة اللغويات وهندسة الكمبيوتر كطالب جامعي. البرمجة باللهجة كانت منطقية للسيد حبش لأنها لغة الحياة اليومية. زادت وسائل التواصل الاجتماعي من استخدام اللهجة المكتوبة ، لأنها اللغة المفضلة لإرسال الرسائل النصية.

قال: “وبالطبع ، كما تعلم ، عندما يتعلق الأمر بالأشخاص الذين لا يستطيعون القراءة أو الكتابة ، فإن لديهم لهجة فقط”. “إنه الشكل المهيمن في الفضاء المنطوق ، لذلك علينا أن نتعامل مع كل ما يعنيه ذلك.

المساعد الصوتي، ربوت او هاتف
كيف يمكن التحدث الى سيري بالعربية

مصدر الصورة, موقع ناشونال [1]

لبنات اللغة الموجودة في الروايات الرومانسية

للقيام بذلك ، هناك حاجة إلى اللبنات الأساسية للغة: الكلمات. يجب تسمية كل كلمة يدويًا، أو التعليق عليها، مع واصفات مثل التوتر والجنس. مع مئات الآلاف من الأمثلة ، يمكن للكمبيوتر أن يعلم نفسه اللغة. كلما تم استخدام المزيد من الأمثلة ، كان التنبؤ أفضل. قال حبش: “إن الناس مهتمون جدًا بالخوارزميات عندما يقومون بالذكاء الاصطناعي لكنهم لا يسألون من أين تأتي بيانات الخوارزميات”.
تحتوي اللغة العربية الرسمية على حوالي مليون كلمة مشروحة. اللهجة المصرية، التي يتحدث بها حوالي 98 مليون شخص والمغتربين، لديها 400000 كلمة مشروحة. كيف للمساعد الرقمي، أن يفهم الأوامر الصوتية للغة الطبيعية و ينفذ المهام، انها فعلاً مهمة صعبة.

تحتوي اللغة العربية المشرقية على حوالي 50000 كلمة مشروحة

بينما يحتوي الخليج العربي على 200.000 كلمة مشروحة، وذلك بفضل مشروع NYUAD. لتجميع مجموعته من الكلمات ، كان على مشروع Gumar العثور على نص غير محمي بحقوق الطبع والنشر باللهجة ، والكثير منه. ضرب الباحثون الجائزة الكبرى عندما وجدوا دليلاً يضم 1200 رواية رومانسية كتبها نساء مجهولة. كان هذا النوع شائعًا في عالم التدوين قبل ظهور وسائل التواصل الاجتماعي. يحتوي الدليل العام على أكثر من 100 مليون كلمة بالعربية الخليجية.

لكي يقوم المساعد الرقمي بفهم الأوامر الصوتية للغة الطبيعية و ينفذ المهام. بدأت مهمة التعليق التوضيحي. هذه عملية طويلة باللغة العربية، لأن معظم حروف العلة غير مكتوبة ويقرأ القراء الكلمات حسب السياق. في المتوسط، كلمة واحدة مكتوبة باللغة العربية لها ثلاثة معاني وسبع  امكانيات للنطق و 12 تفسيراً. لكي يخمن الكمبيوتر حروف العلة ونطقها، يجب أن يستمد معنى أولاً من السياق.

استغرق تعليق 200 ألف كلمة ثلاثة لغويات

استغرق تعليق 200 ألف كلمة ثلاثة لغويات مصرية في الإسكندرية، جميعهن من سكان الخليج السابقين، ثمانية أشهر. تم الانتهاء من هذا في أغسطس الماضي. في غضون ذلك ، بدأ باحثو جامعة نيويورك في تدريب أجهزة الكمبيوتر على التمييز والترجمة بين اللهجات.

برنامج مساعد صوتي يعمل باللغة العربية

من الجدير بالذكر انه من خلال البحث عن الموضوع وجدت شركة قامت بتطوير برنامج مساعد صوتي يعمل باللغة العربية اسمه سلمى salma.ai و لكن لم يتسنى لي تجربته. في حال قام احدكم بتجربته او بمعرفة برامج اخرى تأدي نفس الغرض، فبإمكانكم كتابة ذلك في التعليقات مشكورين.

المصدر
موقع ناشونالموقع لينكد ان
اظهر المزيد

م. وائل المدهون

باحث في مجال تكنولوجيا المستقبل و الذكاء الإصطناعي.

مقالات ذات صلة

زر الذهاب إلى الأعلى