في خطوة جديدة تقرّب الروبوتات البشرية من التفاعل الإنساني الطبيعي، طوّر باحثون نظاماً متقدماً يتيح مزامنة حركة الشفاه مع الصوت المنطوق بدقة غير مسبوقة، ما يعزز تعابير الوجه والتواصل الآني، ويفتح آفاقاً واسعة أمام استخدام الروبوتات الاجتماعية في التعليم والرعاية والخدمات الإنسانية.
نجح فريق بحثي في تطوير إطار تقني يعتمد على نموذج عكسي مُحسَّن قادر على توليد أوامر حركة الشفاه بسرعة تفوق النماذج السابقة بنحو خمس مرات، ما يسمح باستجابات فورية تحاكي التفاعل البشري المباشر بدقة عالية.
بحسب موقع "إنترستنغ إنجنيرنغ"، جرى اختبار النظام على أكثر من 45 مشاركاً، حيث أظهرت النتائج تفوقه على خمسة مناهج مستخدمة حالياً، محققاً أعلى معدلات التطابق بين حركات فم الروبوت ونماذج مرجعية مثالية.
أبرز ما يميز النظام الجديد قدرته على التعميم اللغوي، إذ أثبت كفاءته في مزامنة الصوت مع حركة الشفاه عبر لغات متعددة، من بينها العربية والفرنسية والصينية، حتى تلك التي لم تكن ضمن بيانات التدريب الأصلية.
يرى الباحثون أن هذه القدرة تفتح المجال أمام استخدامات أوسع في التعليم، وخدمات الدعم الاجتماعي، ورعاية كبار السن، مع تعزيز الشعور بالثقة والتواصل الطبيعي بين الإنسان والروبوت.
لا تزال معظم الروبوتات الحالية تعتمد على تقليد تعابير الإنسان بعد حدوثها، ما يمنح التفاعل طابعاً آلياً مصطنعاً. في المقابل، يمثل الانتقال إلى التعابير الاستباقية القائمة على التنبؤ بردود الفعل العاطفية خطوة محورية نحو تفاعل أكثر واقعية.
تشير الأبحاث إلى أن الابتسامات وتعبيرات الوجه المتزامنة تلعب دوراً أساسياً في تعزيز الروابط الاجتماعية وبناء الثقة، وهو ما يسعى النظام الجديد إلى تحقيقه بدقة زمنية عالية.
ضمن هذا التوجه، كشف الفريق البحثي عن روبوت وجهي متطور يحمل اسم "إيمو"، صُمّم خصيصاً لتعزيز التفاعل الاجتماعي، ويُعد تطويراً للمنصة السابقة "إيفا".
زُوّد "إيمو" بـ26 مشغّلاً تسمح بإنتاج تعابير وجه غير متناظرة، مقارنة بعشرة فقط في الإصدار السابق، إلى جانب نظام مغناطيسي مباشر لتشكيل جلد قابل للاستبدال، وكاميرات RGB عالية الدقة مدمجة في العينين تمنحه إدراكاً بصرياً آنياً.
وطوّر الباحثون نموذجاً تنبؤياً دُرِّب على 970 مقطع فيديو، قادر على استشراف التعابير المستقبلية انطلاقاً من تغيرات وجهية دقيقة.
ويعمل النموذج بسرعة تصل إلى 650 إطاراً في الثانية، بينما ينفّذ النموذج العكسي أوامر المحركات بسرعة 8000 إطار في الثانية، ما يتيح توليد التعابير خلال 0.002 ثانية فقط، مقابل نحو 0.8 ثانية للتعابير البشرية الطبيعية.
ورغم النتائج المشجعة، شدد الباحثون على ضرورة التعامل الحذر مع هذه التقنيات المتقدمة، تفادياً لأي استخدامات غير أخلاقية أو مضللة، خصوصاً في ظل اختلاف أنماط التعبير والتواصل البصري بين الثقافات.
مع ذلك، يرى الفريق أن الانتقال من محاكاة التعابير إلى استباقها يمثل نقلة نوعية في تطور الروبوتات الاجتماعية، ويقربها أكثر من فهم السلوك الإنساني والتفاعل معه بواقعية أكبر.