طور باحثون في شركة مايكروسوفت نموذجًا متقدمًا لـ الذكاء الاصطناعي لديه القدرة على ابتكار بيئات الألعاب ثلاثية الأبعاد.
النموذج، الذي أُطلق عليه اسم "WHAM" أو "Muse"، جاء نتيجة تعاون بين فرق البحث التابعة لشركة التكنولوجيا العملاقة، المعروفة باسم "Tai X"، واستوديو الألعاب "Ninja Theory" التابع لشركة "Xbox Games Studios".
ووفقًا لما أعلنته مايكروسوفت، فإن هذا النموذج اللغوي المتقدم يمكن أن يسهم في تسهيل عملية تطوير الألعاب، حيث يوفر دعمًا لمصممي الألعاب من خلال اقتراح الأفكار، إلى جانب المساعدة في إنشاء العناصر المرئية للحركة داخل اللعبة وتصميم أدوات التحكم التي يستخدمها اللاعبون، مما يمنح المطورين أدوات إضافية لتحسين تجربة اللعب.
وفي منشور عبر إحدى المدونات، أوضحت الشركة التي يقع مقرها في "ريدموند" تفاصيل حول هذا الابتكار الجديد، مشيرةً إلى أن "Muse AI" لا يزال في مرحلة البحث، إلا أنها تتيح للمطورين إمكانية الوصول إلى البيانات النموذجية والأوزان الخاصة به عبر منصة "WHAM Demonstrator"، وهو نموذج أولي يوفر واجهة مرئية للتفاعل مع الذكاء الاصطناعي.
وأصبح بإمكان المطورين اختبار إمكانياته من خلال "Azure AI Foundry"، في حين نُشرت دراسة أكاديمية تشرح التفاصيل التقنية لهذا المشروع في مجلة "Nature".
ونظرًا لتعقيد المجال الذي يغطيه هذا النموذج، فقد اعتمد الباحثون على مجموعة ضخمة من بيانات أسلوب اللعب البشري، تم جمعها من لعبة "Bleeding Edge" التي أطلقتها "Ninja Theory" عام 2020.
وخضع النموذج للتدريب على مليار زوج من الصور المتحركة، وهو ما يعادل بيانات سبع سنوات من التفاعل البشري مع اللعبة.
وأكدت مايكروسوفت أن هذه البيانات جُمعت بطريقة أخلاقية، وتُستخدم فقط للأغراض البحثية.
وأشار الباحثون إلى أن توسيع نطاق تدريب النموذج واجه تحديات كبيرة، حيث بدأ تشغيله في البداية باستخدام وحدات معالجة الرسوميات من طراز "Nvidia V100"، قبل أن يتم توسيع قدراته لاحقًا ليشمل عددًا من وحدات "Nvidia H100"، مما عزز من إمكانياته في التعامل مع البيانات المعقدة وتوليد بيئات الألعاب بكفاءة أعلى.
أما من حيث الأداء، فإن النموذج الجديد قادر على استقبال مدخلات نصية إلى جانب المعلومات المرئية، مما يتيح له إنشاء بيئات ألعاب متكاملة بناءً على الأوامر التي يتلقاها.
وعلاوة على ذلك، يمكن تحسين هذه البيئات وتطويرها بشكل إضافي من خلال إدخال بيانات التحكم الخاصة بالمستخدم، حيث يتفاعل الذكاء الاصطناعي مع حركة اللاعب، ويعمل على تعديل المشاهد الافتراضية لتتماشى مع التوجيهات الأولية، مع الحفاظ على الترابط داخل اللعبة.
ونظرًا لطبيعته الفريدة، لا يمكن إخضاع هذا النموذج لمقاييس المقارنة التقليدية لتقييم قدراته بشكل دقيق.
ولذلك، لجأ الباحثون إلى اختباره داخليًا وفقًا لمعايير تشمل مدى الترابط بين عناصر البيئة التي ينشئها، إلى جانب تنوع السيناريوهات التي يستطيع إنتاجها، ومدى استمرارية التجربة التي يوفرها للمستخدمين.
وبما أن هذا النموذج لا يزال في إطار البحث، فقد تم تحديد دقة الإخراجات التي ينتجها عند مستوى 300 × 180 بكسل فقط، ما يعكس كونه لا يزال في مرحلة التطوير المبكر.