إنشاء الصور من النصوص
نموذج ديل DALL·E من OpenAI، عبارة عن إصدار من 12 مليار معلمة من GPT-3 تم تدريبه لإنشاء صور من أوصاف النص، باستخدام مجموعة بيانات من أزواج النص والصورة. لقد وجدنا أن لديها مجموعة متنوعة من القدرات، بما في ذلك إنشاء نسخ مجسمة من الحيوانات والكائنات، والجمع بين المفاهيم غير ذات الصلة بطرق معقولة، ومعالجة النص، وتطبيق التحولات على الصور الحالية.
أظهر نموذج GPT-3 أنه يمكن استخدام اللغة لتوجيه شبكة عصبية كبيرة لأداء مجموعة متنوعة من مهام إنشاء النص. أظهر أنه يمكن أيضًا استخدام نفس النوع من الشبكات العصبية لإنشاء صور بدقة عالية. نوسع هذه النتائج لإظهار أن معالجة المفاهيم المرئية من خلال اللغة أصبح الآن في متناول اليد. حسب ما ورد في التقرير الأولي من شركة أوبن أيه أي.
نظرة عامة
نموذج ديل هو نموذج لغة محول. يستقبل كل من النص والصورة كتيار واحد من البيانات يحتوي على ما يصل إلى 1280 رمزًا، ويتم تدريبه باستخدام أقصى احتمالية لتوليد جميع الرموز، واحدة تلو الأخرى. يسمح هذا الإجراء التدريبي لنموذج ديل ليس فقط بإنشاء صورة من البداية، ولكن أيضًا لتجديد أي منطقة مستطيلة من صورة موجودة تمتد إلى الزاوية السفلية، بطريقة تتوافق مع موجه النص.
نحن ندرك أن العمل الذي يتضمن النماذج التوليدية لديه القدرة على إحداث تأثيرات مجتمعية كبيرة وواسعة. في المستقبل، نخطط لتحليل كيفية ارتباط نماذج مثل نموذج ديل بالقضايا المجتمعية مثل التأثير الاقتصادي على عمليات ومهن عمل معينة، واحتمال التحيز في مخرجات النموذج، والتحديات الأخلاقية طويلة المدى التي تنطوي عليها هذه التكنولوجيا.
قدرات إنشاء الصور
نموذج ديل قادر على إنشاء صور معقولة لمجموعة كبيرة ومتنوعة من الجمل التي تستكشف التركيب التركيبي للغة. نوضح ذلك باستخدام سلسلة من المرئيات التفاعلية في المثال التالي. يتم الحصول على العينات الموضحة لكل تسمية توضيحية في المرئيات بأخذ أعلى 32 من 512 بعد إعادة الترتيب باستخدام CLIP، دون استخدم أي انتقاء يدوي، باستثناء الصور المصغرة والصور المستقلة التي تظهر بالخارج. (اللغة التقابلية – التدريب المسبق على الصورة) CLIP هو شبكة عصبية والتي تتعلم المفاهيم المرئية بكفاءة من الإشراف على اللغة الطبيعية. يمكن تطبيق CLIP على أي معيار تصنيف مرئي من خلال توفير أسماء الفئات المرئية التي سيتم التعرف عليها.
هنا مثال لتحويل النص و إنشاء صورة، مثل “كرسي بذراعين على شكل أفوكادو”، يبدو أن “نموذج ديل” يربط شكل نصف أفوكادو بظهر الكرسي وحفرة الأفوكادو بالوسادة. نجد أن نموذج ديل عرضة للقليل من الأخطاء.
رسم كائنات متعددة
يمثل التحكم في كائنات متعددة وخصائصها وعلاقاتها المكانية في نفس الوقت تحديًا جديدًا. على سبيل المثال، ضع في اعتبارك عبارة “يرتدي القنفذ قبعة حمراء وقفازات صفراء وقميص أزرق وسروال أخضر”. لتفسير هذه الجملة بشكل صحيح، لا يجب على نموذج ديل فقط تكوين كل قطعة ملابس بشكل صحيح مع الحيوان، ولكن أيضًا تكوين الروابط (قبعة، حمراء)، (قفازات، صفراء)، (قميص، أزرق) و (بنطلون، أخضر) دون الخلط بينهما.
بينما يوفر نموذج ديل مستوى معينًا من التحكم في سمات ومواضع عدد صغير من الكائنات. يمكن أن يعتمد معدل النجاح على كيفية صياغة التسمية التوضيحية. مع إدخال المزيد من الكائنات، يميل النموذج إلى الخلط بين الارتباطات بين الكائنات وألوانها، وينخفض معدل النجاح بشكل حاد. كما نلاحظ أن النموذج هش فيما يتعلق بإعادة صياغة التسمية التوضيحية في بعض السيناريوهات. غالبًا ما لا تؤدي التسميات التوضيحية البديلة والمكافئة لغويًا إلى تفسيرات صحيحة.
ملخص النهج والعمل السابق
نموذج ديل هو محول بسيط لوحدة فك التشفير، فقط يستقبل كل من النص والصورة كتيار واحد. وهي تتكون من 1280 رمز – 256 للنص و 1024 للصورة – ونماذج كل منهم بشكل تلقائي. يسمح قناع الانتباه في كل طبقة من طبقات الانتباه الذاتي البالغ عددها 64 لكل رمز مميز للصورة بالحضور إلى جميع الرموز المميزة للنص. يستخدم نموذج ديل القناع السببي القياسي للرموز المميزة للنص. واهتمام ضئيل بالرموز المميزة للصورة مع نمط انتباه صف أو عمود، اعتمادًا على الطبقة. مع ذللك، ستوضح الشركة المزيد من التفاصيل حول إجراءات الهندسة المعمارية والتدريب في ورقة قادمة.
لاحظنا التفاعل الكبير من المجتمع التقني في الحال من لحظة نشر المقال التوضيحي للنموذج. حيت قام العديد من الباحثين و المؤثرين في مجال الذكاء الاصطناعي بالاشادة الى هذا العمل.