شركة Stability تعلن عن Stable Diffusion 3، الجيل القادم من مولد الصور بالذكاء الاصطناعي

تكبير / موجه الجيل الثالث للانتشار الثابت: صورة مقربة في الاستوديو لحرباء على خلفية سوداء.

أعلنت Stability AI يوم الخميس عن Stable Diffusion 3، وهو نموذج تكوين الصور من الجيل التالي ذو الوزن المفتوح. إنه يتبع أسلافه من خلال إنشاء صور مفصلة ومتعددة الكائنات مع تحسين الجودة والدقة في إنشاء النص. إعلان موجز ليس مع العرض العام، ولكن الاستقرار يفتح قائمة الانتظار اليوم لأولئك الذين يريدون المحاولة.

تدعي شركة Stability أن عائلة نماذج Spread 3 المستقرة (التي تأخذ أوصافًا نصية تسمى “المحفزات” وتحولها إلى صور مطابقة) تتراوح في الحجم من 800 مليون إلى 8 مليار معلمة. يسمح نطاق الحجم بتشغيل إصدارات مختلفة من النموذج محليًا على مجموعة متنوعة من الأجهزة، بدءًا من الهواتف الذكية ووصولاً إلى الخوادم. يتوافق حجم المعلمة تقريبًا مع سعة العينة من حيث مقدار التفاصيل التي يمكن إنتاجها. تتطلب مسرعات GPU المزيد من VRAM لتشغيل نماذج أكبر.

بدءًا من عام 2022، سنرى أن Stable AI يبدأ في تطور نماذج توليد الصور: Stable Dispersion 1.4، 1.5، 2.0و 2.1 و XL و XL Turbo والآن 3. على الرغم من أنه لا يخلو من الجدل بسبب استخدامه لبيانات التدريب المحمية بحقوق الطبع والنشر، فقد صنعت Stability اسمًا لنفسها كبديل أكثر انفتاحًا لنماذج الصور المركبة المملوكة مثل OpenAI's DALL-E 3 . واحتمال التحيز وإساءة الاستخدام. (أدى هذا إلى حالات لم يتم حلها.) نماذج الانتشار القياسية مفتوحة المصدر ومتاحة المصدر، مما يعني أنه يمكن تشغيل النماذج محليًا وضبطها لتغيير مخرجاتها.

Steady Diffusion 3 Generation، مع المطالبة: عمل فني ملحمي لساحر على قمة جبل ليلاً، يلقي سحرًا كونيًا في السماء المظلمة، مصنوعًا من الطاقة الملونة.
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لباتي “Go Big or Go Home” تم إنشاؤها بواسطة Stable Diffusion 3.
موجه الجيل الثالث للانتشار الثابت: ثلاث زجاجات زجاجية شفافة على طاولة خشبية. على اليسار سائل أحمر ورقم 1. في المنتصف سائل أزرق ورقم 2. على اليمين سائل أخضر ورقم 3.
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي بواسطة Standard Spread 3.
موجه الجيل الثالث للانتشار المستقر: حصان يوازن على كرة ملونة في حقل به عشب أخضر وجبل في الخلفية.
الجيل الثالث من الانتشار الثابت مع المطالبة: الحياة الساكنة لمزاج اليقطين المتنوع.
موجه الجيل الثالث للانتشار الثابت: رسم لرائد فضاء يرتدي توتو يركب خنزيرًا يحمل مظلة وردية، وبجانب الخنزير يوجد روبن يرتدي قبعة علوية، مع عبارة “انتشار ثابت” في الزاوية. ”
Steady Diffusion 3 Generation with Prompt: الاسترخاء على طاولة المطبخ عبارة عن قماش مطرز بعبارة “Good Night” ونمر صغير مطرز. شمعة تحترق بالقرب من القماش. الإضاءة خافتة ومثيرة.
موجه الجيل الثالث من Steady Diffusion: صورة لجهاز كمبيوتر مكتبي من التسعينيات على مكتب العمل وشاشة الكمبيوتر تقول “مرحبًا”. على الحائط في الخلفية نرى كتابات جميلة مع النص “SD3” كبير جدًا على الحائط.

فيما يتعلق بالتطورات التكنولوجية، الرئيس التنفيذي لشركة Stability Emmett Mostak كتب في X، “يستخدم نوعًا جديدًا من محولات الانتشار (مشابه لـ Sora) جنبًا إلى جنب مع مطابقة التدفق وتحسينات أخرى. إنه يستفيد من تحسينات المحولات وهو غير قابل للتطوير ولكن يمكنه قبول مدخلات متعددة الوسائط.”

READ يقال إن EA تبحث عن مشتر وتحدثت مع "Disney و Apple و Amazon".

كما ذكر موستاك، يستخدم السبريد القياسي 3 عائلات تكوين محول الانتشارإنها طريقة جديدة لإنشاء الصور باستخدام الذكاء الاصطناعي، والتي تحل محل وحدات إنشاء الصور التقليدية (أي بنية يو نت) لنظام يعمل على قطع صغيرة من الصورة. هذا النمط مستوحى من المتحولون، الذين يعتبرون رائعين في التعامل مع الأشكال والمشاهد. لا يؤدي هذا الأسلوب إلى زيادة الكفاءة فحسب، بل ينتج أيضًا صورًا عالية الجودة.

السبريد القياسي 3 استخدامات “مطابقة التدفق“، هي تقنية لبناء نماذج الذكاء الاصطناعي التي يمكنها توليد الصور من خلال تعلم كيفية الانتقال بسلاسة من الضوضاء العشوائية إلى صورة منظمة. وهي تركز على الاتجاه العام أو التدفق، دون الحاجة إلى محاكاة كل خطوة من خطوات العملية. يجب أن يكون إنشاء الصور يتبع.

مقارنة المخرجات بين DALL-E 3 وStable Diffusion 3 من OpenAI، مع التوجيه السريع، "صورة ليلية لسيارة رياضية مع نص "SD3" على الجانب، السيارة تسير على مضمار سباق بسرعة عالية، لافتة طريق كبيرة مكتوب عليها — تكبير / تُظهر مقارنة المخرجات بين DALL-E 3 من OpenAI وStable Diffusion 3 “صورة ليلية لسيارة رياضية مع النص “SD3″ على الجانب، والسيارة تسير بسرعة عالية على مضمار السباق، ولافتة طريق كبيرة عليها الرمز” أرسل رسالة نصية “سريعة”.”

ليس لدينا إمكانية الوصول إلى Stable Dispersion 3 (SD3)، ولكن من العينات المنشورة على موقع Stability الإلكتروني وحسابات الوسائط الاجتماعية المرتبطة به، يبدو أن Generations حاليًا قابلة للمقارنة مع نماذج تركيب الصور الحديثة الأخرى، بما في ذلك DALL-E 3 المذكورة أعلاه، وAdobe Firefly، بما في ذلك Imagine with Meta AI، وMidjourney، وGoogle Image.

تم اختيار الأمثلة المقدمة من قبل الآخرين حيث يتعامل SD3 مع إنشاء النص بشكل جيد للغاية. كان إنشاء النص نقطة ضعف خاصة في نماذج تكوين الصور السابقة، لذا فإن تحسين هذه القدرة في النموذج الحر يعد أمرًا كبيرًا. كما أن الموثوقية الفورية (مدى دقة اتباع الأوصاف الواردة في التعليمات) تبدو مشابهة لـ DALL-E 3، لكننا لم نختبرها بعد.

READ محاكي النار: مراجعة الفرقة (PS5)

على الرغم من أن Stable Spread 3 غير متاح على نطاق واسع، بمجرد اكتمال الاختبار، تقول Stability أن أوزانه ستكون مجانية للتنزيل والتشغيل محليًا. “تعد مرحلة المعاينة هذه، مثل النماذج السابقة، أمرًا بالغ الأهمية في جمع الأفكار لتحسين أدائها وأمانها قبل الإصدار المفتوح،” كما كتب Stability.

لقد تم مؤخرًا تجربة الاتساق مع بنيات مختلفة لمركب الصور. وبصرف النظر عن SDXL وSDXL Turbo، أعلنت الشركة الأسبوع الماضي فقط طبقة ثابتةويستخدم عملية من ثلاث مراحل لتركيب النص إلى الصورة.

يسرد الصورة إمات مستك (الاستدامة، الذكاء الاصطناعي)

Faisal Al-Rashid

فيصل الراشد كاتب ومحرر في موقع Minufiyah.com، يغطّي مجموعة واسعة من الموضوعات تشمل الأخبار والسياسة والأعمال والتكنولوجيا والرياضة والترفيه وأسلوب الحياة. يحرص على تقديم محتوى واضح ودقيق يساعد القرّاء على فهم المستجدات والقضايا الراهنة بسهولة. يركّز في أعماله على نقل المعلومات المهمة، ومتابعة التطورات الحالية، وتقديم قصص وتقارير ذات صلة باهتمامات الجمهور واحتياجاته اليومية بأسلوب مهني وموثوق.

شركة Stability تعلن عن Stable Diffusion 3، الجيل القادم من مولد الصور بالذكاء الاصطناعي

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

مايكروسوفت كادت تتسبب في إلغاء لعبة جديدة لمخرج The Last of Us وUncharted 4

آيفون 17 برو ماكس فاخر بسعر يتجاوز ربع مليون دولار

طوارئ بيئية في نيويورك قبل نهائي مونديال 2026.. سحابة دخان تثير المخاوف حول مواجهة الأرجنتين وإسبانيا

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

طيران ناس تقترب من تأكيد صفقة جديدة لطائرات A330neo من إيرباص

بنك اليابان يرفع أسعار الفائدة إلى أعلى مستوى منذ 31 عاماً وسط توجه متواصل نحو تطبيع السياسة النقدية

اترك تعليقاً إلغاء الرد

قصص أخرى

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

مايكروسوفت كادت تتسبب في إلغاء لعبة جديدة لمخرج The Last of Us وUncharted 4

آيفون 17 برو ماكس فاخر بسعر يتجاوز ربع مليون دولار

ربما فاتك

طوارئ بيئية في نيويورك قبل نهائي مونديال 2026.. سحابة دخان تثير المخاوف حول مواجهة الأرجنتين وإسبانيا

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

طيران ناس تقترب من تأكيد صفقة جديدة لطائرات A330neo من إيرباص

بنك اليابان يرفع أسعار الفائدة إلى أعلى مستوى منذ 31 عاماً وسط توجه متواصل نحو تطبيع السياسة النقدية