أعلنت Stability AI يوم الخميس عن Stable Diffusion 3، وهو نموذج تكوين الصور من الجيل التالي ذو الوزن المفتوح. إنه يتبع أسلافه من خلال إنشاء صور مفصلة ومتعددة الكائنات مع تحسين الجودة والدقة في إنشاء النص. إعلان موجز ليس مع العرض العام، ولكن الاستقرار يفتح قائمة الانتظار اليوم لأولئك الذين يريدون المحاولة.
تدعي شركة Stability أن عائلة نماذج Spread 3 المستقرة (التي تأخذ أوصافًا نصية تسمى “المحفزات” وتحولها إلى صور مطابقة) تتراوح في الحجم من 800 مليون إلى 8 مليار معلمة. يسمح نطاق الحجم بتشغيل إصدارات مختلفة من النموذج محليًا على مجموعة متنوعة من الأجهزة، بدءًا من الهواتف الذكية ووصولاً إلى الخوادم. يتوافق حجم المعلمة تقريبًا مع سعة العينة من حيث مقدار التفاصيل التي يمكن إنتاجها. تتطلب مسرعات GPU المزيد من VRAM لتشغيل نماذج أكبر.
بدءًا من عام 2022، سنرى أن Stable AI يبدأ في تطور نماذج توليد الصور: Stable Dispersion 1.4، 1.5، 2.0و 2.1 و XL و XL Turbo والآن 3. على الرغم من أنه لا يخلو من الجدل بسبب استخدامه لبيانات التدريب المحمية بحقوق الطبع والنشر، فقد صنعت Stability اسمًا لنفسها كبديل أكثر انفتاحًا لنماذج الصور المركبة المملوكة مثل OpenAI's DALL-E 3 . واحتمال التحيز وإساءة الاستخدام. (أدى هذا إلى حالات لم يتم حلها.) نماذج الانتشار القياسية مفتوحة المصدر ومتاحة المصدر، مما يعني أنه يمكن تشغيل النماذج محليًا وضبطها لتغيير مخرجاتها.
-
Steady Diffusion 3 Generation، مع المطالبة: عمل فني ملحمي لساحر على قمة جبل ليلاً، يلقي سحرًا كونيًا في السماء المظلمة، مصنوعًا من الطاقة الملونة.
-
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لباتي “Go Big or Go Home” تم إنشاؤها بواسطة Stable Diffusion 3.
-
موجه الجيل الثالث للانتشار الثابت: ثلاث زجاجات زجاجية شفافة على طاولة خشبية. على اليسار سائل أحمر ورقم 1. في المنتصف سائل أزرق ورقم 2. على اليمين سائل أخضر ورقم 3.
-
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي بواسطة Standard Spread 3.
-
موجه الجيل الثالث للانتشار المستقر: حصان يوازن على كرة ملونة في حقل به عشب أخضر وجبل في الخلفية.
-
الجيل الثالث من الانتشار الثابت مع المطالبة: الحياة الساكنة لمزاج اليقطين المتنوع.
-
موجه الجيل الثالث للانتشار الثابت: رسم لرائد فضاء يرتدي توتو يركب خنزيرًا يحمل مظلة وردية، وبجانب الخنزير يوجد روبن يرتدي قبعة علوية، مع عبارة “انتشار ثابت” في الزاوية. ”
-
Steady Diffusion 3 Generation with Prompt: الاسترخاء على طاولة المطبخ عبارة عن قماش مطرز بعبارة “Good Night” ونمر صغير مطرز. شمعة تحترق بالقرب من القماش. الإضاءة خافتة ومثيرة.
-
موجه الجيل الثالث من Steady Diffusion: صورة لجهاز كمبيوتر مكتبي من التسعينيات على مكتب العمل وشاشة الكمبيوتر تقول “مرحبًا”. على الحائط في الخلفية نرى كتابات جميلة مع النص “SD3” كبير جدًا على الحائط.
فيما يتعلق بالتطورات التكنولوجية، الرئيس التنفيذي لشركة Stability Emmett Mostak كتب في X، “يستخدم نوعًا جديدًا من محولات الانتشار (مشابه لـ Sora) جنبًا إلى جنب مع مطابقة التدفق وتحسينات أخرى. إنه يستفيد من تحسينات المحولات وهو غير قابل للتطوير ولكن يمكنه قبول مدخلات متعددة الوسائط.”
كما ذكر موستاك، يستخدم السبريد القياسي 3 عائلات تكوين محول الانتشارإنها طريقة جديدة لإنشاء الصور باستخدام الذكاء الاصطناعي، والتي تحل محل وحدات إنشاء الصور التقليدية (أي بنية يو نت) لنظام يعمل على قطع صغيرة من الصورة. هذا النمط مستوحى من المتحولون، الذين يعتبرون رائعين في التعامل مع الأشكال والمشاهد. لا يؤدي هذا الأسلوب إلى زيادة الكفاءة فحسب، بل ينتج أيضًا صورًا عالية الجودة.
السبريد القياسي 3 استخدامات “مطابقة التدفق“، هي تقنية لبناء نماذج الذكاء الاصطناعي التي يمكنها توليد الصور من خلال تعلم كيفية الانتقال بسلاسة من الضوضاء العشوائية إلى صورة منظمة. وهي تركز على الاتجاه العام أو التدفق، دون الحاجة إلى محاكاة كل خطوة من خطوات العملية. يجب أن يكون إنشاء الصور يتبع.
ليس لدينا إمكانية الوصول إلى Stable Dispersion 3 (SD3)، ولكن من العينات المنشورة على موقع Stability الإلكتروني وحسابات الوسائط الاجتماعية المرتبطة به، يبدو أن Generations حاليًا قابلة للمقارنة مع نماذج تركيب الصور الحديثة الأخرى، بما في ذلك DALL-E 3 المذكورة أعلاه، وAdobe Firefly، بما في ذلك Imagine with Meta AI، وMidjourney، وGoogle Image.
تم اختيار الأمثلة المقدمة من قبل الآخرين حيث يتعامل SD3 مع إنشاء النص بشكل جيد للغاية. كان إنشاء النص نقطة ضعف خاصة في نماذج تكوين الصور السابقة، لذا فإن تحسين هذه القدرة في النموذج الحر يعد أمرًا كبيرًا. كما أن الموثوقية الفورية (مدى دقة اتباع الأوصاف الواردة في التعليمات) تبدو مشابهة لـ DALL-E 3، لكننا لم نختبرها بعد.
على الرغم من أن Stable Spread 3 غير متاح على نطاق واسع، بمجرد اكتمال الاختبار، تقول Stability أن أوزانه ستكون مجانية للتنزيل والتشغيل محليًا. “تعد مرحلة المعاينة هذه، مثل النماذج السابقة، أمرًا بالغ الأهمية في جمع الأفكار لتحسين أدائها وأمانها قبل الإصدار المفتوح،” كما كتب Stability.
لقد تم مؤخرًا تجربة الاتساق مع بنيات مختلفة لمركب الصور. وبصرف النظر عن SDXL وSDXL Turbo، أعلنت الشركة الأسبوع الماضي فقط طبقة ثابتةويستخدم عملية من ثلاث مراحل لتركيب النص إلى الصورة.
يسرد الصورة إمات مستك (الاستدامة، الذكاء الاصطناعي)
“مفكر غير قابل للشفاء. هواة طعام. عالم كحول ساحر. مدافع عن ثقافة البوب.”
More Stories
Sony Primes “الأقل إثارة” لجهاز PS5 Remaster لحالة اللعب
لقد سددت ديون Klarna البالغة 3000 جنيه إسترليني، لكن الفواتير لا تزال تأتي | مال
الأسطورة في العشرين: لعبة فيديو بريطانية فريدة ذات تراث معقد | ألعاب