أعلنت Stability AI يوم الخميس عن Stable Diffusion 3، وهو نموذج تكوين الصور من الجيل التالي ذو الوزن المفتوح. إنه يتبع أسلافه من خلال إنشاء صور مفصلة ومتعددة الكائنات مع تحسين الجودة والدقة في إنشاء النص. إعلان موجز ليس مع العرض العام، ولكن الاستقرار يفتح قائمة الانتظار اليوم لأولئك الذين يريدون المحاولة.
تدعي شركة Stability أن عائلة نماذج Spread 3 المستقرة (التي تأخذ أوصافًا نصية تسمى “المحفزات” وتحولها إلى صور مطابقة) تتراوح في الحجم من 800 مليون إلى 8 مليار معلمة. يسمح نطاق الحجم بتشغيل إصدارات مختلفة من النموذج محليًا على مجموعة متنوعة من الأجهزة، بدءًا من الهواتف الذكية ووصولاً إلى الخوادم. يتوافق حجم المعلمة تقريبًا مع سعة العينة من حيث مقدار التفاصيل التي يمكن إنتاجها. تتطلب مسرعات GPU المزيد من VRAM لتشغيل نماذج أكبر.
بدءًا من عام 2022، سنرى أن Stable AI يبدأ في تطور نماذج توليد الصور: Stable Dispersion 1.4، 1.5، 2.0و 2.1 و XL و XL Turbo والآن 3. على الرغم من أنه لا يخلو من الجدل بسبب استخدامه لبيانات التدريب المحمية بحقوق الطبع والنشر، فقد صنعت Stability اسمًا لنفسها كبديل أكثر انفتاحًا لنماذج الصور المركبة المملوكة مثل OpenAI's DALL-E 3 . واحتمال التحيز وإساءة الاستخدام. (أدى هذا إلى حالات لم يتم حلها.) نماذج الانتشار القياسية مفتوحة المصدر ومتاحة المصدر، مما يعني أنه يمكن تشغيل النماذج محليًا وضبطها لتغيير مخرجاتها.
فيما يتعلق بالتطورات التكنولوجية، الرئيس التنفيذي لشركة Stability Emmett Mostak كتب في X، “يستخدم نوعًا جديدًا من محولات الانتشار (مشابه لـ Sora) جنبًا إلى جنب مع مطابقة التدفق وتحسينات أخرى. إنه يستفيد من تحسينات المحولات وهو غير قابل للتطوير ولكن يمكنه قبول مدخلات متعددة الوسائط.”
كما ذكر موستاك، يستخدم السبريد القياسي 3 عائلات تكوين محول الانتشارإنها طريقة جديدة لإنشاء الصور باستخدام الذكاء الاصطناعي، والتي تحل محل وحدات إنشاء الصور التقليدية (أي بنية يو نت) لنظام يعمل على قطع صغيرة من الصورة. هذا النمط مستوحى من المتحولون، الذين يعتبرون رائعين في التعامل مع الأشكال والمشاهد. لا يؤدي هذا الأسلوب إلى زيادة الكفاءة فحسب، بل ينتج أيضًا صورًا عالية الجودة.
السبريد القياسي 3 استخدامات “مطابقة التدفق“، هي تقنية لبناء نماذج الذكاء الاصطناعي التي يمكنها توليد الصور من خلال تعلم كيفية الانتقال بسلاسة من الضوضاء العشوائية إلى صورة منظمة. وهي تركز على الاتجاه العام أو التدفق، دون الحاجة إلى محاكاة كل خطوة من خطوات العملية. يجب أن يكون إنشاء الصور يتبع.
ليس لدينا إمكانية الوصول إلى Stable Dispersion 3 (SD3)، ولكن من العينات المنشورة على موقع Stability الإلكتروني وحسابات الوسائط الاجتماعية المرتبطة به، يبدو أن Generations حاليًا قابلة للمقارنة مع نماذج تركيب الصور الحديثة الأخرى، بما في ذلك DALL-E 3 المذكورة أعلاه، وAdobe Firefly، بما في ذلك Imagine with Meta AI، وMidjourney، وGoogle Image.
تم اختيار الأمثلة المقدمة من قبل الآخرين حيث يتعامل SD3 مع إنشاء النص بشكل جيد للغاية. كان إنشاء النص نقطة ضعف خاصة في نماذج تكوين الصور السابقة، لذا فإن تحسين هذه القدرة في النموذج الحر يعد أمرًا كبيرًا. كما أن الموثوقية الفورية (مدى دقة اتباع الأوصاف الواردة في التعليمات) تبدو مشابهة لـ DALL-E 3، لكننا لم نختبرها بعد.
على الرغم من أن Stable Spread 3 غير متاح على نطاق واسع، بمجرد اكتمال الاختبار، تقول Stability أن أوزانه ستكون مجانية للتنزيل والتشغيل محليًا. “تعد مرحلة المعاينة هذه، مثل النماذج السابقة، أمرًا بالغ الأهمية في جمع الأفكار لتحسين أدائها وأمانها قبل الإصدار المفتوح،” كما كتب Stability.
لقد تم مؤخرًا تجربة الاتساق مع بنيات مختلفة لمركب الصور. وبصرف النظر عن SDXL وSDXL Turbo، أعلنت الشركة الأسبوع الماضي فقط طبقة ثابتةويستخدم عملية من ثلاث مراحل لتركيب النص إلى الصورة.
يسرد الصورة إمات مستك (الاستدامة، الذكاء الاصطناعي)