إذا كنت ترغب في توسيع نطاق نموذج لغة كبير (LLM) إلى بضعة آلاف من المستخدمين، فقد تعتقد أن وحدة معالجة الرسومات (GPU) الخاصة بالمؤسسات تعتبر مطلبًا صعبًا. ومع ذلك، على الأقل وفقًا لـ Backprop، فأنت تحتاج حقًا إلى بطاقة رسوميات عمرها أربع سنوات.
حديثاً موضعأظهرت شركة بدء التشغيل السحابية لوحدة معالجة الرسوميات الإستونية كيف يمكن لبطاقة Nvidia RTX 3090 التي ظهرت لأول مرة في أواخر عام 2020 أن تخدم شهادة LLM متواضعة مثل Llama 3.1 8B مع قبول 100 طلب متزامن في FP16.
يجادل Backprop بأن جهاز 3090 واحد يمكنه بالفعل دعم آلاف المستخدمين النهائيين لأن جزءًا صغيرًا فقط من المستخدمين قد يقدمون طلبات في أي وقت. قامت الشركة الناشئة بتأجير موارد GPU على مدار السنوات الثلاث الماضية وانتقلت مؤخرًا إلى عرض سحابي للخدمة الذاتية.
على الرغم من أن تشغيل السحابة باستخدام الأجهزة الاستهلاكية قد يبدو خيارًا غريبًا، إلا أن Backprop نادرًا ما يكون كذلك. شركة Hetzner الألمانية للبنية التحتية كخدمة موجودة منذ فترة طويلة سيتم توفيرها خوادم معدنية مبنية على عائلة معالجات Ryzen من AMD.
باعتبارها وحدة معالجة رسومات، فإن بطاقة RTX 3090 ليست بطاقة سيئة لتشغيل برامج LLM. من حيث الأداء، فهو يحتوي على 142 تيرافلوب من أداء FP16 الكثيف ويوفر 936 جيجابايت/ثانية من عرض النطاق الترددي للذاكرة، والذي يلعب الأخير دورًا رئيسيًا في تحديد الأداء في أعباء عمل الاستدلال في LLM.
قال كريستو أوجازار، المؤسس المشارك لشركة Backprop: “إن بطاقات 3090 هي حقًا بطاقات فعالة للغاية. إذا كنت ترغب في الحصول على مركز بيانات يعادل 3090 من حيث تيرافلوب من الطاقة، فسيتعين عليك الحصول على شيء أكثر تكلفة بكثير”. يسجل.
سعة الذاكرة هي المكان الذي تكون فيه البطاقة أقل من بطاقات محطات العمل والمؤسسات الأكثر تميزًا من جيل Ampere. مع ذاكرة GDDR6x بسعة 24 جيجابايت، لن تتمكن من تشغيل نماذج مثل Lama 3 70B أو Mistral Large بدقة تصل إلى 4 أو 8 بت.
لذا، ليس من المستغرب أن تختار Backprop نموذجًا أصغر مثل Llama 3.1 8B، لأنه يتناسب جيدًا مع ذاكرة البطاقة ويترك مساحة كبيرة لذاكرة التخزين المؤقت ذات القيمة الرئيسية.
تم اختباره مع المشاهير إطار عمل vLLMيتم استخدامه على نطاق واسع لخدمة LLMs على نطاق وحدات معالجة الرسومات أو العقد المتعددة. ولكن قبل أن تشعر بالحماس الشديد، فإن هذه النتائج لا تخلو من بعض التحذيرات.
مع وجود 100 مستخدم متزامن، تنخفض الإنتاجية لكل مستخدم إلى 12.88 رمزًا مميزًا في الثانية. المصدر: Backprop – اضغط للتكبير
وجدت Backprop أنه في اختبار قياسي يحاكي 100 مستخدم متزامن، يمكن لنموذج البطاقة إصدار كل مستخدم بمعدل 12.88 رمزًا مميزًا في الثانية. وفي حين أن ذلك أسرع من سرعة القراءة للشخص العادي، والتي تبلغ عادةً حوالي خمس كلمات في الثانية، إلا أنها ليست سريعة تمامًا. لا يزال هذا أعلى من 10 رموز في الثانية التي تعتبر عمومًا الحد الأدنى المقبول لمعدل الإنشاء لروبوتات وخدمات الذكاء الاصطناعي.
ومن الجدير بالذكر أيضًا أن اختبار Backprop تم باستخدام تعليمات قصيرة نسبيًا وأقصى إنتاج يبلغ 100 رمز مميز فقط. وهذا يعني أن هذه النتائج تُظهر الأداء الذي تتوقعه من برنامج الدردشة الآلي لخدمة العملاء أكثر من مجرد تطبيق قصير.
ومع ذلك، في مزيد من الاختبارات --use_long_context
تم تعيين العلامة في مجموعة معايير vLLM true
ووجد Ojasaar أن المشغلات التي تتراوح من 200 إلى 300 رمز لا يزال بإمكانها تحقيق معدلات توليد مقبولة تبلغ حوالي 11 رمزًا لكل 3090 ثانية عند تقديم 50 طلبًا متزامنًا.
ومن الجدير بالذكر أيضًا أنه تم قياس هذه الإحصائيات أثناء تشغيل Llama 3.1-8B في FP16. يؤدي تشفير النموذج على أنه ثمانية أو أربعة بتات إلى مضاعفة أو أربعة أضعاف أداء هذه النماذج نظريًا، مما يسمح للبطاقة بخدمة عدد أكبر من الطلبات المتزامنة أو خدمة نفس العدد بمعدل توليد أعلى. ولكن، كما ناقشنا في دليل القياس الأخير، فإن تقليص النماذج إلى دقة أقل يمكن أن يأتي على حساب الدقة، وهو ما قد يكون مقبولاً أو غير مقبول لتطبيق معين.
إذا كان هناك أي شيء، فإن اختبار Backprop يوضح أهمية تحليل الأداء والكمية المناسبة من عبء العمل لمهمة معينة.
“أعتقد أن أفضل ما يفعله تسويق السحابات الكبيرة هو القول إذا كنت تريد التوسع، فأنت بحاجة إلى بعض العروض المُدارة … أو إذا كنت تريد خدمة عدد قليل من المستخدمين، فأنت بحاجة إلى الاستثمار في هذه التكنولوجيا تحديدًا، ولكن تدمير هذا يظهر أن هذا هو وقال اوجازار “هذا غير صحيح”.
أخبرنا Ojasaar أن Backprop بصدد نشر بطاقات A100 PCIe المزودة بـ 40 جيجابايت HBM2e للمستخدمين الذين يحتاجون إلى التوسع في النماذج الأكبر أو الأداء الأعلى أو أحجام الحجم.
إن توفر وحدة معالجة الرسومات متعددة المثيلات لتحويل المسرع إلى نرد متعدد مع كونها بطاقة قديمة يمنح المتحمسين والمصلحين الفرصة لخفض التكاليف بشكل أكبر.
إذا كنت مهتمًا بكيفية أداء بطاقة الألعاب القديمة الخاصة بك في اختبار مماثل، فيمكنك التحقق من معيار vLLM الخاص بـ Backprop هنا. ®