يمكن للذكاء الاصطناعي الآن إنشاء موسيقى بجودة الأقراص المضغوطة من النص، وهو يتحسن

ما عليك سوى كتابة “موسيقى المقدمة الدرامية” وتخيل سماع سيمفونية صاخبة أو كتابة “خطوات مخيفة” والحصول على مؤثرات صوتية عالية الجودة. هذا هو الوعد بنموذج ذكاء اصطناعي صوتي مستقر لتحويل النص إلى صوت أعلن يوم الاربعاء من خلال الذكاء الاصطناعي المتسق الذي يمكنه تجميع الموسيقى أو الأصوات من الأوصاف المكتوبة. وقبل مرور وقت طويل، قد تشكل تكنولوجيا مماثلة تحديًا للموسيقيين في وظائفهم.

Stability AI هي الشركة التي رعت تطوير نموذج التشتت الثابت الذي تم إصداره في أغسطس 2022. امتثالأطلق مختبر الذكاء الاصطناعي مولد الموسيقى انتشار الرقص في سبتمبر.

تتطلع الآن Stability وHarmonoy إلى الدخول في إنتاج صوتي تجاري يعتمد على الذكاء الاصطناعي باستخدام StableAudio. النظر اليها نماذج الإنتاجيبدو وكأنه تحسن كبير في جودة الصوت من مولدات الصوت AI السابقة التي رأيناها.

في صفحتها الترويجية، تقدم Stability أمثلة على نموذج الذكاء الاصطناعي أثناء العمل مع مشغلات مثل “موسيقى مقطورة ملحمية مع إيقاع قبلي مكثف ونحاس” و”إيقاع الهيب هوب اللحني 85 نبضة في الدقيقة”. فهو يوفر عينات من المؤثرات الصوتية التي تم إنشاؤها باستخدام الصوت الثابت، مثل طيار الطائرة الذي يتحدث من خلال نظام الاتصال الداخلي والأشخاص الذين يتحدثون في مطعم مزدحم.

لتدريب نموذجها، عقدت شركة Stability شراكة مع أحد مزودي خدمات الموسيقى اوديوسباركس كما قامت بترخيص مجموعة البيانات “لأكثر من 800000 ملف صوتي يحتوي على موسيقى ومؤثرات صوتية وسيقان أداة واحدة والبيانات الوصفية النصية المرتبطة بها”. وبعد تغذية النموذج بـ 19500 ساعة من الصوت، عرف كيفية تقليد أصوات معينة سمعها في أمر الصوت الثابت لأن الأصوات كانت مرتبطة بأوصاف النص في شبكته العصبية.

تكبير / رسم تخطيطي لبنية الصوت الثابت المقدمة من Stability AI.

الاستدامة

يتكون الصوت القياسي من عدة مكونات لإنشاء صوت مخصص بسرعة. يضغط ملفًا صوتيًا جزئيًا للحفاظ على ميزاته الأساسية مع إزالة الضوضاء غير المرغوب فيها. وهذا يجعل النظام يتعلم بشكل أسرع ويولد صوتًا جديدًا بشكل أسرع. يستخدم جزء آخر النص (أوصاف البيانات الوصفية للموسيقى والأصوات) للمساعدة في توجيه نوع الصوت الذي يتم إنتاجه.

لتسريع الأمور، يعمل إطار الصوت القياسي على تمثيل صوتي مبسط ومضغوط إلى حد كبير لتقليل وقت الاستدلال (الوقت الذي يستغرقه نموذج التعلم الآلي لإنتاج مخرجات بمجرد إعطائه مدخلات). وفقًا لـ Stability AI، يمكن لوحدة معالجة الرسوميات Nvidia A100 تقديم 95 ثانية من الصوت الثابت بمعدل أخذ عينات يبلغ 44.1 كيلو هرتز (يُطلق عليه غالبًا “جودة القرص المضغوط”) في أقل من ثانية. A100 عبارة عن وحدة معالجة رسومات قوية لمركز البيانات مصممة لتطبيقات الذكاء الاصطناعي، وهي أكثر قدرة من وحدة معالجة الرسومات النموذجية لألعاب سطح المكتب.

كما ذكرنا سابقًا، فإن أول مولد موسيقي يعتمد على تقنيات الانتشار الكامن لم يكن صوتًا قياسيًا. في ديسمبر الماضي، قمنا بتغطية Refusion، وهو إصدار ترفيهي للنسخة الصوتية من Stable Diffusion، على الرغم من أن أجيالها كانت بعيدة كل البعد عن جودة Stable Audio. في يناير، أصدرت Google MusicLM، وهو مولد موسيقى يعمل بالذكاء الاصطناعي للصوت بتردد 24 كيلو هرتز، وأطلقت Meta مجموعة من الأدوات الصوتية مفتوحة المصدر (بما في ذلك مولد تحويل النص إلى موسيقى) تسمى AudioCraft. الآن، مع صوت ستريو 44.1 كيلو هرتز، يعمل Stable Diffusion على رفع مستوى الرهان.

يتوفر الصوت الثابت في طبقة مجانية وخطة احترافية بقيمة 12 دولارًا شهريًا، وفقًا لـ Stability. مع الخيار المجاني، يمكن للمستخدمين إنشاء ما يصل إلى 20 مسارًا شهريًا، يبلغ طول كل منها 20 ثانية كحد أقصى. تعمل خطة Pro على توسيع هذه الحدود، مما يسمح بما يصل إلى 500 جيل من المسارات شهريًا وأطوال مسارات تصل إلى 90 ثانية. من المتوقع أن تتضمن إصدارات STABILITY المستقبلية نماذج مفتوحة المصدر تعتمد على بنية الصوت STABLE، بالإضافة إلى كود التدريب للمهتمين ببناء نماذج توليد الصوت.

في الوقت الحالي، نظرًا لدقة الصوت، يبدو أننا قد نكون على أعتاب إنتاج موسيقى تم إنشاؤها بواسطة الذكاء الاصطناعي بصوت مستقر. هل سيكون الموسيقيون سعداء إذا تم استبدالهم بنماذج الذكاء الاصطناعي؟ ليس إذا كان التاريخ قد علمنا أي شيء من احتجاجات الذكاء الاصطناعي في مجال الفنون البصرية. في الوقت الحالي، يمكن للإنسان بسهولة التغلب على أي شيء يمكن أن يصنعه الذكاء الاصطناعي، لكن ذلك لن يستمر لفترة طويلة. وفي كلتا الحالتين، يمكن أن يصبح الصوت الناتج عن الذكاء الاصطناعي مجرد أداة أخرى في مجموعة أدوات إنتاج الصوت الاحترافية.

Mujahid Abid

“مفكر غير قابل للشفاء. هواة طعام. عالم كحول ساحر. مدافع عن ثقافة البوب.”

يمكن للذكاء الاصطناعي الآن إنشاء موسيقى بجودة الأقراص المضغوطة من النص، وهو يتحسن – Ars Technica

Sony Primes “الأقل إثارة” لجهاز PS5 Remaster لحالة اللعب

لقد سددت ديون Klarna البالغة 3000 جنيه إسترليني، لكن الفواتير لا تزال تأتي | مال

الأسطورة في العشرين: لعبة فيديو بريطانية فريدة ذات تراث معقد | ألعاب

مجموعة روبرتو كافالي لربيع 2025 للملابس الجاهزة

زوج من نفاثات البلازما الضخمة تندلع من ثقب أسود هائل | الثقوب السوداء

انهار فريق LakeCluster Arsenal بعد هزيمة مفاجئة في مباراة الذهاب في تصفيات WCL أمام Häcken | دوري أبطال أوروبا للسيدات

كامالا هاريس تحث “معاناة غزة” على توسيع التصويت العربي

اترك تعليقاً إلغاء الرد

More Stories