يمكن للذكاء الاصطناعي الآن إنشاء موسيقى بجودة الأقراص المضغوطة من النص، وهو يتحسن

ما عليك سوى كتابة “موسيقى المقدمة الدرامية” وتخيل سماع سيمفونية صاخبة أو كتابة “خطوات مخيفة” والحصول على مؤثرات صوتية عالية الجودة. هذا هو الوعد بنموذج ذكاء اصطناعي صوتي مستقر لتحويل النص إلى صوت أعلن يوم الاربعاء من خلال الذكاء الاصطناعي المتسق الذي يمكنه تجميع الموسيقى أو الأصوات من الأوصاف المكتوبة. وقبل مرور وقت طويل، قد تشكل تكنولوجيا مماثلة تحديًا للموسيقيين في وظائفهم.

Stability AI هي الشركة التي رعت تطوير نموذج التشتت الثابت الذي تم إصداره في أغسطس 2022. امتثالأطلق مختبر الذكاء الاصطناعي مولد الموسيقى انتشار الرقص في سبتمبر.

تتطلع الآن Stability وHarmonoy إلى الدخول في إنتاج صوتي تجاري يعتمد على الذكاء الاصطناعي باستخدام StableAudio. النظر اليها نماذج الإنتاجيبدو وكأنه تحسن كبير في جودة الصوت من مولدات الصوت AI السابقة التي رأيناها.

في صفحتها الترويجية، تقدم Stability أمثلة على نموذج الذكاء الاصطناعي أثناء العمل مع مشغلات مثل “موسيقى مقطورة ملحمية مع إيقاع قبلي مكثف ونحاس” و”إيقاع الهيب هوب اللحني 85 نبضة في الدقيقة”. فهو يوفر عينات من المؤثرات الصوتية التي تم إنشاؤها باستخدام الصوت الثابت، مثل طيار الطائرة الذي يتحدث من خلال نظام الاتصال الداخلي والأشخاص الذين يتحدثون في مطعم مزدحم.

لتدريب نموذجها، عقدت شركة Stability شراكة مع أحد مزودي خدمات الموسيقى اوديوسباركس كما قامت بترخيص مجموعة البيانات “لأكثر من 800000 ملف صوتي يحتوي على موسيقى ومؤثرات صوتية وسيقان أداة واحدة والبيانات الوصفية النصية المرتبطة بها”. وبعد تغذية النموذج بـ 19500 ساعة من الصوت، عرف كيفية تقليد أصوات معينة سمعها في أمر الصوت الثابت لأن الأصوات كانت مرتبطة بأوصاف النص في شبكته العصبية.

تكبير / رسم تخطيطي لبنية الصوت الثابت المقدمة من Stability AI.

الاستدامة

يتكون الصوت القياسي من عدة مكونات لإنشاء صوت مخصص بسرعة. يضغط ملفًا صوتيًا جزئيًا للحفاظ على ميزاته الأساسية مع إزالة الضوضاء غير المرغوب فيها. وهذا يجعل النظام يتعلم بشكل أسرع ويولد صوتًا جديدًا بشكل أسرع. يستخدم جزء آخر النص (أوصاف البيانات الوصفية للموسيقى والأصوات) للمساعدة في توجيه نوع الصوت الذي يتم إنتاجه.

READ توضح لنا خارطة الطريق أدوارًا جديدة والمزيد من التعاون قادم

لتسريع الأمور، يعمل إطار الصوت القياسي على تمثيل صوتي مبسط ومضغوط إلى حد كبير لتقليل وقت الاستدلال (الوقت الذي يستغرقه نموذج التعلم الآلي لإنتاج مخرجات بمجرد إعطائه مدخلات). وفقًا لـ Stability AI، يمكن لوحدة معالجة الرسوميات Nvidia A100 تقديم 95 ثانية من الصوت الثابت بمعدل أخذ عينات يبلغ 44.1 كيلو هرتز (يُطلق عليه غالبًا “جودة القرص المضغوط”) في أقل من ثانية. A100 عبارة عن وحدة معالجة رسومات قوية لمركز البيانات مصممة لتطبيقات الذكاء الاصطناعي، وهي أكثر قدرة من وحدة معالجة الرسومات النموذجية لألعاب سطح المكتب.

كما ذكرنا سابقًا، فإن أول مولد موسيقي يعتمد على تقنيات الانتشار الكامن لم يكن صوتًا قياسيًا. في ديسمبر الماضي، قمنا بتغطية Refusion، وهو إصدار ترفيهي للنسخة الصوتية من Stable Diffusion، على الرغم من أن أجيالها كانت بعيدة كل البعد عن جودة Stable Audio. في يناير، أصدرت Google MusicLM، وهو مولد موسيقى يعمل بالذكاء الاصطناعي للصوت بتردد 24 كيلو هرتز، وأطلقت Meta مجموعة من الأدوات الصوتية مفتوحة المصدر (بما في ذلك مولد تحويل النص إلى موسيقى) تسمى AudioCraft. الآن، مع صوت ستريو 44.1 كيلو هرتز، يعمل Stable Diffusion على رفع مستوى الرهان.

يتوفر الصوت الثابت في طبقة مجانية وخطة احترافية بقيمة 12 دولارًا شهريًا، وفقًا لـ Stability. مع الخيار المجاني، يمكن للمستخدمين إنشاء ما يصل إلى 20 مسارًا شهريًا، يبلغ طول كل منها 20 ثانية كحد أقصى. تعمل خطة Pro على توسيع هذه الحدود، مما يسمح بما يصل إلى 500 جيل من المسارات شهريًا وأطوال مسارات تصل إلى 90 ثانية. من المتوقع أن تتضمن إصدارات STABILITY المستقبلية نماذج مفتوحة المصدر تعتمد على بنية الصوت STABLE، بالإضافة إلى كود التدريب للمهتمين ببناء نماذج توليد الصوت.

READ يحب Phil Spencer ألعاب Sony وNintendo على Xbox، لكنه يقول إنه لا يتوقع ذلك

في الوقت الحالي، نظرًا لدقة الصوت، يبدو أننا قد نكون على أعتاب إنتاج موسيقى تم إنشاؤها بواسطة الذكاء الاصطناعي بصوت مستقر. هل سيكون الموسيقيون سعداء إذا تم استبدالهم بنماذج الذكاء الاصطناعي؟ ليس إذا كان التاريخ قد علمنا أي شيء من احتجاجات الذكاء الاصطناعي في مجال الفنون البصرية. في الوقت الحالي، يمكن للإنسان بسهولة التغلب على أي شيء يمكن أن يصنعه الذكاء الاصطناعي، لكن ذلك لن يستمر لفترة طويلة. وفي كلتا الحالتين، يمكن أن يصبح الصوت الناتج عن الذكاء الاصطناعي مجرد أداة أخرى في مجموعة أدوات إنتاج الصوت الاحترافية.

Faisal Al-Rashid

فيصل الراشد كاتب ومحرر في موقع Minufiyah.com، يغطّي مجموعة واسعة من الموضوعات تشمل الأخبار والسياسة والأعمال والتكنولوجيا والرياضة والترفيه وأسلوب الحياة. يحرص على تقديم محتوى واضح ودقيق يساعد القرّاء على فهم المستجدات والقضايا الراهنة بسهولة. يركّز في أعماله على نقل المعلومات المهمة، ومتابعة التطورات الحالية، وتقديم قصص وتقارير ذات صلة باهتمامات الجمهور واحتياجاته اليومية بأسلوب مهني وموثوق.

يمكن للذكاء الاصطناعي الآن إنشاء موسيقى بجودة الأقراص المضغوطة من النص، وهو يتحسن – Ars Technica

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

مايكروسوفت كادت تتسبب في إلغاء لعبة جديدة لمخرج The Last of Us وUncharted 4

آيفون 17 برو ماكس فاخر بسعر يتجاوز ربع مليون دولار

طوارئ بيئية في نيويورك قبل نهائي مونديال 2026.. سحابة دخان تثير المخاوف حول مواجهة الأرجنتين وإسبانيا

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

طيران ناس تقترب من تأكيد صفقة جديدة لطائرات A330neo من إيرباص

بنك اليابان يرفع أسعار الفائدة إلى أعلى مستوى منذ 31 عاماً وسط توجه متواصل نحو تطبيع السياسة النقدية

اترك تعليقاً إلغاء الرد

قصص أخرى

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

مايكروسوفت كادت تتسبب في إلغاء لعبة جديدة لمخرج The Last of Us وUncharted 4

آيفون 17 برو ماكس فاخر بسعر يتجاوز ربع مليون دولار

ربما فاتك

طوارئ بيئية في نيويورك قبل نهائي مونديال 2026.. سحابة دخان تثير المخاوف حول مواجهة الأرجنتين وإسبانيا

مطور سابق في Rockstar يشرح أسباب تأجيل إصدار GTA 6 على الحاسب الشخصي

طيران ناس تقترب من تأكيد صفقة جديدة لطائرات A330neo من إيرباص

بنك اليابان يرفع أسعار الفائدة إلى أعلى مستوى منذ 31 عاماً وسط توجه متواصل نحو تطبيع السياسة النقدية