Minufiyah.com

تقدم عرب نيوز الأخبار الإقليمية من أوروبا وأمريكا والهند وباكستان والفلبين ودول الشرق الأوسط الأخرى باللغة العربية لغير المتجانسين.

يمكن للذكاء الاصطناعي الآن إنشاء موسيقى بجودة الأقراص المضغوطة من النص، وهو يتحسن – Ars Technica

يمكن للذكاء الاصطناعي الآن إنشاء موسيقى بجودة الأقراص المضغوطة من النص، وهو يتحسن – Ars Technica

ما عليك سوى كتابة “موسيقى المقدمة الدرامية” وتخيل سماع سيمفونية صاخبة أو كتابة “خطوات مخيفة” والحصول على مؤثرات صوتية عالية الجودة. هذا هو الوعد بنموذج ذكاء اصطناعي صوتي مستقر لتحويل النص إلى صوت أعلن يوم الاربعاء من خلال الذكاء الاصطناعي المتسق الذي يمكنه تجميع الموسيقى أو الأصوات من الأوصاف المكتوبة. وقبل مرور وقت طويل، قد تشكل تكنولوجيا مماثلة تحديًا للموسيقيين في وظائفهم.

Stability AI هي الشركة التي رعت تطوير نموذج التشتت الثابت الذي تم إصداره في أغسطس 2022. امتثالأطلق مختبر الذكاء الاصطناعي مولد الموسيقى انتشار الرقص في سبتمبر.

تتطلع الآن Stability وHarmonoy إلى الدخول في إنتاج صوتي تجاري يعتمد على الذكاء الاصطناعي باستخدام StableAudio. النظر اليها نماذج الإنتاجيبدو وكأنه تحسن كبير في جودة الصوت من مولدات الصوت AI السابقة التي رأيناها.

في صفحتها الترويجية، تقدم Stability أمثلة على نموذج الذكاء الاصطناعي أثناء العمل مع مشغلات مثل “موسيقى مقطورة ملحمية مع إيقاع قبلي مكثف ونحاس” و”إيقاع الهيب هوب اللحني 85 نبضة في الدقيقة”. فهو يوفر عينات من المؤثرات الصوتية التي تم إنشاؤها باستخدام الصوت الثابت، مثل طيار الطائرة الذي يتحدث من خلال نظام الاتصال الداخلي والأشخاص الذين يتحدثون في مطعم مزدحم.

لتدريب نموذجها، عقدت شركة Stability شراكة مع أحد مزودي خدمات الموسيقى اوديوسباركس كما قامت بترخيص مجموعة البيانات “لأكثر من 800000 ملف صوتي يحتوي على موسيقى ومؤثرات صوتية وسيقان أداة واحدة والبيانات الوصفية النصية المرتبطة بها”. وبعد تغذية النموذج بـ 19500 ساعة من الصوت، عرف كيفية تقليد أصوات معينة سمعها في أمر الصوت الثابت لأن الأصوات كانت مرتبطة بأوصاف النص في شبكته العصبية.

رسم تخطيطي لبنية الصوت الثابت المقدمة من Stability AI.
تكبير / رسم تخطيطي لبنية الصوت الثابت المقدمة من Stability AI.

الاستدامة

يتكون الصوت القياسي من عدة مكونات لإنشاء صوت مخصص بسرعة. يضغط ملفًا صوتيًا جزئيًا للحفاظ على ميزاته الأساسية مع إزالة الضوضاء غير المرغوب فيها. وهذا يجعل النظام يتعلم بشكل أسرع ويولد صوتًا جديدًا بشكل أسرع. يستخدم جزء آخر النص (أوصاف البيانات الوصفية للموسيقى والأصوات) للمساعدة في توجيه نوع الصوت الذي يتم إنتاجه.

READ  فيلم الخيال العلمي المستقبلي الرجعية PS5 لا يهزم في هذا العالم

لتسريع الأمور، يعمل إطار الصوت القياسي على تمثيل صوتي مبسط ومضغوط إلى حد كبير لتقليل وقت الاستدلال (الوقت الذي يستغرقه نموذج التعلم الآلي لإنتاج مخرجات بمجرد إعطائه مدخلات). وفقًا لـ Stability AI، يمكن لوحدة معالجة الرسوميات Nvidia A100 تقديم 95 ثانية من الصوت الثابت بمعدل أخذ عينات يبلغ 44.1 كيلو هرتز (يُطلق عليه غالبًا “جودة القرص المضغوط”) في أقل من ثانية. A100 عبارة عن وحدة معالجة رسومات قوية لمركز البيانات مصممة لتطبيقات الذكاء الاصطناعي، وهي أكثر قدرة من وحدة معالجة الرسومات النموذجية لألعاب سطح المكتب.

كما ذكرنا سابقًا، فإن أول مولد موسيقي يعتمد على تقنيات الانتشار الكامن لم يكن صوتًا قياسيًا. في ديسمبر الماضي، قمنا بتغطية Refusion، وهو إصدار ترفيهي للنسخة الصوتية من Stable Diffusion، على الرغم من أن أجيالها كانت بعيدة كل البعد عن جودة Stable Audio. في يناير، أصدرت Google MusicLM، وهو مولد موسيقى يعمل بالذكاء الاصطناعي للصوت بتردد 24 كيلو هرتز، وأطلقت Meta مجموعة من الأدوات الصوتية مفتوحة المصدر (بما في ذلك مولد تحويل النص إلى موسيقى) تسمى AudioCraft. الآن، مع صوت ستريو 44.1 كيلو هرتز، يعمل Stable Diffusion على رفع مستوى الرهان.

يتوفر الصوت الثابت في طبقة مجانية وخطة احترافية بقيمة 12 دولارًا شهريًا، وفقًا لـ Stability. مع الخيار المجاني، يمكن للمستخدمين إنشاء ما يصل إلى 20 مسارًا شهريًا، يبلغ طول كل منها 20 ثانية كحد أقصى. تعمل خطة Pro على توسيع هذه الحدود، مما يسمح بما يصل إلى 500 جيل من المسارات شهريًا وأطوال مسارات تصل إلى 90 ثانية. من المتوقع أن تتضمن إصدارات STABILITY المستقبلية نماذج مفتوحة المصدر تعتمد على بنية الصوت STABLE، بالإضافة إلى كود التدريب للمهتمين ببناء نماذج توليد الصوت.

READ  تعمل Xbox على تجديد فن صندوق الألعاب الخاص بها

في الوقت الحالي، نظرًا لدقة الصوت، يبدو أننا قد نكون على أعتاب إنتاج موسيقى تم إنشاؤها بواسطة الذكاء الاصطناعي بصوت مستقر. هل سيكون الموسيقيون سعداء إذا تم استبدالهم بنماذج الذكاء الاصطناعي؟ ليس إذا كان التاريخ قد علمنا أي شيء من احتجاجات الذكاء الاصطناعي في مجال الفنون البصرية. في الوقت الحالي، يمكن للإنسان بسهولة التغلب على أي شيء يمكن أن يصنعه الذكاء الاصطناعي، لكن ذلك لن يستمر لفترة طويلة. وفي كلتا الحالتين، يمكن أن يصبح الصوت الناتج عن الذكاء الاصطناعي مجرد أداة أخرى في مجموعة أدوات إنتاج الصوت الاحترافية.