شهد العامان الأخيران قفزة هائلة في نماذج الذكاء الاصطناعي التوليدي الصوتي (Generative Audio)، وانحصرت المنافسة الكبرى بين مدرستين، هما مدرسة “سونو إيه آي” (Suno AI) التي تركز على المحاكاة الهيكلية الكاملة، ومدرسة “غوغل ديب مايند” (Google DeepMind – Lyria) التي تركز على النمذجة الموجية الدقيقة.

ولمعرفة الفروق بينهما أجرينا في الجزيرة نت تجارب ومقارنة خلصنا فيها للتالي:

البنية التحتية ونمذجة الصوت (Architecture)

“سونو”.. نمذجة التوكنات والأنماط

يعتمد سونو (Suno) في جوهره على هندسة مشابهة للنماذج اللغوية الكبيرة (LLMs)، فهو لا “يؤلف” الموسيقى كنوتات، بل يتنبأ بـ “التوكنات” (Tokens) الصوتية التالية بناء على سياق ضخم من البيانات التدريبية. يبرع “سونو” في فهم “تراتبية الأغنية”، حيث يدرك الفرق بين المقطع (Verse) واللازمة (Chorus) والجسر (Bridge)، مما يجعله قادرا على توليد مقاطع طويلة تصل لـ 4 دقائق متواصلة بانسجام لحني مذهل. لكن التحدي التقني لسونو يتلخص أنه يعاني أحيانا مما يسمى بـ “الضجيج الرقمي” (Artifacts)، حيث تندمج الترددات الصوتية للآلات مع الترددات البشرية، مما يصعب عملية “الهندسة العكسية” أو فصل الآلات لاحقا.

“ليريا 3” النمذجة الموجية والنقاء

“ليريا” (Lyria)، المطور من قبل غوغل ديب مايند، يستخدم تقنيات متطورة في معالجة الإشارات الرقمية (DSP) والشبكات العصبية العميقة التي تتعامل مع الموجة الصوتية (Waveform) مباشرة بجودة احترافية. يتفوق ليريا في “معدل العينة” (Sample Rate) وعمق البت (Bit Depth)، مما ينتج صوتا كريستاليا يضاهي جودة الاستوديو (44.1 كيلوهرتز أو أعلى). إضافة لذلك، ينفرد بتقنية “سينث آي دي” (SynthID)، وهي علامة مائية غير مسموعة تدمج في الموجة الصوتية لحماية الحقوق وتحديد المصدر، مما يجعله النموذج الأكثر أمانا للمحترفين.

معالجة الموسيقى العربية.. المقامات والإيقاع

عند الانتقال للموسيقى العربية، تظهر الفجوة التقنية في كيفية معالجة “الربع تون” والإيقاعات المركبة، فسونو يمتلك قاعدة بيانات ضخمة من الأغاني العربية المعاصرة، لذا فهو ينجح في محاكاة الروح والأداء والتعبير الصوتي (Vocal Expression) ببراعة، خاصة في الأنماط الشعبية والبوب. أما ليريا فهو يركز على “فيزيائية الآلة”، فعند طلب “عود” أو “قانون”، يقوم ليريا بمحاكاة رنين الأوتار (Resonance) بدقة مذهلة، مما يجعله يتفوق في المقطوعات الآلية (Instrumentals) والموسيقى التصويرية التي تتطلب نقاء فائقا.

تُحاول هذه التطبيقات محاكاة المقامات الشرقية عبر موازنة الترددات الرقمية لتلائم ذائقة المستمع العربي، لكن ورغم نجاحها في تقديم ألحان متماسكة لغويا ونغميا، إلا أن تنفيذها يظل معتمدا على الأنماط الإحصائية، مما يجعلها بارعة في المحاكاة، لكنها لا تزال تطارد ذلك “السر” الخفي الذي يربط مخارج حروف الضاد بروح الارتجال الشرقي الأصيل.

نموذج تطبيقي

للحصول على أفضل نتيجة من سونو، السر يكمن في “الوصف الذكي” أو ما يسمى بالأوامر أو التعليمات (Prompt). استخدم الوضع المخصص (Custom Mode) الذي يمنحك تحكما كاملا. في خانة “الكلمات” (Lyrics)، استعمل “وسوم المقاطع” لتوجيه الذكاء الاصطناعي مثل: [Intro]، [Verse 1]، [Chorus]، [Bridge]، [Outro]. في خانة “نمط الموسيقى” (Style of Music)، صف الشعور والآلات بالتفصيل، مثل: “بوب عربي أكوستيك، عود، عاطفي، إيقاع بطيء، غناء نسائي، جودة عالية”. تجنب كتابة أسماء الفنانين المشهورين، وبدلا من ذلك صف في خامة الصوت (خشن، ناعم، أثيري، قوي). إذا أعجبتك بداية الأغنية، استعمل خاصية (Extend) لإضافة مقاطع جديدة بنفس اللحن والروح، ثم قم بدمج كل المقاطع في ملف واحد طويل.

أما لإنتاج أغنية في ليريا، فالتركيز يكون على “النسيج الصوتي”. ابدأ بتوليد 30 ثانية من التقاسيم (Intro)، ثم استخدم خاصية (Add Section) لإدخال الكلمات تدريجيا، مما يضمن الحفاظ على جودة الآلات دون تداخل. مثال على الوصف التقني: “تخت عربي أصيل، ناي منفرد بصدى عميق، مكبر ميكروفون أولي عتيق من سبعينيات القرن الماضي، دفء تناظري، جودة صوت 4 كيه”.

الاختلاف يكمن بين دقة النغمة في ليريا وطول الأغنية في سونو. من المرجح أن يوفر ليريا واجهات برمجية (APIs) تسمح بتوليد أغان كاملة في المستقبل، بينما يحسن سونو من جودة ضغطه الصوتي. للمستخدم العربي، سونو مخصص للانتشار والعاطفة، وليريا للاحترافية والإبداع الصوتي.

شاركها.