جيميناي أومني: هل يصبح المونتاج محادثة مع الذكاء الاصطناعي؟

مؤتمر لقوقل تطلق فيه نماذج الذكاء الاصطناعي التوليدي تحت اسم جيميناي أومني

أزاحت غوغل الستار عن عائلة جديدة من نماذج الذكاء الاصطناعي التوليدي تحت اسم جيميناي أومني، تبدأ بنموذج أومني فلاش، خلال مؤتمرها الأخير للمطورين. العائلة الجديدة لا تكتفي بتوليد الفيديو من النصوص، بل تنقل المستخدم إلى فضاء غير مسبوق يصبح فيه تحرير الفيديو وإنتاجه أقرب إلى حوار مباشر مع الآلة، معتمدا على الصور والمقاطع الصوتية ومقاطع الفيديو كمدخلات، وليس فقط الأوامر النصية الدقيقة التي تطلبها الأدوات السابقة.

ما وراء الأوامر النصية

تأتي نماذج جيميناي أومني لتجاوز حدود ما تقدمه أداة غوغل السابقة لتوليد الفيديو المسماة فيو، وكذلك مجموعة أدوات فلو. فبينما تقتصر فيو على معالجة النصوص والصور لتوليد مقاطع جديدة، تتعامل أومني مع مزيج من المدخلات يشمل الصور والفيديو والصوت والنصوص في آن واحد. وهذا يعني أن المستخدم لم يعد مضطرا لكتابة أوامر نصية طويلة ومعمقة، بل يستطيع رفع صورة ثابتة لشخص أو مشهد ويطلب من النموذج تحويلها إلى مقطع فيديو متحرك يحافظ على كل تفاصيل المحتوى الأصلي.

المونتاج بالمحادثة

تمتد قدرة النموذج إلى ما يشبه المونتاج بالمحادثة. يكفي أن تصف ما تريد تعديله في مقطع فيديو قائم، فيقوم أومني تلقائيا بتنفيذ التغيير وإخراج نسخة جديدة جاهزة للمشاركة. وبالإضافة إلى ذلك، يمكن توليد صورة رمزية شخصية أفاتار تحاكي شكل المستخدم ودرجة صوته، ثم توظيفها داخل المقاطع وتحريكها وفق الحاجة، ما يختصر مسافات طويلة من تعلم برامج المونتاج المعقدة.

حدود مؤقتة بقرار مدروس

مع ذلك، يضع الإصدار الأول أومني فلاش سقفا زمنيا للمقطع المنتج لا يتجاوز عشر ثوان. وتوضح نيكول بريشتوفا، مديرة إدارة المنتجات في غوغل ديب مايند، أن القيد ليس دليلا على ضعف النموذج، بل قرار مدروس لإتاحة الأداة لأكبر عدد ممكن من المستخدمين في الوقت نفسه، وهو ما يشير إلى أن الأجيال اللاحقة قد تشهد تمديدا لهذه المدة دون ضغط على الموارد الحاسوبية.

فلسفة نموذج العالم

أحد أهم الفروق الجوهرية بين أومني والأدوات السابقة يكمن في الفلسفة المعمارية للنموذج. تصف غوغل أومني بأنه أقرب إلى نموذج عالم وليس مجرد نموذج توليد تقليدي، أي أنه يدرك قوانين الفيزياء ويحاكيها، فيلتزم بالجاذبية واتجاهات الرياح وتأثير القوى على الأجسام، مما يجعل المقاطع المنتجة أكثر واقعية وأقل اقترابا من الصورة الحاسوبية المصطنعة. ويقف خلف هذا الاندماج المباشر بين نموذج غوغل اللغوي جيميناي ونماذج توليد الفيديو التابعة للشركة، ما يعطي الأداة قدرة على فهم السياق أعمق من مجرد تنفيذ أوامر بصرية.

التزييف العميق والدرع المائي

ولأن هذه القدرات تفتح الباب أمام تزييف عميق أكثر إقناعا، تدرج غوغل علامة سينث آي دي المائية في كل المقاطع المنتجة لتسهيل اكتشافها. كما تشترط إجراءات للتحقق من هوية المستخدم قبل إنشاء الأفاتار الشخصي. بيد أن هذه القيود لا تختلف كثيرا عن حواجز فرضتها أدوات سابقة فشلت في كبح جماح المقاطع المضللة والنفايات الرقمية، مما يبقي الأسئلة مشرعة حول جدوى الآليات الحالية في وجه الاستخدامات الخبيثة.

يمثل جيميناي أومني لحظة فارقة تتجاوز مجرد إضافة أداة جديدة إلى رف الذكاء الاصطناعي. فقدرة أي شخص، بغض النظر عن مهاراته التقنية، على إنتاج فيديو احترافي من صورة عابرة أو وصف شفهي، تعيد رسم خريطة صناعة المحتوى في العالم العربي تحديدا. صانع المحتوى الناشئ لن يحتاج بعد اليوم إلى حواسيب متطورة أو دورات مونتاج مكثفة، بل سيدير العملية الإبداعية عبر حوار بسيط على هاتفه. في المقابل، يضع هذا التحول أنظمة الرصد والمصادقة أمام امتحان صعب، إذ يصبح توليد المشاهد الزائفة القريبة من الواقع متاحا لأي شخص، وهو ما يفرض على الحكومات والمنصات والمؤسسات الإعلامية تطوير أدوات كشف أقوى ووعي جماهيري أسرع من وتيرة النماذج ذاتها.

لا يمكن النظر إلى جيميناي أومني بوصفه مجرد نموذج جديد لتوليد الفيديو، بل هو نافذة على حقبة يصبح فيها المونتاج حوارا طبيعيا مع الآلة. وبينما تمنح غوغل المستخدمين سيولة إبداعية غير مسبوقة، يبقى كبح الاستخدام المزيف هو الامتحان الذي ستقاس به مسؤولية هذه القفزة التقنية.

أقرأ ايضا: إيلون ماسك يتجه إلى الاستئناف بعد رفض دعواه ضد OpenAI

إيلون ماسك يخسر دعوتة القضائية