هوک چپ گوگل به اوپن‌ای‌آی

 کارشناسان حوزه فناوری معتقدند که این رقابت در نهایت می‌تواند مرز میان تصویر واقعی و تولید ماشینی را کمرنگ‌تر کند و به جهشی تازه در خلق جلوه‌های بصری منجر شود.

ویدئوی طولانی‌تر، روایت پیوسته‌تر

بازار مدل‌های تولید ویدئو با هوش مصنوعی این روزها داغ‌تر از همیشه است. پس از آنکه اوپن‌ای‌آی با معرفی نسل دوم مدل Sora نگاه‌ها را به سوی خود جلب کرد، حالا گوگل با رونمایی از Veo ۳.۱ تلاش می‌کند سهم خود را از این میدان به‌سرعت پس بگیرد. نسخه‌ جدید Veo نه‌تنها از نظر فنی ارتقا یافته، بلکه نشان می‌دهد گوگل در حال بازتعریف راهبرد خود برای رقابت با Sora و سایر بازیگران این حوزه است.

به گزارش تک‌رادار، مدل Veo ۳.۱ قادر است ویدئوهایی با طول تا یک دقیقه تولید کند؛ رقمی که در حوزه‌  مدل‌های هوش مصنوعی ویدئوساز گامی بزرگ به‌شمار می‌آید. این نسخه با افزودن قابلیت‌های چندصحنه‌ای (multi-shot) و تثبیت شخصیت‌ها در طول روایت به‌طور محسوسی کیفیت و انسجام بصری خروجی‌ها را افزایش داده است. در مدل‌های پیشین تغییرات ناگهانی در چهره، نور یا حرکت کاراکترها از مشکلات رایج بود، اما گوگل وعده داده این چالش‌ها را در نسخه‌ جدید برطرف کرده است.

علاوه بر این Veo ۳.۱ از رزولوشن۱۰۸۰p پشتیبانی و با بهبود الگوریتم‌های بین‌فریمی انتقال بین نماها را نرم‌تر و طبیعی‌تر می‌کند. این قابلیت‌ها باعث شده Veo به ابزاری مناسب‌تر برای تولید محتوای سینمایی و تبلیغاتی تبدیل شود، درحالی‌که بسیاری از رقبا هنوز بر تولید کلیپ‌های کوتاه‌تر تمرکز دارند.

گزارش منتشرشده در Bitget نیز حاکی از آن است که گوگل در این نسخه توجه ویژه‌ای به هماهنگی میان صوت و تصویر داشته است. حالا Veo ۳.۱ می‌تواند افکت‌های محیطی، گفت‌وگو و حتی حس فضا را با تصویر هماهنگ کند. قابلیتی که اگر به‌درستی عمل کند یک گام فراتر از Sora محسوب می‌شود.

گوگل برای افزایش کنترل کاربر سه ماژول خلاقانه جدید با نام‌های Ingredients، Frames و Extend معرفی کرده است. این ماژول‌ها امکان ترکیب صحنه‌ها، ادامه‌ ویدئوها و تنظیم دقیق ریتم روایی را به کاربرمی‌دهند. به این ترتیب Veo ۳.۱ از یک ابزار صرفا خودکار به پلتفرمی تبدیل می‌شود که می‌تواند به ابزار کارگردانی هوش مصنوعی برای پروژه‌های حرفه‌ای بدل شود.

رقابت با هزینه کمتر

در این میان گوگل علاوه بر بهبود فنی در مدل اقتصادی Veo نیز تغییر ایجاد کرده است. نسخه جدید با دو حالت قیمت‌گذاری عرضه می‌شود؛ در حالت «سریع» هزینه تولید ۰.۱۵ دلار به ازای هر ثانیه و در حالت استاندارد حدود ۰.۴ دلار برآورد می‌شود. طبق گزارش Bitget این رقم در مقایسه با نسخه حرفه‌ای Sora ۲ می‌تواند تا دو برابر ارزان‌تر باشد. عاملی که به‌ویژه برای تولیدکنندگان محتوای مستقل و شرکت‌های تبلیغاتی جذاب است.

در مقابل Sora ۲ همچنان در تجربه کاربری و سهولت استفاده مزیت دارد. کاربران می‌توانند با چند جمله کوتاه و بدون تنظیمات پیچیده ویدئوهایی سریع و چشم‌نواز تولید کنند. همین سادگی باعث شده است Sora در میان کاربران شبکه‌های اجتماعی محبوب‌تر باشد. هرچند ضعف آن در ثبات کاراکترها و کنترل کارگردانی محدودیت‌هایی برای کاربردهای حرفه‌ای ایجاد کرده است.

گوگل اعلام کرده Veo ۳.۱ از طریق جمنای، Vertex A و APIهای اختصاصی در دسترس قرار خواهد گرفت. این تصمیم بخشی از راهبرد کلی گوگل برای ادغام ابزارهای هوش مصنوعی خود در یک اکوسیستم منسجم است؛ رویکردی که به شرکت‌ها و توسعه‌دهندگان اجازه می‌دهد از یک پلتفرم واحد برای تولید متن، تصویر و ویدئو استفاده کنند.

کارشناسان معتقدند این همگرایی می‌تواند نقطه تمایز گوگل در رقابت با اوپن‌ای‌آی باشد. در حالی‌که Sora فعلا به‌صورت محدود و بدون دسترسی باز عرضه شده است Veo ۳.۱ احتمالا از مسیر API و پلتفرم‌های ابری گوگل در دسترس طیف وسیع‌تری از کاربران قرار می‌گیرد.

در این میان، ایلان ماسک و پلتفرم گراک نیز تلاش دارند سهمی از بازار ابزارهای تولید محتوای هوش مصنوعی به‌دست آورند. ماسک اخیرا برای جذب کاربران بیشتر بخش تولید تصویر(Image Generator) در گراک را رایگان کرده است تا بتواند جایگاهی در رقابت با اوپن‌ای‌آی و گوگل پیدا کند.

Untitled-1 copy

با این حال به‌نظر می‌رسد گراک برخلاف چت‌بات اصلی خود که با استقبال اولیه مواجه شد در حوزه‌ تولید محتوای بصری نتوانسته توجه کاربران را جلب کند. تحلیلگران می‌گویند مشکل گراک در این است که هنوز اکوسیستم منسجم و زیرساخت محاسباتی گوگل یا اوپن‌ای‌آی را ندارد. در نتیجه اگرچه تصمیم ماسک برای رایگان‌سازی بخش‌های تصویری می‌تواند تلاشی برای حفظ مخاطب باشد، اما بعید است در کوتاه‌مدت جایگاه رقابتی آن را تقویت کند.

آینده رقابت؛ کیفیت یا سرعت؟

با ورود Veo 3.1 رقابت در بازار تولید ویدئوهای هوش مصنوعی وارد مرحله تازه‌ای شده است. Sora 2 با تمرکز بر سرعت و تجربه کاربر عادی پیشتاز محتواهای کوتاه و شبکه‌ای است، در حالی ‌که Veo 3.1 می‌کوشد کیفیت، کنترل و واقع‌گرایی را به سطحی جدید برساند. در این میان اگر وعده‌های گوگل درباره هماهنگی صوت و تصویر عملی شود Veo می‌تواند ابزار برگزیده‌ تولیدکنندگان حرفه‌ای محتوا باشد. اما همچنان یک پرسش کلیدی باقی است؛ اینکه ایلان ماسک در این میان چه خواهد کرد.

گراک در مقایسه با غول‌های فعلی هنوز مسیر طولانی در پیش دارد، اما تجربه ماسک در ترکیب رسانه، فناوری و بازاریابی نشان می‌دهد ممکن است به‌زودی راهبردی متفاوت برای ورود به این رقابت ارائه کند. حالا باید دید در این نبرد پرهیاهوی ویدئوهای هوش مصنوعی حرکت بعدی ماسک چه خواهد بود و آیا او می‌تواند به اندازه گوگل و اوپن‌ای‌آی در شکل‌دادن آینده خلاقیت دیجیتال نقش‌آفرینی کند یا خیر.