هوش مصنوعی Veo 3.1 گوگل رقیب خطرناک Sora 2 از راه رسید!

امیرعلی شریف محسنی
دسته‌بندی نشده
24 مهر 1404

در جریان تحولات اخیر در حوزه هوش مصنوعی و تولید محتوا، Veo ۳.۱ یکی از جدیدترین و پیشرفته‌ترین ابزارهای تولید و تدوین ویدیویی مبتنی بر هوش مصنوعی است که توجه زیادی را به خود جلب کرده است. هنوز زمانی از معرفی و همه گیری سورا ۲ نگذشته بود که گوگل این برتری را طاغت نیاورد و هوش مصنوعی VEO 3.1 را معرفی کرد!

هوش مصنوعی VEO 3.1

معرفی Veo ۳.۱ — نسل بعدی تولید ویدیو با هوش مصنوعی

Veo ۳.۱ نسخه به‌روزشده‌ای از پلتفرم تولید ویدیوی AI است که توسط گوگل (DeepMind / Gemini API) ارائه شده است. در واقع این نسخه گسترش و ارتقاء بر نسل قبلی Veo ۳ است که در آن تمرکز اصلی بر ترکیب صدا و تصویر در تولید ویدیوهای کوتاه بود. VEO 3 هوش مصنوعی نام آشنا برای کاربران ایرانی تا پیش از این نیز توانسته بود محبوبیت زیادی کسب کند و با انتشار این آپدیت تقریباً یکه تازی خود را ثابت کرد. در به‌روزرسانی ۳.۱، گوگل ویژگی‌های جدیدی اضافه کرده است تا ویدیوهای تولیدشده طبیعی‌تر و واقع‌گرایانه‌تر شوند، و همچنین محدودیت‌های قبلی مانند طول کوتاه کلیپ‌ها را کاهش دهد.

حل مشکل لیپ سینک یا لبخوانی!

یکی از مهم‌ترین جهش‌ها در Veo ۳٫۱ امکان تولید صدای همگام (Speech, Dialogue, Ambient Noise, Effects) همراه ویدیو است — یعنی در خود ویدیو مکان‌هایی که افراد صحبت می‌کنند، صدای آن‌ها با حرکات لب هماهنگ خواهد بود. لیپ سینک در نسخه قبلی VEO‌تقریبا یک امر شانسی بود به خصوص برای زبان فارسی. حالا می توان امیدوار بود که این دغدغه از میان برداشته شود!

افزایش مدت زمان ویدیو!

نسخه‌ پیشین Veo غالباً روی کلیپ‌های کوتاه — مثلاً ۸ ثانیه — تمرکز داشت.
اما در Veo ۳.۱ قابلیت‌های تمدید صحنه (Scene Extension) تعبیه شده است که اجازه می‌دهد تا ویدیوها تا یک دقیقه گسترش یابند.

اضافه کردن !Start & End Frame

همچنین قابلیت “Frames to Video” وجود دارد که با دادن تصویر شروع و تصویر پایان، می‌تواند یک ویدیوی پیوسته با انتقال میان فریم‌ها بسازد و صدا نیز همراه آن تولید کند. تا پیش از این، این قابلیت فقط در هوش مصنوعی Kling وجود داشت!

امکان اضافه کردن ۳ تصویر برای ساخت ویدیو!

این ویژگی تقریبا یک ویژگی جدید برای ویدیوسازهای هوش مصنوعی است. اگرچه قبلاً هوش مصنوعی PIKA AI این تکنولوژی را داشت اما وقتی پای گوگل در میان است، رقبا باید بترسند!

کنترل نور، سایه، حذف اشیا و ویرایش خلاقانه

در Veo ۳.۱ امکان ویرایش نور و سایه در ویدیوها فراهم شده است تا حس طبیعی‌تر و عمق بیشتری به محتوا داده شود.

همچنین قابلیت حذف اشیا (Object Removal) نیز افزوده شده است؛ به طوری که اگر بخواهید چیزی را از یک صحنه پاک کنید، سیستم پس‌زمینه را بازسازی می‌کند تا انگار آن شیء هیچ‌گاه وجود نداشته است.

حفظ شخصیت ثابت!

یکی از مسائل اصلی در تولید ویدیوهای AI، حفظ ثبات شخصیت‌ها و حرکت دوربین است. در Veo ۳.۱ تلاش شده تا با بهبود معماری مدل، ثبات در ظاهر شخصیت‌ها و انتقال بین صحنه‌ها بهتر حفظ شود.
همچنین در نسخه ۳٫۱، از امکان چند پرسش (multi-prompting) برای تولید ویدیوهای دارای چند نما و شات مختلف پشتیبانی می‌شود. اگرچه هنوز نمیتوان این ادعا را امتحان کرد اما می تواند گفت مشکل حفظ کاراکتر تا به حال دغدغه بزرگ همه تولید کنندگان محتوا بوده و هست!

چالش‌ها و نگرانی‌ها

در کنار امکانات برجسته، Veo ۳.۱ در عمل با چالش‌هایی نیز مواجه است:

برخی موارد هماهنگی صدا با لب‌ها دچار خطا می‌شود یا هنگام چند نفره بودن صحنه، دیالوگ از دهان اشتباهی خارج می‌شود.
محدودیت در طول کلیپ‌ها هنوز وجود دارد، اگرچه تمدید صحنه افزوده شده است. تفسیر پرامپت‌ها ممکن است بین دفعات مختلف خروجی متفاوت شود.
پتانسیل سوء استفاده برای تولید اخبار جعلی یا محتوای گمراه‌کننده وجود دارد، چون ویدیوهای تولیدشده به اندازه کافی واقع‌گرایانه هستند.

چطور از VEO 3.1 استفاده کنیم؟ آموزش استفاده از Veo 3

اگرچه در اپ موبایل جمینای Gemini می توان از نسخه VEO 3.1 FAST استفاده کرد اما بیشتر قابلیت هایی که گفتیم در اپ موبایل قابل دسترسی نیست. اما راه راحت برای دسترسی به هوش مصنوعی VEO 3.1!

استفاده از گوگل لب در وبسایت Flow

در این وبسایت بعد از ورود، میتوانید تمام قابلیت ها و نسخه های VEO 2,3,3.1 را تست کنید!

راه دوم، استفاده کردن از دوست خوب علاقه مندان به هوش مصنوعی! Higgsfield AI !

این وبسایت همیشه بهترین مدل های هوش مصنوعی را بلافاصله پس از انتشار در وبسایت خود برای افراد قرار میدهد تا آن را تست نمایند. اگر بتوانید برای کردیت های این وبسایت هزینه کنید، احتمالاً همیشه به به روز ترین ها دسترسی خواهید داشت!

سورا ۲ یا Veo 3.1 ؟ (اگر با ورود به سورا ۲ مشکل دارید این متن را بخوانید!)

اگر بخواهیم مقایسه سریعی انجام دهیم باید بگوییم فعلا سورا ۲ توانسته خیلی چشم گیر تر عمل کند و تقریبا در ساخت ویدیوهای دشوار واقعگرایانه مشکل خاصی ندارد!

. Veo گوگل همچنان در بسیاری از صحنه ها بد عمل میکند و حتی با وجود نوشتن json prompt نیز گاهی خروجی دلخواه را نمیدهد!

. سورا ۲ با زبان فارسی و پرامپت های ساده بسیار سازگار است و خروجی خوبی میدهد! اما Veo گویا هنوز هم دلش با زبان فارسی صاف نیست!

. سورا ۲ فعلاً رایگان است! اگر مرحله دعوتنامه و شروع به کار با سورا ۲ را رد کنیم، سورا ۲ فعلاً هزینه ای ندارد! اما استفاده از VEO هنوز هم پر هزینه است! ضمناً سورا ۲ اجازه ساخت روزانه ۲۰ ویدیو ۱۰ ثانیه ای را میدهد، این در حالیست که VEO فقط اجازه ۳ ویدیو در روز میدهد رایگان و در دسترس هم نیست!

. VEO 3.1 اگرچه به تازگی منتشر شده اما قابلیت فریم اول و آخر، آن را از سورا ۲ برتر میکند!

. از همه مهم تر برتری VEO 3.1 بر SORA 2 این است که اجازه میدهد عکس کاراکتر واقعی آپلود کنید و با آن ویدیو بسازید! OPEN AI به خاطر نقض قوانین حریم شخصی این قابلیت را عامدانه از SORA 2 حدف کرده است! اگرچه مسئله ایمنی هوش مصنوعی بسیار مهم است اما به لحاظ تکنیکی تولید محتوای واقعگرایانه با چهره یکی از مهم ترین قابلیت های هر هوش مصنوعی ویدیوساز است!

. علاوه بر موارد فوق باید گفت لیپ سینک در هر دو هوش مصنوعی هنوز عالی نیست و نمی توان مقایسه خاصی انجام داد!

جمعبندی!

خبر انتشار هوش مصنوعی VEO 3.1 شاید نه فقط از جنبه انتشار یک ابزار مهم باشد بلکه به این دلیل مهم است که با گسترش سرمایه گذاری و ورود بزرگان تکنولوژی به این صنعت، احتمالاً میتوان در آینده ای نزدیک انتظار داشت که این فناوری ها در دسترس عموم قرار گیرد و با کیفیت بیشتری عرضه شود! کافیست ۲ سال پیش را به یاد بیاورید که هوش مصنوعی ها حتی از ساخت یک عکس با کیفیت و واقعگرایانه از چند سوژه در کنار هم بعضا عاجز بودند! اما امروزه…