Как пользоваться Gemini Omni. Безумная видеомодель от G… — Transcript

Обзор Gemini Omni — мощной модели от Google для редактирования видео через чат: замена фона, объектов и создание персонажей без монтажа.

Key Takeaways

Gemini Omni значительно упрощает и ускоряет процесс редактирования видео через чат.
Модель работает с 3D-структурой объектов, что обеспечивает естественные изменения без потери качества.
Диалоговое редактирование позволяет вносить последовательные правки без повторной загрузки видео.
Создание и использование персонажей в видео стало доступным и гибким инструментом.
Видео-to-видео функция позволяет менять окружение, сохраняя оригинальные объекты и движение.

Summary

Gemini Omni позволяет редактировать видео через обычный чат, изменяя только нужные элементы без пересборки всего кадра.
Модель заменяет фон, вставляет несуществующие объекты, меняет одежду и реквизит в видео, сохраняя освещение и движение.
Редактирование происходит диалогово: можно последовательно вносить изменения, не загружая видео заново.
Можно создавать персонажей из фотографий или генерировать их с нуля через Nan Banana Pro и использовать в видео.
Модель обеспечивает реалистичную синхронизацию губ и мимику персонажей, улучшая качество анимации.
Возможность менять окружение видео (video-to-video) — например, заменить фон за окном на вулкан или туманный фьорд.
Gemini Omni понимает физику, географию и анатомию, что позволяет создавать правдоподобные сцены и объекты.
Инструмент полезен для контент-мейкеров, рекламных роликов, обучающих видео и быстрой адаптации исходников под разные задачи.
Редактирование происходит прямо в браузере без установки дополнительного ПО.
Модель экономит время и упрощает процесс правок, устраняя необходимость сложного монтажа и повторных съёмок.

Full Transcript — Download SRT & Markdown

Speaker A

Раньше при съёмке видео, пусть то рекламно-обзорное, была очень большая проблема, если вдруг человек в кадре взял не тот реквизит, надел не ту вещь. В таких ситуациях нужно было всё переснимать. Но совсем недавно вышел Gemini Omni, который полностью решает эту проблему. Эта

Speaker A

модель может заменить фон, вставить несуществующий объект в видео, заменить одежду и всё это вместе. В этом видео четыре вещи. Как редактировать уже снятое видео через обычный чат, как вставить себя или любого персонажа в любую сцену, как полностью изменить фон

Speaker A

реального видео так, чтобы никто не догадался, что снималось в другом месте, и как модель сама знает физику, географию и анатомию без ваших объяснений. [музыка] Всё это прямо в браузере, без установки программ. И в конце скажу про один момент, который

Speaker A

важно знать перед тем, как начнёте использовать это в работе. Начну с простого примера, который хорошо показывает суть. Я беру видео со своим лицом. Обычная запись на камеру, просто смотрю в объектив, ничего особенного.

Speaker A

Загружаю это видео в Gemini Omni, открываю чат и пишу обычным языком: "Сделай меня полностью лысым и добавь ярко-рыжую бороду". [музыка] Смотрите, что происходит. Модель не накладывает фильтр поверх картинки. [музыка] Она анализирует трёхмерную структуру лица.

Speaker A

Где голова, где подбородок, где линии роста волос. Убирает волосы так, что голова выглядит естественно, [музыка] не как закрашенный сверху прямоугольник.

Speaker A

Добавляет бороду с правильной текстурой, с правильным направлением роста. Всё остальное в кадре остаётся нетронутым.

Speaker A

Фон тот же, одежда та же, освещение тоже. Изменилось только то, что я просил. Вот первое, что важно понять про эту модель. Она не пересобирает весь кадр целиком. Она точно находит то, что нужно изменить, и трогает только это.

Speaker A

Теперь второй пример. Он показывает другую сторону той же функции. Берём видео, где я иду по какому-то помещению, коридор, комната, неважно. И прошу модель: "Замени все тёмные или пугающие предметы в кадре на яркие фрукты".

Speaker A

Результат выглядит смешно, но именно в этом и суть демонстрации. Модель не ищет пикселей определённого цвета. Она понимает смысловую категорию: тёмный и пугающий, и находит объекты, которые под неё подходят. Заменяет их. Атмосфера кадра полностью меняется. При том, что движение, освещение и общая структура

Speaker A

сцены сохраняется. [музыка] Вот здесь самое важное, что нужно понять про диалоговое редактирование. [музыка] После первого запроса вы можете продолжать разговор. Например, [музыка] теперь сделай фон светлее. Потом добавь тёплый оттенок освещению. Потом убери предмет, который лежит на столе справа.

Speaker A

Модель держит в голове весь разговор. Она работает с тем же видео и добавляет изменения. Одно за другим, как дизайнер, который сидит рядом и сразу показывает результат каждой правки. [фыркает] Не нужно каждый раз загружать видео заново, не нужно описывать контекст с нуля,

Speaker A

[музыка] просто продолжаете обычный разговор. Что это меняет на практике для тех, кто снимает контент?

Speaker A

[музыка] Раньше, чтобы убрать случайный предмет из кадра или изменить мелкую деталь, нужно было открыть программу монтажа, найти нужный момент на таймлайне, разобраться [музыка] с масками, проверить, что всё выглядит естественно.

Speaker A

Это занимало время и требовало определённых навыков. [музыка] Теперь вы пишите одну фразу в чате и идёте дальше. Или другой сценарий: вы сняли видео, отдали на монтаж. Клиент посмотрел и попросил изменить цвет рубашки на человеке.

Speaker A

Раньше это был отдельный раунд правок, теперь это один запрос. Перед тем, как увидеть остальные способы применения этого инструмента, [музыка] прошу вас подписаться на этот канал, поставить лайк этому видео и обязательно написать комментарий, как вам оно.

Speaker A

Второй инструмент — возможность создать персонажа и отправить его в любую сцену. Объясню, как это работает. Есть два способа получить аватара для работы.

Speaker A

Первый — загрузить фотографию. Берёте любое своё фото, загружаете в чат Gemini Omni и пишите: "Используй этого человека как персонажа в видео". Модель считывает внешность фотографии и дальше использует её в генерации.

Speaker A

Второй — сгенерировать персонажа через Nan Banana Pro. Там вы создаёте нужного человека с нуля, с нужной внешностью, стилем [музыка] и одеждой. Сохраняете получившееся изображение и загружаете его в чат Gemini Omni. Этот вариант даёт больше контроля над тем, как выглядит

Speaker A

ваш персонаж. Вы сами решаете каждую деталь заранее, а не работаете с тем, что есть на фото. Оба варианта работают одинаково в дальнейшем. Загружаете изображение в чат и пишите, что должно происходить с этим персонажем.

Speaker A

Давайте посмотрим на живом, реальном примере. Я загружаю фотографию человека в чат и пишу: "Сними, как этот человек убегает от большого динозавра в джунглях." И смотрим, что получилось.

Speaker A

[тяжёлое дыхание] Это один десятисекундный клип. Внешность персонажа та же, что на загруженном фото. Джунгли созданы моделью. Динозавр добавлен. Движение выглядит естественно.

Speaker A

[музыка] Отдельно про синхронизацию губ. Она в этой модели стала заметно точнее. Когда персонаж в кадре что-то говорит, движения губ совпадают с речью. Мимика выглядит менее механической, чем в предыдущих генераторах видео. Это ещё не безупречно, но уже на том уровне, где

Speaker A

результат можно использовать в реальных задачах. Второй пример [музыка] с аватаром. Берём того же персонажа и просим: "Надень на него жёлтые очки, красные наушники и широкий плащ диджея.

Speaker A

Пусть говорит в микрофон на сцене". [музыка] Модель берёт исходную внешность персонажа и одевает его так, как описано.

Speaker A

Одежда выглядит как реальная ткань, с нормальными складками, с правильным взаимодействием со светом, не как текстура, приклеенная поверх силуэта.

Speaker A

Для каких задач это вообще полезно? Если вы делаете контент и хотите показать сценарий или ситуацию без личной съёмки, создаёте персонажа один раз, загружаете и описываете, что должно происходить, и через несколько минут готовый абсолютно клип. Если нужна демонстрация продукта с

Speaker A

человеком в кадре, но съёмка сейчас невозможна, тот же подход. Для обучающего контента, где важно показать конкретное действие, тоже подходит супер.

Speaker A

Третий инструмент, наиболее наглядный в демонстрации. Берём обычное видео, снятое на телефон. Я еду в машине, за окном обычная дорога.

Speaker A

Загружаем в Gemini Omni. За окном обычный городской пейзаж. И пишу в чат что-то вроде этого. [музыка] Сделай так, будто за окном извергается вулкан. И давайте посмотрим на результат.

Speaker A

Салон машины тот же, я за рулём тот же. Руки на руле те же. И освещение внутри салона тоже. За окном полностью другая картинка. Вулкан в потоке лавы. Тёмное небо с пеплом.

Speaker A

Модель чётко разделила внутреннее пространство и то, что за окном. Она понимает, где граница между салоном и улицей, и меняет [музыка] только улицу. Она не размазывает изменения по всему кадру. Давайте второй пример. Берём видео, где кто-то идёт по открытому месту и пишем: "Замени

Speaker A

окружение на туманный фьёрд на рассвете с гладкой, как стекло, водой". Результат: тот же человек, то же движение и та же одежда.

Speaker A

А вокруг другое место. Туман над водой, характерный свет рассвета, горы [музыка] вдалеке. Это называется видео to видео.

Speaker A

Перенос объекта из одного контекста в другой при сохранении самого объекта. Для каких [музыка] задач это полезно?

Speaker A

Снялись в одном месте, а по задаче нужно другое. Например, сняли в помещении, но должно выглядеть как съёмка на природе.

Speaker A

[музыка] Тестирование вариантов. Хотите понять, как будет выглядеть рекламное видео в разных локациях? [музыка] Снимаете один раз и меняете фон через чат. Смотрите, что работает лучше, [музыка] без поездок. Для контент-мейкеров один и тот же исходник адаптируется под совершенно разные темы и настроения. Не нужно

Speaker A

перестраивать съёмку под каждый формат. Лондонский пример, который хорошо показывает ещё один слой этой функции.

Speaker A

[музыка] Просто попробуйте написать: "Сделай так, будто машина едет по улицам Лондона". Модель добавляет детали, характерные именно для Лондона. [музыка] Двухэтажные красные автобусы, характерную архитектуру, если это центральный район. [музыка] Это работа

Speaker A

подробнее в следующем блоке. Четвёртый блок про то, что отличает Geminii от генератора с красивым интерфейсом.

Speaker A

Обычный генератор видео работает с визуальными паттернами. Он видел много видео во время обучения и научился воспроизводить похожие картинки. Он, на самом деле, не понимает, что происходит на этих видео. Он не знает, почему объекты движутся именно так, как устроено тело человека или где находятся

Speaker A

разные города. Gemini Omni обучена на данных Google, [музыка] включая огромное количество текстовой информации о том, как устроен мир. Поэтому она понимает контекст, а не только воспроизводит картинку.

Speaker A

Давайте посмотрим, как это выглядит на практике. Пример первый. Физика. Пишем в чат без загрузки какого-либо видео.

Speaker A

Создай короткое обучающее видео о том, как работает гравитация. Модель генерирует видео. Она не просто показывает падающий предмет, она правильно передаёт траектории движения и то, как объекты ведут себя в условиях пониженной гравитации. Например, как будет двигаться тот же предмет на Луне.

Speaker A

[музыка] Физика правильная. При этом вы ничего не объясняли про гравитацию, вы просто назвали тему, а модель [музыка] применила знания. Пример второй.

Speaker A

Анатомия. Пишем: "Покажи, как устроен человеческий глаз". [музыка] Модель создаёт анимацию с правильным расположением слоёв хрусталика, роговицы, [музыка] сетчатки. Это достоверно, не примерно похоже, а точно.

Speaker A

Раньше, чтобы сделать такую анимацию, нужно было либо найти готовую или купить лицензию, либо заказать у специалиста по медицинской визуализации. Это отдельная профессия с отдельным ценником. Сейчас это один запрос в чате. Пример третий.

Speaker A

География. Возвращаемся к лондонскому примеру из прошлого блока. Когда вы просите перенести видео в Лондон, модель знает, как выглядит Лондон. Конкретно Лондон, а не абстрактный европейский город. [музыка] Попросите Токио, получите Токио с его специфической архитектурой, вывесками и городской средой. Это работает и для менее

Speaker A

очевидных мест. Попробуйте написать название конкретного района или небольшого города. Модель постарается воспроизвести именно его характерные черты.

Speaker A

Пример четвёртый. Явление, которые сложно снять. Пишем: "Покажи, как происходит землетрясение". Модель создаёт видео, которое правильно показывает движение тектонических плит, [музыка] волны сейсмической активности, как это выражается на поверхности.

Speaker A

Не фантазию на тему, а физически корректное изображение процесса. Для каких же задач это полезно?

Speaker A

Объяснение сложных тем в образовании, маркетинге или презентациях. Вместо того, чтобы искать готовое видео или заказывать анимацию, описываете то, что нужно показать, и получаете крутой результат. Процессы, которые невозможно снять вживую, научные явления, работа внутренних механизмов. Всё это теперь генерируется [музыка] из текстового

Speaker A

описания. Быстрые прототипы обучающего контента. Прежде чем вкладывать в профессиональное производство, можно за несколько минут посмотреть, как выглядит идея.

Speaker A

Важный момент, то, что нужно знать перед использованием. [музыка] Говорю об этом в конце, как и обещал в начале, все видео, созданные в Gemini Omni, автоматически получают метку. Она называется Sint ID. Это невидимая цифровая метка, встроенная прямо в видеофайл.

Speaker A

[музыка] Что это значит для нас на практике? Платформы и сервисы, которые умеют читать эти метки, видят, что видео создано AI. Технология пока не везде, но распространяется. [музыка] Кроме этого, есть метадан из стандарта C2Pa. Это набор данных, записанных файл,

Speaker A

когда создано, чем создано, было ли изменено. Всё это хранится внутри видеофайла. И ещё один момент. В углу видео может быть видимый логотип Gemini.

Speaker A

[музыка] небольшой, но он тоже есть. Зачем об этом говорить? Если вы планируете использовать это видео в работе, нужно понимать, что они имеют эту метку. Для своего контента, для демонстрации концепций, для образовательного материала это абсолютно нормально. Вопросы начинаются, если

Speaker A

кто-то пытается выдать сгенерированное видео за реальную съёмку. Знайте об этом и используйте осознанно. Давайте закончим практично. [музыка] Gemini Omni имеет четыре вещи: редактировать детали в готовом видео через чат, [музыка] переносить персонажа в любую сцену по фото, менять фон при сохранении объекта

Speaker A

и генерировать видео по теме, опираясь на то, что знает о мире из данных Google. Последнее работает с оговоркой: модель стремится к точности, [музыка] но артефакты бывают, поэтому проверяйте результат перед использованием. Один совет, который экономит попытки. Пишите конкретно, не сделайте мрачнее, а добавь

Speaker A

туман, затемни небо, сделай свет холодным и явно указывайте, что трогать нельзя, иначе модель может задеть и это тоже. Попробуйте на одном коротком видео, которое уже есть. Не на сложном проекте. Просто посмотрите, как это работает на вашем материале. Ставьте

Speaker A

лайк, если было полезно. Подписывайтесь на [музыка] канал и до встречи. am

Topics:Gemini Omniредактирование видеовидео через чатзамена фонасоздание персонажейсинхронизация губвидео генерацияGoogle AIконтент-мейкингвидео to видео

Frequently Asked Questions

Как Gemini Omni меняет объекты в видео без потери качества?

Модель анализирует трёхмерную структуру объектов и изменяет только нужные элементы, сохраняя остальной кадр без изменений, что обеспечивает естественный и качественный результат.

Можно ли создавать персонажей с нуля для использования в видео?

Да, с помощью Nan Banana Pro можно сгенерировать персонажа с нужной внешностью и одеждой, сохранить изображение и загрузить его в Gemini Omni для дальнейшего использования.

Как работает функция замены фона в Gemini Omni?

Модель чётко разделяет объекты на переднем плане и фон, заменяя только фон на заданный, при этом сохраняя освещение и движение в кадре, что делает замену незаметной.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →