Вокруг уникализации видео существует множество мифов и заблуждений. Мы попытаемся разобрать самы распространенные мифы в этой тематике.

Есть такой инструмент как FFMPEG. Если вы гуглили про уникализацию видео, то точно про него слышали.
Есть распространенное заблуждение, что FFMPEG это некий видеоредактор в котором есть всегда +- одинаковый функционал. Этот функционал меняется от версии к версии, но в целом FFMPEG делает всегда одно и тоже — как-то редактирует видео. По идее достаточно просто скачать эту консольную утилиту и у тебя будут те же результаты что и у других.
Это миф 🙃
FFMPEG это набор библиотек. Каждый разработчик перед созданием своего FFMPEG’a (набора) решает какие библиотеки добавлять, а какие нет. В «мире» FFMPEG есть даже свои известные «билдеры» — люди которые собирают эти наборы.
Для примера, в СapCut свой FFMPEG. Со своими библиотеками, которые выполняют свои функции нужные разработчикам СapCut.
В Video Unique Booster — свой FFMPEG, в котором свой набор библиотек с определенными функциями (для работы которых в версии 1.3.1 уже 20.000 строк кода)
По этому, в следующий раз когда Вам предложат что-то там уникализировать через FFMPEG, в статье на арбитражном форуме, то либо Вам укажут конкретный билд, либо автор не шибко эксперт 😁
Миф №2: Дихотомия уникальности видео

В арбитражных чатах ходит мысль, что видео либо уникально — либо нет. Либо файл видео отличается от оригинала, либо это копия.
По такой логике, достаточно изменить цвет одного пикселя, на одном кадре, часового фильма и вы получите уникальное видео. Файл действительно будет отличатся от оригинала. А если измените цвет одного пикселя на всех кадрах, то это даже можно будет отследить в размере файла.
Но как только мы переходим к загрузке такого фильма в ТТ,Инсту,ФБ — вдруг получаем тень/ плашку «неоригинальный контент» и 0 просмотров.
А почему так? А потому что:
Это миф 🙃
На самом деле — уникальность видео это измеримое значение. И правильным был бы вопрос не «уникально ли?», а «уникально на сколько?» или «на сколько видео которое я загружаю похоже на другие?».
У каждой социальной сети есть свой допустимый «порог сходства» с другими видео. Если видео, которое загружаем, очень похоже на другое в этой же социальной сети — его не допустят в рекомендации. Если видео не достигает порога сходства ни с одним видео в социальной сети (не похоже ни на одно другое видео) — то мы получаем просмотры.
В ВАБ этот момент учтен. Есть функция «Проверять сходство с оригиналом и другими копиями». Результатом ее работы есть два числа — процент сходства созданного видео с оригиналом и с копиями.
Работать с ней просто:
1) На тестах находим находим порог для сайта, с которым работаем. Например, видео со сходством в 15% еще набирают просмотры, а выше — нет.
2) Ставим в ВАБе порог в 15%
3) Видео со сходством выше 15% будут удалятся автоматически, а сохранятся только ролики не похожие ни на оригинал, ни на одну из копий.
4) Грузим сохраненные видосы на наш сайт. Профит в сэкономленном времени и аккаунтах.
Миф №3: Искусственный интеллект анализирует уникальность видео

В Ютубе 4 миллиарда видео.
Ходят слухи, что в нем есть некий ИИ. Этот ИИ, по приданию, сравнивает загруженное Вами видео со всеми другими роликами.
А теперь проведем эксперимент:
Попробуйте открыть любое видео на вашем ПК (можно взять и сервер помощнее — без разницы).
От момента открытия до того как появится картинка на экране — проходит время. Секунда, но проходит.
Почему так? Потому что работа с видео это очень многокомпонентный процесс. Как минимум нужно прочитать файл видео, декодировать, синхронизировать аудио- и видео- потоки, и только потом мы получим данные о первом кадре.
Возвращаемся к 4 миллиардам других видео в Ютубе
Если тратить хоть по 1 секунде на каждое видео то получим что-то около 31 года. И это мы только открыли все видео (никакой анализ еще не начинался).
Как-то долговато для залива 1 ролика в шортсы, не правда ли?)
Так вот это миф 🙃
На самом деле никакие искусственные интеллекты не сравнивают Ваши видео с другими. Все намного топорнее и укладывается в 40 строчек кода (1 лист формата А4).
Есть такая магическая штука как «Хеширование восприятия» (Perceptual hashing, или pHash). Так вот эта ядреная хрень ни что иное как подсчет из каких цветов преимущественно состоит кадр. Всего есть 3 основных цвета. Остальные цвета — это комбинация основных, в разных пропорциях.
Если на кадре больше красного чем других цветов, то ему присваивают букву «R» (red — красный). Если на другом кадре больше синего, то его помечают «B» (blue — синий). Ну и зеленый — «G» (green).
После такой разметки мы получаем уникальную последовательность для видео, например «RRGBBBRRBRBR» которая и есть нашим pHash.
Сделать это супер-просто и никаких сложных и умных систем не нужно. Вероятность случайного совпадения двух видео, длиной в минуту, меньше чем 1 разделенный на миллиард миллиардов (т.е. на нашем веку не случится)
И шо потом? 😳
А потом никто уже и не открывает эти видео. Если нужно что-то сравнить — то сравниваются строки pHash, а не видеофайлы. А это куда легче. Есть мат. алгоритмы которые сравнивают схожесть двух текстов. Та же дистанция Левенштейна дает возможность админу сайта, на своем офисном ноутбуке сравнит 1 млн строк (читать 1 млн видео на Ютубе) всего за 6 секунд. Еще и рассчитать на сколько они похожи между собой. 😁
Так что всякие пугалки о том, что «Искусственный интеллект научится еще лучше распознавать плагиат» могут идти отдыхать, ведь ИИ там даже и не пахнет. Для сравнения миллиардов роликов между собой — ИИ не подходит как технология. Он слишком требовательный для такой простой задачи. Это как стрелять из пушки по воробьям. По этому в Video Unique Booster и ввели функцию «Индексировать видео», которая создает pHash для каждого ролика, а затем их сравнивает.