Клон голоса: Бесплатная нейросеть пошагово

Создайте собственную модель голоса с помощью нейросети и заставьте её звучать как профессиональный певец. Рассмотрим сервисы, которые помогут в этом, используя песню Эда Ширана «Perfect» в качестве примера.

Необходимые сервисы и материалы

Используемые сервисы условно бесплатны: доступен бесплатный тариф с ограниченными возможностями, достаточными для решения поставленной задачи. Ссылки на все сервисы будут предоставлены (ссылка на Telegram-канал).

Для работы понадобится:

Песня «Perfect» Эда Ширана (разделенная на вокал и музыку). Оригиналы и миксы доступны в Telegram-канале (ссылка на Telegram-канал).
Аудиозаписи вашего голоса. Желательно, чтобы записи были чистыми, без шумов и артефактов. Для записи подойдет обычный телефонный диктофон в тихом помещении.

Тренировка модели голоса

Сервис предлагает множество функций, включая голоса популярных исполнителей (платная подписка) и бесплатные голоса высокого качества.

Для тренировки собственной модели голоса:

Загрузите аудиозаписи.
Пройдите верификацию через WhatsApp (введите код из SMS-сообщения).
Выберите «создать» и загрузите файлы. В примере загружен один файл — запись речи на русском языке.
Выберите название датасета (например, «Обычный разговор, микрофон»).
Укажите тип речи (Speaking) и язык (русский).
Нажмите кнопку «Train» (тренировать).

После завершения тренировки в разделе «My Voices» появится натренированная модель.

Разделение вокала и музыки

Для получения более точного результата, загрузите файлы песен, разделенных на вокал и музыку. Для этого используйте другой сервис (ссылка на сервис в Telegram-канале).

Загрузите файлы в сервис, дождитесь обработки и сохраните раздельно вокал и музыку.

Генерация и микширование аудио

После завершения тренировки можно:

Генерировать аудио из текста с вашим тембром голоса.
Совмещать оригинальный голос с вашим тембром, создавая микс.

Для микширования:

Выберите «Use Voice» (использовать голос).
Загрузите вокальную партию.
Нажмите кнопку «Convert».

Пример результата: сгенерированная фраза с голосом, похожим на голос автора, но с его тембром.

Генерация с YouTube-видео

Более простой способ, но с ограничением по длительности обработки (для бесплатного тарифа).

Переключитесь на режим работы с YouTube-видео.
Вставьте ссылку на YouTube-видео (например, официальный клип песни Эда Ширана).
Запустите процесс генерации.

В данном случае генерация займет больше времени из-за длительности видео. Результат (полностью сгенерированный вокал, объединенный с оригинальной музыкой) доступен в Telegram-канале (ссылка на Telegram-канал).

Сравнение результатов и заключение

Сравнение результатов тренировки на основе записи разговорной речи на русском языке и записи вокала на английском языке показало незначительную разницу. Модель, обученная на вокальной партии, звучит более естественно и мелодично, с большей выразительностью. Использование нейросетей позволяет создавать высококачественные аудиозаписи с вашим голосом. Полученные результаты впечатляют, открывая широкие возможности для творчества и экспериментов. Все ссылки и полные результаты (без авторских прав) можно найти в Telegram-канале (ссылка на Telegram-канал).