Как сделать звук студийного качества через нейросеть Enhance Speech от Adobe

Практически все нейросети, которые находятся на слуху, работают с графикой и носят скорее развлекательный характер. Но в начале января компания Adobe представила сервис Adobe Podcast с несколькими профессиональными инструментами для создания подкастов. Среди них особое место занимает Enhance Speech — нейросеть, улучшающая звук микрофона. Давайте разберемся, как она работает, действительно ли делает запись более чистой, и кому может пригодиться такой инструмент.

Эта нейросеть разорит арендаторов студий для записи подкастов

Что такое Adobe Podcast

Сервис Adobe Podcast ориентирован на публику, которая занимается созданием подкастов. Его технологической основой является аудиоредактор Project Shasta, запущенный еще в конце 2021 года. На первых порах онлайн-сервис предлагал пользователям удаленно записывать подкасты, преобразовывать речь в текст, а также настраивать микрофон, но позже появилась та самая нейросеть.

Помимо нейросети Enhance Speech сервис Adobe Podcast предлагает инструмент для калибровки микрофона

Аналогичный набор функций сейчас доступен и в Adobe Podcast. По сути, это ребрендинг Project Shasta и направлен на более широкую аудиторию. Хотя для доступа ко всем возможностям необходимо подать заявку через форму на сайте, нейросеть Enhance Speech, которая является одним из инструментов онлайн-сервиса, доступна любому желающему совершенно бесплатно.

⚡ Подпишись на Appleinsider в Пульс Mail.ru, чтобы получать новости из мира Apple первым

Как работает нейросеть Enhance Speech

Главная задача Adobe Enhance Speech — сделать речь, записанную в не самых подходящих условиях и не на самое качественное оборудование, более выразительной и чистой. Почти во всех случаях нейросеть достигает заявленных целей, действительно отсекая внешние шумы и создавая впечатление, будто голос был записан в профессиональной студии подкастов.

Но Enhance Speech свойственны те же недостатки, что и нейросетям, улучшающим качество фото. Если при работе с графикой искусственный интеллект делает картинку нарочито мультяшной, пытаясь сгладить все недостатки изображения, то ИИ Adobe слишком агрессивно отсекает внешние шумы, делая звук плоским. Для подкастов — это то, что нужно. Но, если прогнать через нейросеть Adobe аудиодорожку какого-нибудь старого телевизионного репортажа, звук получится неестественно рафинированным. Складывается впечатление, что ролик в прямом смысле слова переозвучили.

❗ Поделись своим мнением или задай вопрос в нашем телеграм-чате

Поэтому в сценариях, выходящих за пределы создания подкастов, помимо Enhance Speech от Adobe нужно использовать дополнительные инструменты. Один из умельцев загрузил на YouTube сцену из фильма «Гражданин Кейн» (1941), которую не только прогнал через нейросеть Adobe, но и наложил на получившуюся аудиодорожку эффект реверберации. Звук стал менее плоским, но итоговый результат все равно заставляет рассматривать Enhance Speech исключительно как инструмент для работы с подкастами.

Кроме того, в своем нынешнем виде нейросеть для улучшения звука микрофона имеет несколько ограничений: поддерживаются только форматы WAV и MP3, продолжительность записи не должна превышать 1 час, а размер файла — 1 гигабайт.

🔥 Загляни в телеграм-канал Сундук Али-Бабы, где мы собрали лучшие товары с АлиЭкспресс

Как улучшить звук через нейросеть Adobe

Воспользоваться Enhance Speech можно на специальной странице сайта Adobe Podcast. Ее содержимое корректно отображается только в десктопной версии, поэтому при попытке прогнать звук через нейросеть со своего iPhone вы не увидите нужных кнопок для работы с нейросетью даже в режиме просмотра ПК-версии сайта.

Также на странице Enhance Speech есть пример обработанного нейросетью голоса

При первом посещении необходимо создать учетную запись. Для этого нажмите кнопку «Sign Up». Чтобы войти, можно воспользоваться аккаунтом Google или Apple ID. После успешной авторизации на экране появится кнопка «Upload», нажав которую вы сможете загрузить аудиофайл для его дальнейшей обработки.

Загрузить можно только MP3 или WAV

Нейросеть для улучшения звука не дает выставить никакие дополнительные параметры и сразу берется за дело. По окончании появляется возможность прослушать получившееся аудио, а также скачать его на свое устройство, нажав кнопку «Download».

Обработка аудио займет от 1 до 10 минут в зависимости от продолжительности записи

В качестве эксперимента я загрузил 24-секундную аудиодорожку легендарного ролика «Пацаны ваще ребята». Чтобы ее обработать, Enhance Speech потребовалось около минуты, а итоговый размер файла увеличился с 0,2 Мб до 4,5 Мб. Но результат меня более чем устроил. Именно так звучало бы это видео, если бы его записью занималась бригада провинциального телеканала.

⚡ Подпишись на Appleinsider в Дзене, где мы публикуем эксклюзивные материалы

Что еще умеют нейросети

Enhance Speech — одна из множества нейросетей, за развитием которых пристально следят коллеги с Hi-News.ru. Наша редакция тоже неоднократно показывала, что нейросети позволяют:

Остается только догадываться, что еще в скором времени научатся делать нейросети и смогут ли они, наконец, заменить человеческий труд. А пока напишите в комментариях, чего вы ждете от искусственного интеллекта в 2023 году.