Форум РадиоКот

Прежде всего - С НОВЫМ ГОДОМ!

Срочно нужно выбрать тему для дипломной работы.

В связи с этим хотел бы обратиться к вам. Узнать ваше мнение.

1. Схема для изменения голоса.
Суть:
Все вы знаете МАКСИМА ГАЛКИНА.
Он пародирует знаминитостей.
В принципе у каждого человека есть свой тембр голоса, некая постоянная частота его говора.
Что если эту постоянную частоту распознать и заменять её на другую, какую вы захотите. Электронно естестно.
Вы берёте микрофон - выбираете чим голосом будете говорить и говорите в микрофон своим голосом а спец схема преобразовывает вашу тональность в другую.

Ваше мнение, заранее спасибо.

Всё это реализуемо: от простых фильтров до специальных цифровых систем обработки сигналов. Так что подумай, что будешь закладывать в основу и определи цели. Тогда и будем думать.

Спасибо!

Цель в принципе проста - создать устройство.
Этап 1 : Вы создаёте базу данных в устройстве - где храниться информация о тональностях.
Этап 2 : Вы говорите в микрофон.
Устройство распознаёт вашу тональность и записывает её в память
Этап 3 : Вы выбираете из базы данных устройства нужный голос.
Этап 4 : Вы говорите в микрофон а ваша тональность заменяется на выбранную из базы.

Просто у меня знакомая работает на корпоративных вечеринках ей это нужно для пародирования, ну и думаю пригодиться тем кто озвучивает собственные фильмы, чтоб не приглашать много актёров.

И какая задержка для распознавания?

Не будет ощущаться расхождений в шевелении губ и звука?

Понимаю что зависит от частоты.
Но может знаете откуда начинается диапазон тональности у человека.
Думаю не с 20 Гц

По-моему гораздо проще сделать преобразователь частоты в звуковом диапазоне (октавер). Естественно, регулируемый. В сочитании с эквалайзером, по идее, можно добиться нужного эффекта =)

Телефонный канал (для разборчивой передачи речи) 300-3000Гц.Можно взять с запасом. Динамический диапазон тоже небольшой.

Значит минимум секунда делить на 300 -
Нормально.
А никто не знает - что происходит с голосом когда человек стареет
Тембр смещается - это понятно, но там что то ещё

KT315B, а он не будет преобразовывать все частоты?
Нам ведь надо только одну - несущую так сказать

Ещё надо не забывать про обертоны: НЧ огибающая (иногда даже инфразвуковой частоты).

Есть очень простой способ "металлизации" голоса (это приставки "Дистошн") - обычный усилитель, загоняющий синусоиду в ограничение, т.е. трапецию или даже прямоугольник. Появляется куча высших гармоник и голос приобретает "металлический" оттенок.

Другой способ "Буратино" (по технологии известного фильма). Записываем на одной скорости, проигрываем на другой. Т.е. весь сигнал одинаково смещаем в область высоких частот (проигрывание на большей скорости) или в область НЧ (воспроизведение на меньшей скорости).

Радиогубитель! писал(а):KT315B, а он не будет преобразовывать все частоты?
Нам ведь надо только одну - несущую так сказать

Немного не врубился в суть вопроса - наверное НГ делает свое дело... А что есть в этом контексте "несущая" частота? Частота, которая задает общую тональность голоса? Исключая обертоны, гармоники и прочее?

Действительно, КТ315В, несущая здесь абсолютно не причём. Она к связи отношение имеет. А у нас имеется сложная сумма разных частот звукового диапазона, причём разной амплитуды, что и создаёт тембр, т.е. "Окраску голоса". Правильно заметил!

ты когда поешь ноту До первой октавы, в голосе есть несущая, частота которой равна ноте До первой октавы

Плюс остальной мусор. Голос человека можно представить частотно, то есть по нотам, где в определенный момент произносится определенная частота плюс мусор

Поскольку мусор у всех разный, его-то и надо менять. Это, так скажем, набор гармоник, который нифига не постоянный. То есть конструктор "собери голос из гармоник"

Не забывайте про остальные природные вариации с простым звуком гортани - изменение фазы (при изменении звукового объема рта - скажите А, а затем О - вы не изменили звук гортани, а изменили фазу), искажение исходной частоты (при усилении голоса), модуляция шипящих звуков и т.д.
А "несущую" можно и просто транспонировать.

Т.е. как я понял, мы берем частоту какой-нибудь основной (достаточно большой амплитуды) гармоники в качестве несущей? Сумма-то различных частот (гармоник) остаётся.
Я понимал (да и КТ315В, наверняка, тоже), что несущая - это частота передатчика, которая модулируется всем спектром сигнала. Фактически мы перемножаем несущую на сигнал.

И вообще, долой заумные мысли! Новый Год на носу!
Ну, за науку!

Товарищу модератору Мышонку замечание за уклонение от темы- т.е. флудимость.
Сдвиг спектра голоса очень успешно используется в технике связи, звуковых эффектах (буратинячий голос) , и даже как средство борьбы с акустической обратной связью во время концертов. Но в последнем случае сдвиг всего на несколько герц.
Все прочие вещи- просто преобразование исходного спектра, но тоже хороши для своих целей. Нам же нужно преобразование тембра, и тут, мне кажется, очень удачно предложена идея наложения "маски" на исходный тембр.

А может поступить так:
Создать так сказать массив из гласных.
Попробуйте сказать "до" и "во"
звук одинаковой тональности
"ди" и "ви" тоже одинаковой но расположены на другой несущей
то есть как я понимаю голос человека состоит из массива частот гласных, одной несущей согласных и шума образующего согласные путём сложения с несущей согласных.

для 1)
fбуквы а
fбуквы и
fбуквы о
fбуквы у и тд.
Причём они обязательно должны быть взаимосвязанны по определённому закону. Зная например fa путём расчёта я могу узнать все остальные f

Поправьте если я не прав?

Вообще-то если вы не заметили, то все пародисты передают лишь манеру речи, а никак не сам голос.
Но если уж интересует само изменение голоса то вот что скажу:
скажите букву А. нет, не так. чуть попротяжнее, широко раскрыв рот. Отлично!
а теперь скажите О так же протяжно. Молодцы!
пронаблюдаем: голос не меняется. как мы тянули букву А, так она и осталась. все звуки образуются из-за препятствий воздуху на пути, т.е. зубы, язык, губы, например при букве О губы вытягиваются в трубочку. Если же раскрыть рот, то снова получим А. Попробуйте, произносите другие гласные, согласные и вы поймете, что голос никак не меняется от типа произносимого звука. А вот если вы проговорите что-нибудь шепотом, то ваш шепот будет неотличим от чьего-либо другого.

Таким образом, задача упростилась к минимуму - собираем простейший вокодер и модулируем голос (протяжное А) жертвы своей речью и получаем примерно то что хотели.
Как вариант используем синтетический звук - в программе-говорилке подбираем необходимый тембр и скорость речи. Но это имxo уход от темы, т.к. задача стоит в изменении голоса в реальном времени.
Существую программы - вокодеры, изменялки речи(Rave Karaoke например), обрабатывающие голос, правда, с небольшой задержкой.

Вот что я подумал - а если поставить делитель частоты на выходе? получим ту же скорость, но более низкий тон голоса? или как?

Вот что я подумал - а если поставить делитель частоты на выходе? получим ту же скорость, но более низкий тон голоса? или как?

Думаю вы правы

Существую программы - вокодеры, изменялки речи(Rave Karaoke например), обрабатывающие голос, правда, с небольшой задержкой.

Может разобраться как они действуют. Мне надо без компа.

Тогда- только аналоговая обработка- сдвиг спектра и фиксированные предустановки эквалайзера на заданный голос. Эквалайзер- не проблема, схем до.... короче, вам по пояс.

эквалайзер, мой уважаемый собутыльник, нам здесь не поможет!
Предлагаю всем очередной эксперимент: берем запись своего голоса и подгружаем в винамп. Начинаем крутить до безобразия эквалайзер. Ессно замечает, что вырезаются некоторые частоты, ну при этом гармоники на других частотах не меняются, и голос, чей бы он ни был, будет узнаваем.
Вот решение: записываем своё А, записываем какую-нить фразу. "Вычитыаем" из фразы А и получаем огибающую (правильно это называется?) Потом суммируем полученную фигню и А жертвы и получаем именно то что мы хотели. Но при этом, как все уже поняли, при записи фразы нужно стараться передать манеру речи, чтобы результат не был отличим от оригинала речи.

Думаю провернуть сей занимательный трюк в СаундФорже, но не знаю, как вычитать друг из друга сигналы. Кто подскажет?

Что касается других программ, как РэйвКараоке, то в них происходит примерно то, что описано выше (голос Робота например). А большинство эффектов вообще представляют собой эхо, реверберацию и хорус, т.к. голос не изменяется.

А я то считал, что многополосным профессиональным эквалайзером на 20 полос можно вырезать или наоборот- выпятить гармоники после полосы 300...3000 гц.....

А что скажет Собутыльник по поводу АТАКИ формант голоса?

Форум РадиоКот

Схема изменения голоса

Схема изменения голоса