Схема изменения голоса

Радиогубитель!

Очень хотелось бы узнать итог эксперимента.

Реклама

Боб

Такие штуки существуют. Сам видал в каком-то американском фильме.
Как мне кажется, для преобразования голоса нужно/можно использовать вокодер или формантный синтез. Человеческий голос по частотам разбивать недостаточно — слишком сложное это явление.

Реклама

Оne

Давно интересно, как работают транспозеры на современных звуковухах. Там в реальном времени можно изменять голос-музыку на октавы, получая результат от "бубниста" (тот кто бубнит

), до голоса Масяни. Вроде процессор Creativ наваян на звуковухе.

Радиогубитель!

А подробнее БОБ

Реклама

Боб писал(а):Такие штуки существуют. Сам видал в каком-то американском фильме.
Как мне кажется, для преобразования голоса нужно/можно использовать вокодер или формантный синтез. Человеческий голос по частотам разбивать недостаточно — слишком сложное это явление.

Ну в американских фильмах и не такое можно увидеть. А в фильмах про Бонда - молчу вообще.

Собутыльник моу дорогой! Эквалайзером можно выпучить/впучить полосу гармоник, а не изменить их. Я же предлагал провести эксперимент чтобы убедиться в этом - результат: голос узнаваем при любых настройках эквалайзера. Но можно изменить несущую с гармониками, а потом нашим эквалайзером подгонять голос - типа хриплый, глухой, звонкий и т.д.

кстати, у нас вопрос идет не о синтезе речи, а лишь её изменении в реальном времени!

Реклама

Так и я вроде же об этом. На тембральные характеристки и его узнаваемость существенное влияние оказывает время нарастания фронта сигнала- атака звука. Спад фронта не столь существен. Смутно вспоминаю об этом по дремучей книге Володина- одного из первых конструкторов ЭМИ у нас в стране. Если найдёте его книгу- будет здорово, её можно отнести к первоисточникам.

Реклама

Радиогубитель!

Название книги не подскажите?
Поищу

Радиогубитель!

Мне кажется нарастания и спады - это рпесловутые шумы - если вы о согласных.
Гласные мне представляются исключительно частотами - без всякого "мусора"

Радиогубитель! писал(а):Название книги не подскажите?
Поищу

Название- не могу сказать точно, но что-то связанное с конструированием ЭМИ.
Шипящие и характеризуются высокой скоростью нарастания, и это чувствуется при перегоне речи из аудио в МП3, я для себя уяснил, что для этого битрейт 128к минимально необходимый. Если предварительно поставить фильтр, наверно можно и битрейт понизить.
С гласными действительно проще, близко к чистому тону.

Гость

Гласные действительно представляют собой "несущую" частоту с гармониками. Но из-за сокращения мускулатуры гортани возникает нч модуляция 0,1-2 Гц, проявляющаяся в виде "покачивания" голоса. Но это не столь важно для нас, так как все это не сильно заметно.
А вот проблема с шипящими звуками возникает довольно острая. Дело в том, что в момент их произнесения голос "отключается" и мы слышим шипение воздуха, проходящего через препятствия - язык, зубы... Сама проблема - отключение генератора несущей на момент произношения этих звуков.
Выходит, мы должны слушать только "огибающую"? она же в инфразвуковом диапазоне! нам нужно сделать исключение в придуманном методе несущая А+модуляция?

млин, только что заметил, что не авторизовался

та мессага моя

Мышонок

А я то думал, что это за гость к нам пожаловал?

Книжка была в ≈1990г. "Компьютеры-синттезаторы речи". Там довольно подробно расписывалось, как речь получается, её характеристики и т.д. По-моему, она и здесь есть: http://www.radiokot.ru/forum/viewtopic.php?t=466 .

Радиогубитель!

Кто то сочтёт мой вопрос не по теме - но как происходит распознавание голоса?
Разве не теми же пресловутыми фильтрами?
Значит есть "несущая"

Нашёл прогу:
AV VCS 3.0
http://softsearch.ru/programs/147-298-a ... load.shtml

Программа позволяет менять голоса людей. Позволяет поменять голос любого человека или заставить исполнителя песни петь ее чужим голосом. Изменения можно производить в режиме реального времени, проигрывая компакт-диск или MP3

Мышонок

Хватит изобретать "порох непромокаемый". Есть нормальная терминология:

Формантная частота (у нас похоже именно её и тянет обозвать "Несущей") - различные резонансные частоты полостей голосовго тракта. Для речи требуется 3-4 формантные частоты. Они обычно лежат в диапазоне от 200 (1-я форманта мужского голоса) до 2000 Гц (3-я форманта женского голоса). Точным расположением формантных частот в звуковом спектре и определяется звук, который мы интерпретируем как речь.
© Кейтер Дж.
Компьютеры - синтезаторы речи, М.:Мир, 1985

ну хоть что-то проясняется

а по какому принципу тогда работает вышеуказанная программа? видимо, по замене тех самых формант. так не проще ли тогда реализовать это же аппаратно?
видел где-то на просторах сети шпионское устройство, оно представляло собой маленькую коробочку с разьемом RJ-4 и проводком, втыкалась она между телефонной трубкой и телефоном, меняла тембр голоса, чтобы он не узнавался.
Вот чудо техники, а? то же самое и мы пытаемся сделать?

Радиогубитель!

Исказить думается это просто.
А вот поменять на заведомо нужный - это сложнее.
Насколько я знаю даже сегодня высшего качества реализма в компьютерном синтезировании речи добиться практически невозможно.

По телеку как то видел - человек поёт абсолютно противным голосом в микрофон, а потом его голос обрабатывают и получается вполне приятный результат. Думаю многие артисты этим пользуются.
Но опять же - в реальном времени, аппаратно.

Радиогубитель!

Нашёл прогу:
AV VCS 3.0
http://softsearch.ru/programs/147-298-a ... load.shtml

Прога кстати фигня полная.
6 метров абсолютно не оправданны.
В программах подобно этой меняется вся музыка - не только речь - поэтому ясно что прото сдвигают тембр.

Радиогубитель!

Из мальчика - девочку и наоборот

В пакете Waves Platinum Native Bundle 4 имеются плагины, предназначенные для сдвига высоты тона.

Плагин UltraPitch Shift позволяет корректировать высоту тона. Такая задача нередко возникает, когда песня исполняется человеком, не обладающим хорошим слухом. Алгоритм сдвига тона состоит из двух основных шагов. Прежде всего, необходимо измерить исходную текущую высоту тона (выполнить детектирование, или распознавание тона). Затем нужно рассчитать величину необходимого сдвига высоты.

При обработке стереофонического материала плагином UltraPitch распознавание высоты тона производится по сигналу левого канал. Собственно распознавание - процесс, по существу, монофонический.

Высота тона - субъективное свойство простого или сложного тона, позволяющее слуху человека сопоставить ей позицию на шкале частоты. Например, высота тона звука трубы, на которой исполняется нота A4 (ля), соответствует основной частоте 440 Гц, даже при условии, что такой звук содержит много других частот (гармоник). Корректная работа плагинов, подобных UltraPitch, возможна только в том случае, когда на его вход подается тональный звук. Атональные звуки, в которых нет никакой распознаваемой высоты тона (звуки ударов, взрывов, выстрелов, а также шум, шипение) непригодны для обработки плагином.

Применять плагин есть смысл только к единственному голосу (вокалиста или реального музыкального инструмента). Дело в том, что плагином может быть отслежена только одна входная высота тона. Если поют несколько человек, то обработка плагином UltraPitch приведет не к исправлению тональных погрешностей, а к ухудшению качества звучания голосов. Работа алгоритм построена так, что обрабатываемый сигнал считается высотной линией единственного голоса, которую и требуется отследить. Даже эта задача с трудом поддается автоматизации (нельзя забывать, что в реальных условиях редко встречаются чистые тона, как правило, звуки имеют насыщенный тембр, а спектр, кроме основной частоты, содержит ее гармоники, субгармоники и их комбинации), а уж выделить определенный голос на фоне голосов других людей пока под силу только человеку.

Для любого источника звука характерно наличие нескольких областей резонансных частот, которые называют формантными частотами или просто формантами. Форманты зависят от конструкции, формы и размеров источника, создающего звук (певец, акустическая система, гитара, труба и т. д.), а также от акустических свойств материалов (веществ), из которых источник "выполнен". Различают индивидуальные формантные свойства и свойства, общие для определенного класса источников звука. Например, все женские голоса содержат характерные форманты, причем они отличаются от формант мужских голосов. Вместе с тем, в тонких структурах формант голосов двух вокалисток также обязательно имеются индивидуальные отличия.

Если взять какого-либо конкретного исполнителя, то можно заметить, что частоты формант мало зависят от того, в какой тональности он поет (если, конечно, он специально не предпринимает усилий для изменений свойств "резонансной системы" своего голосового аппарата).

Из сказанного следует вывод, что в алгоритме коррекции тона должны быть предусмотрены операции, позволяющие сохранить неизменным формантные свойства обрабатываемого материала. В противном случае после обработки звука возникнет впечатление, будто правильно взятые ноты исполнил один человек, а скорректированные - другой.

В целях получения специальных эффектов (например, "смены пола" исполнителя), напротив, необходимо иметь средства для сдвига формантных частот и изменения тембра звука.

с http://ww.petelin.ru/pcmagic/waves/waves5.htm

Сообщение **aen** » Пт янв 05, 2007 10:46:52

Радиогубитель! писал(а):Может разобраться как они действуют. Мне надо без компа.

Очень просто действуют. Это можно проверить принимая приёмником SSB сигнал. Однополосный, если кто не знает. Вот по этому принципу можно сделать аналоговый вокодёр. На какой-то высокой частоте ~100-500 кгц получить однополосный сигнал, далее на SSB детектор. Двигая несущюю, подаваемую на детектор в каких-то пределах, будем менять спектр голоса.

Была такая конструкция в ж-ле "Радио", в 80-х годах. Автор- Валдемар Кетнерс