Схема изменения голоса
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
- Реклама
-
Боб
Преобразователь голоса
Такие штуки существуют. Сам видал в каком-то американском фильме.
Как мне кажется, для преобразования голоса нужно/можно использовать вокодер или формантный синтез. Человеческий голос по частотам разбивать недостаточно — слишком сложное это явление.
Как мне кажется, для преобразования голоса нужно/можно использовать вокодер или формантный синтез. Человеческий голос по частотам разбивать недостаточно — слишком сложное это явление.
-
Оne
Преобразователь голоса
Давно интересно, как работают транспозеры на современных звуковухах. Там в реальном времени можно изменять голос-музыку на октавы, получая результат от "бубниста" (тот кто бубнит
), до голоса Масяни. Вроде процессор Creativ наваян на звуковухе.
Последний раз редактировалось Оne Пн янв 01, 2007 16:02:43, всего редактировалось 1 раз.
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
- WildCat
- Собутыльник Сэра Мурра
- Сообщения: 2918
- Зарегистрирован: Вт янв 10, 2006 00:26:45
- Откуда: Челябинск
Re: Преобразователь голоса
Боб писал(а):Такие штуки существуют. Сам видал в каком-то американском фильме.
Как мне кажется, для преобразования голоса нужно/можно использовать вокодер или формантный синтез. Человеческий голос по частотам разбивать недостаточно — слишком сложное это явление.
Ну в американских фильмах и не такое можно увидеть. А в фильмах про Бонда - молчу вообще.
Собутыльник моу дорогой! Эквалайзером можно выпучить/впучить полосу гармоник, а не изменить их. Я же предлагал провести эксперимент чтобы убедиться в этом - результат: голос узнаваем при любых настройках эквалайзера. Но можно изменить несущую с гармониками, а потом нашим эквалайзером подгонять голос - типа хриплый, глухой, звонкий и т.д.
кстати, у нас вопрос идет не о синтезе речи, а лишь её изменении в реальном времени!
- Реклама
- Сэр Мурр
- Модератор
- Сообщения: 11169
- Зарегистрирован: Чт окт 27, 2005 18:50:07
- Откуда: из мест не столь отдалённых
Так и я вроде же об этом. На тембральные характеристки и его узнаваемость существенное влияние оказывает время нарастания фронта сигнала- атака звука. Спад фронта не столь существен. Смутно вспоминаю об этом по дремучей книге Володина- одного из первых конструкторов ЭМИ у нас в стране. Если найдёте его книгу- будет здорово, её можно отнести к первоисточникам. 
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
- Сэр Мурр
- Модератор
- Сообщения: 11169
- Зарегистрирован: Чт окт 27, 2005 18:50:07
- Откуда: из мест не столь отдалённых
Радиогубитель! писал(а):Название книги не подскажите?
Поищу
Название- не могу сказать точно, но что-то связанное с конструированием ЭМИ.
Шипящие и характеризуются высокой скоростью нарастания, и это чувствуется при перегоне речи из аудио в МП3, я для себя уяснил, что для этого битрейт 128к минимально необходимый. Если предварительно поставить фильтр, наверно можно и битрейт понизить.
С гласными действительно проще, близко к чистому тону.
-
Гость
Гласные действительно представляют собой "несущую" частоту с гармониками. Но из-за сокращения мускулатуры гортани возникает нч модуляция 0,1-2 Гц, проявляющаяся в виде "покачивания" голоса. Но это не столь важно для нас, так как все это не сильно заметно.
А вот проблема с шипящими звуками возникает довольно острая. Дело в том, что в момент их произнесения голос "отключается" и мы слышим шипение воздуха, проходящего через препятствия - язык, зубы... Сама проблема - отключение генератора несущей на момент произношения этих звуков.
Выходит, мы должны слушать только "огибающую"? она же в инфразвуковом диапазоне! нам нужно сделать исключение в придуманном методе несущая А+модуляция?
А вот проблема с шипящими звуками возникает довольно острая. Дело в том, что в момент их произнесения голос "отключается" и мы слышим шипение воздуха, проходящего через препятствия - язык, зубы... Сама проблема - отключение генератора несущей на момент произношения этих звуков.
Выходит, мы должны слушать только "огибающую"? она же в инфразвуковом диапазоне! нам нужно сделать исключение в придуманном методе несущая А+модуляция?
- Мышонок
- Друг Кота
- Сообщения: 3792
- Зарегистрирован: Чт сен 14, 2006 11:42:09
- Откуда: Обитаю на чердаке
- Контактная информация:
А я то думал, что это за гость к нам пожаловал?
Книжка была в ≈1990г. "Компьютеры-синттезаторы речи". Там довольно подробно расписывалось, как речь получается, её характеристики и т.д. По-моему, она и здесь есть: http://www.radiokot.ru/forum/viewtopic.php?t=466 .
Книжка была в ≈1990г. "Компьютеры-синттезаторы речи". Там довольно подробно расписывалось, как речь получается, её характеристики и т.д. По-моему, она и здесь есть: http://www.radiokot.ru/forum/viewtopic.php?t=466 .
Память очень интересная штука: бывает так, что запомнишь одно, а вспомнишь другое...
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
Кто то сочтёт мой вопрос не по теме - но как происходит распознавание голоса?
Разве не теми же пресловутыми фильтрами?
Значит есть "несущая"
Нашёл прогу:
AV VCS 3.0
http://softsearch.ru/programs/147-298-av-vcs-download.shtml
Программа позволяет менять голоса людей. Позволяет поменять голос любого человека или заставить исполнителя песни петь ее чужим голосом. Изменения можно производить в режиме реального времени, проигрывая компакт-диск или MP3
Разве не теми же пресловутыми фильтрами?
Значит есть "несущая"
Нашёл прогу:
AV VCS 3.0
http://softsearch.ru/programs/147-298-av-vcs-download.shtml
Программа позволяет менять голоса людей. Позволяет поменять голос любого человека или заставить исполнителя песни петь ее чужим голосом. Изменения можно производить в режиме реального времени, проигрывая компакт-диск или MP3
- Мышонок
- Друг Кота
- Сообщения: 3792
- Зарегистрирован: Чт сен 14, 2006 11:42:09
- Откуда: Обитаю на чердаке
- Контактная информация:
Хватит изобретать "порох непромокаемый". Есть нормальная терминология:
Формантная частота (у нас похоже именно её и тянет обозвать "Несущей") - различные резонансные частоты полостей голосовго тракта. Для речи требуется 3-4 формантные частоты. Они обычно лежат в диапазоне от 200 (1-я форманта мужского голоса) до 2000 Гц (3-я форманта женского голоса). Точным расположением формантных частот в звуковом спектре и определяется звук, который мы интерпретируем как речь.
© Кейтер Дж.
Компьютеры - синтезаторы речи, М.:Мир, 1985
Формантная частота (у нас похоже именно её и тянет обозвать "Несущей") - различные резонансные частоты полостей голосовго тракта. Для речи требуется 3-4 формантные частоты. Они обычно лежат в диапазоне от 200 (1-я форманта мужского голоса) до 2000 Гц (3-я форманта женского голоса). Точным расположением формантных частот в звуковом спектре и определяется звук, который мы интерпретируем как речь.
© Кейтер Дж.
Компьютеры - синтезаторы речи, М.:Мир, 1985
Память очень интересная штука: бывает так, что запомнишь одно, а вспомнишь другое...
- WildCat
- Собутыльник Сэра Мурра
- Сообщения: 2918
- Зарегистрирован: Вт янв 10, 2006 00:26:45
- Откуда: Челябинск
ну хоть что-то проясняется
а по какому принципу тогда работает вышеуказанная программа? видимо, по замене тех самых формант. так не проще ли тогда реализовать это же аппаратно?
видел где-то на просторах сети шпионское устройство, оно представляло собой маленькую коробочку с разьемом RJ-4 и проводком, втыкалась она между телефонной трубкой и телефоном, меняла тембр голоса, чтобы он не узнавался.
Вот чудо техники, а? то же самое и мы пытаемся сделать?
видел где-то на просторах сети шпионское устройство, оно представляло собой маленькую коробочку с разьемом RJ-4 и проводком, втыкалась она между телефонной трубкой и телефоном, меняла тембр голоса, чтобы он не узнавался.
Вот чудо техники, а? то же самое и мы пытаемся сделать?
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
Исказить думается это просто.
А вот поменять на заведомо нужный - это сложнее.
Насколько я знаю даже сегодня высшего качества реализма в компьютерном синтезировании речи добиться практически невозможно.
По телеку как то видел - человек поёт абсолютно противным голосом в микрофон, а потом его голос обрабатывают и получается вполне приятный результат. Думаю многие артисты этим пользуются.
Но опять же - в реальном времени, аппаратно.
А вот поменять на заведомо нужный - это сложнее.
Насколько я знаю даже сегодня высшего качества реализма в компьютерном синтезировании речи добиться практически невозможно.
По телеку как то видел - человек поёт абсолютно противным голосом в микрофон, а потом его голос обрабатывают и получается вполне приятный результат. Думаю многие артисты этим пользуются.
Но опять же - в реальном времени, аппаратно.
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
- Радиогубитель!
- Первый раз сказал Мяу!
- Сообщения: 20
- Зарегистрирован: Сб дек 30, 2006 21:16:10
- Контактная информация:
Из мальчика - девочку и наоборот
В пакете Waves Platinum Native Bundle 4 имеются плагины, предназначенные для сдвига высоты тона.
Плагин UltraPitch Shift позволяет корректировать высоту тона. Такая задача нередко возникает, когда песня исполняется человеком, не обладающим хорошим слухом. Алгоритм сдвига тона состоит из двух основных шагов. Прежде всего, необходимо измерить исходную текущую высоту тона (выполнить детектирование, или распознавание тона). Затем нужно рассчитать величину необходимого сдвига высоты.
При обработке стереофонического материала плагином UltraPitch распознавание высоты тона производится по сигналу левого канал. Собственно распознавание - процесс, по существу, монофонический.
Высота тона - субъективное свойство простого или сложного тона, позволяющее слуху человека сопоставить ей позицию на шкале частоты. Например, высота тона звука трубы, на которой исполняется нота A4 (ля), соответствует основной частоте 440 Гц, даже при условии, что такой звук содержит много других частот (гармоник). Корректная работа плагинов, подобных UltraPitch, возможна только в том случае, когда на его вход подается тональный звук. Атональные звуки, в которых нет никакой распознаваемой высоты тона (звуки ударов, взрывов, выстрелов, а также шум, шипение) непригодны для обработки плагином.
Применять плагин есть смысл только к единственному голосу (вокалиста или реального музыкального инструмента). Дело в том, что плагином может быть отслежена только одна входная высота тона. Если поют несколько человек, то обработка плагином UltraPitch приведет не к исправлению тональных погрешностей, а к ухудшению качества звучания голосов. Работа алгоритм построена так, что обрабатываемый сигнал считается высотной линией единственного голоса, которую и требуется отследить. Даже эта задача с трудом поддается автоматизации (нельзя забывать, что в реальных условиях редко встречаются чистые тона, как правило, звуки имеют насыщенный тембр, а спектр, кроме основной частоты, содержит ее гармоники, субгармоники и их комбинации), а уж выделить определенный голос на фоне голосов других людей пока под силу только человеку.
Для любого источника звука характерно наличие нескольких областей резонансных частот, которые называют формантными частотами или просто формантами. Форманты зависят от конструкции, формы и размеров источника, создающего звук (певец, акустическая система, гитара, труба и т. д.), а также от акустических свойств материалов (веществ), из которых источник "выполнен". Различают индивидуальные формантные свойства и свойства, общие для определенного класса источников звука. Например, все женские голоса содержат характерные форманты, причем они отличаются от формант мужских голосов. Вместе с тем, в тонких структурах формант голосов двух вокалисток также обязательно имеются индивидуальные отличия.
Если взять какого-либо конкретного исполнителя, то можно заметить, что частоты формант мало зависят от того, в какой тональности он поет (если, конечно, он специально не предпринимает усилий для изменений свойств "резонансной системы" своего голосового аппарата).
Из сказанного следует вывод, что в алгоритме коррекции тона должны быть предусмотрены операции, позволяющие сохранить неизменным формантные свойства обрабатываемого материала. В противном случае после обработки звука возникнет впечатление, будто правильно взятые ноты исполнил один человек, а скорректированные - другой.
В целях получения специальных эффектов (например, "смены пола" исполнителя), напротив, необходимо иметь средства для сдвига формантных частот и изменения тембра звука.
с http://ww.petelin.ru/pcmagic/waves/waves5.htm
В пакете Waves Platinum Native Bundle 4 имеются плагины, предназначенные для сдвига высоты тона.
Плагин UltraPitch Shift позволяет корректировать высоту тона. Такая задача нередко возникает, когда песня исполняется человеком, не обладающим хорошим слухом. Алгоритм сдвига тона состоит из двух основных шагов. Прежде всего, необходимо измерить исходную текущую высоту тона (выполнить детектирование, или распознавание тона). Затем нужно рассчитать величину необходимого сдвига высоты.
При обработке стереофонического материала плагином UltraPitch распознавание высоты тона производится по сигналу левого канал. Собственно распознавание - процесс, по существу, монофонический.
Высота тона - субъективное свойство простого или сложного тона, позволяющее слуху человека сопоставить ей позицию на шкале частоты. Например, высота тона звука трубы, на которой исполняется нота A4 (ля), соответствует основной частоте 440 Гц, даже при условии, что такой звук содержит много других частот (гармоник). Корректная работа плагинов, подобных UltraPitch, возможна только в том случае, когда на его вход подается тональный звук. Атональные звуки, в которых нет никакой распознаваемой высоты тона (звуки ударов, взрывов, выстрелов, а также шум, шипение) непригодны для обработки плагином.
Применять плагин есть смысл только к единственному голосу (вокалиста или реального музыкального инструмента). Дело в том, что плагином может быть отслежена только одна входная высота тона. Если поют несколько человек, то обработка плагином UltraPitch приведет не к исправлению тональных погрешностей, а к ухудшению качества звучания голосов. Работа алгоритм построена так, что обрабатываемый сигнал считается высотной линией единственного голоса, которую и требуется отследить. Даже эта задача с трудом поддается автоматизации (нельзя забывать, что в реальных условиях редко встречаются чистые тона, как правило, звуки имеют насыщенный тембр, а спектр, кроме основной частоты, содержит ее гармоники, субгармоники и их комбинации), а уж выделить определенный голос на фоне голосов других людей пока под силу только человеку.
Для любого источника звука характерно наличие нескольких областей резонансных частот, которые называют формантными частотами или просто формантами. Форманты зависят от конструкции, формы и размеров источника, создающего звук (певец, акустическая система, гитара, труба и т. д.), а также от акустических свойств материалов (веществ), из которых источник "выполнен". Различают индивидуальные формантные свойства и свойства, общие для определенного класса источников звука. Например, все женские голоса содержат характерные форманты, причем они отличаются от формант мужских голосов. Вместе с тем, в тонких структурах формант голосов двух вокалисток также обязательно имеются индивидуальные отличия.
Если взять какого-либо конкретного исполнителя, то можно заметить, что частоты формант мало зависят от того, в какой тональности он поет (если, конечно, он специально не предпринимает усилий для изменений свойств "резонансной системы" своего голосового аппарата).
Из сказанного следует вывод, что в алгоритме коррекции тона должны быть предусмотрены операции, позволяющие сохранить неизменным формантные свойства обрабатываемого материала. В противном случае после обработки звука возникнет впечатление, будто правильно взятые ноты исполнил один человек, а скорректированные - другой.
В целях получения специальных эффектов (например, "смены пола" исполнителя), напротив, необходимо иметь средства для сдвига формантных частот и изменения тембра звука.
с http://ww.petelin.ru/pcmagic/waves/waves5.htm
- aen
- Модератор
- Сообщения: 11940
- Зарегистрирован: Пт апр 28, 2006 15:26:07
- Откуда: Россия.
- Контактная информация:
Радиогубитель! писал(а):Может разобраться как они действуют. Мне надо без компа.
Очень просто действуют. Это можно проверить принимая приёмником SSB сигнал. Однополосный, если кто не знает. Вот по этому принципу можно сделать аналоговый вокодёр. На какой-то высокой частоте ~100-500 кгц получить однополосный сигнал, далее на SSB детектор. Двигая несущюю, подаваемую на детектор в каких-то пределах, будем менять спектр голоса.


