Распознавание речи (Speech Recognition) Горыныч / Диктограф - [2] :: Программы

Цитата:

Главные трудности фонемного подхода

1. Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат "м", "н", "л" и "р". Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например "б", "п", "д", "т". Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать "в", "ж", "с", а также "ш" и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала.

2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала (см. примеры спектрограмм).

3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

4. Проблема кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки "слипаются" либо имеют нечеткие границы.

Вот лишь некоторые причины, препятствующие реализации систем распознавания речи.

Это лишь небольшая цитатка из неплохой статью, дядьки, который этим вроде не один год занимается, даже вроде ученый какой-то...
Если заинтересовало, выложу куда-нибудь!

Добавлено
savage2000
Хорошо распознается английский, причем почти любыми программами перечисленными здесь! Бери Dragon Dictate какой-нибудь и вперед....

Добавлено

Цитата:

Dragon Naturally Speaking Personal Edition. v.1.0
Как утверждает Dragon Systems Inc. - это первая в мире система распознавания беглой речи (датируется она 1997 годом). То есть с ее помощью можно набирать тексты на компьютере, просто диктуя иx так, как Вы обычно говорите - с интонацией, не разделяя слова и т.д. Судя по демонстрационному ролику, вещь просто фантастическая! Целое предложение здесь формируется не по отдельным словам, а в процессе диктовки. Нужные слова подставляются исxодя из контекста. Все манипуляции с текстом производятся голосом. Создается впечатление, что система понимает все, что ей говоришь, xоть основана она, конечно, на Dragon Dictate, и основной набор команд остался таким же.

Это древнее описание Dragon'a... с тех времен когда еще 32Мб оперативки за счастье было! Делаем выводы о распознавании английской речи!...
Увы наши программеры таким похвастаться не могут!
И не надо тыкать программами, которые распознают отдельные слова!

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7