KostiKL
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: Главные трудности фонемного подхода 1. Темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными. Например, так обычно звучат "м", "н", "л" и "р". Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например "б", "п", "д", "т". Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Можно назвать "в", "ж", "с", а также "ш" и другие шипящие. В качестве примеров для простоты намеренно не приведены звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала. 2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала (см. примеры спектрограмм). 3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу. 4. Проблема кластеризации слитной речи. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки "слипаются" либо имеют нечеткие границы. Вот лишь некоторые причины, препятствующие реализации систем распознавания речи. | Это лишь небольшая цитатка из неплохой статью, дядьки, который этим вроде не один год занимается, даже вроде ученый какой-то... Если заинтересовало, выложу куда-нибудь! Добавлено savage2000 Хорошо распознается английский, причем почти любыми программами перечисленными здесь! Бери Dragon Dictate какой-нибудь и вперед.... Добавлено Цитата: Dragon Naturally Speaking Personal Edition. v.1.0 Как утверждает Dragon Systems Inc. - это первая в мире система распознавания беглой речи (датируется она 1997 годом). То есть с ее помощью можно набирать тексты на компьютере, просто диктуя иx так, как Вы обычно говорите - с интонацией, не разделяя слова и т.д. Судя по демонстрационному ролику, вещь просто фантастическая! Целое предложение здесь формируется не по отдельным словам, а в процессе диктовки. Нужные слова подставляются исxодя из контекста. Все манипуляции с текстом производятся голосом. Создается впечатление, что система понимает все, что ей говоришь, xоть основана она, конечно, на Dragon Dictate, и основной набор команд остался таким же. | Это древнее описание Dragon'a... с тех времен когда еще 32Мб оперативки за счастье было! Делаем выводы о распознавании английской речи!... Увы наши программеры таким похвастаться не могут! И не надо тыкать программами, которые распознают отдельные слова! |