Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 748 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    Sylvia



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    valuevmikael
    чтоб размер файлов был примерно одинаковым, нужно убрать галочку с пункта "разрезать по оглавлению". Высылаю настройки - http://ifolder.ru/9452709, с которыми записываю, все аккуратно конвертится в мр3, wav-ов нету

    Всего записей: 118 | Зарегистр. 17-11-2005 | Отправлено: 22:35 08-12-2008
    valuevmikael



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Sylvia
    Спасибо, разобрался, хорошая прога.  
    Не могу добиться стабильной работы версии KooBAudio_0_7_07. Регулярно вылетает на этапе wav-mp3 конверсии (winXP) . Пришлось откатить на KooBAudio_0_7_00. Эта версия постабильней, но тоже иногда не заканчивает дело и остаются несконвертированными wav файлы. Похоже некорректная работа с ламой.  Пытаюсь подобрать ламу постабильней.  
    С какой скоростью у тебя идет работа. На P4 3Гц, с Аленкой скорость конвертирования   получилась около 10x. На Катерине с кулридером  я получал до 40x.  

    Всего записей: 1193 | Зарегистр. 06-01-2008 | Отправлено: 09:35 09-12-2008
    Sylvia



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    valuevmikael

    Цитата:
    Не могу добиться стабильной работы версии KooBAudio_0_7_07.

    Странно У меня работает.

    Цитата:
    Похоже некорректная работа с ламой.

    У меня версия от 26.07.2004, 183 кб.  

    Цитата:
    С какой скоростью у тебя идет работа. На P4 3Гц

    на 2,66гГц книга общим звучанием 4ч 15мин 37с записалась за 7 мин36с, получается около х33 (если не ошибаюсь). Но чаще вообще-то я записываю мр3буком...
     
     
     

    Всего записей: 118 | Зарегистр. 17-11-2005 | Отправлено: 15:43 09-12-2008
    valuevmikael



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Sylvia
    Поисследовал  KooBAudio 07 с Аленкой на разных машинах в разных режимах и с разными кодеками.
     
    KooBAudio 0707 не любит гипертрейдинга.  Заваливается стабильно на втором файле.  
    На двухядернике чувствует себя неплохо. На 3 гГц скорость кодирования около 50х.
    KooBAudio 0700 на всех машинах работает неплохо.
     
    Для записи книг, лучше всего подходит режим VBR9. Качество звука ощутимо лучше чем у CBR32. Скорость кодирования примерно такая же. Размер файла чуточку больше (от 2 до 10%)
     
    Перебрал с десяток лам. Выбрал версию 3.95 MMX. У нее в режиме VBR самый маленький файл, примерно на 2 % больше, чем  у CBR32.  

    Всего записей: 1193 | Зарегистр. 06-01-2008 | Отправлено: 20:26 09-12-2008
    Wasil

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Попробывал все голоса и проги для озвучки. Слушаю в mp3 плеере.
    Выводы:
    1. Голос наиболее подходящий - Алена.
    2. Программа для прослушивания - AudioBook.
    MP3BOOKом пользовался довольно долго, но в последних версиях пошли глюки.
    AudioBook простая программа. Нарезаю текст при озвучки на файлы по 3 минуты(удобнее искать где слушал). Единственное неудобство, что название файлов формирует сама программа по номеру первого символа текста, приходится переименовывать TotalComanderом.

    Всего записей: 11 | Зарегистр. 18-07-2006 | Отправлено: 14:26 12-12-2008
    Waasja

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    evilone666:
     
     Balabolka по умолчанию игнорирует регистр букв в словарях замен (.dic) и поэтому наличие строчки Руки=РУки приводит к тому, что предложение "Ричард Длинные Руки, благородный рыцарь, а теперь уже и феодал средней руки, спешит на турнир." превращается в "Ричард Длинные Руки, благородный рыцарь, а теперь уже и феодал средней РУки, спешит на турнир.", т.е. проставляется неправильное ударение.
     Как я понимаю задумка была такая чтобы проставить правильное ударение в омографе "руки", находящимся в начале предложения.
     Указанем для Balabolk-и различать регистр букв является символ "$".
     Т.е. чтобы в словаре замен нужна строчка "$Руки=РУки". Тогда ета строчка будет срабатывать только при нахождении в тексте слова "Руки" (начинается с большой буквы).
     
    В dic-словарях, которые выложены на http://tts-alenka.narod.ru/ достаточно много таких строчек, где необходимо добавить "$".

    Всего записей: 16 | Зарегистр. 23-01-2008 | Отправлено: 08:03 17-12-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Кто-нибудь может сделать ActiveX dll для извлечения фонемной транскрипции Ольги для текстовой строки?

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 21:24 17-12-2008
    joktar

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    у той же Ольги-есть engine,есть поддержка русского и есть сама Ольга(голос),раздельными пакетами.
    А где достать поддержку английского Loquendo 7-й версии?
    Голос (Allison American English female) я нашел, но с модуле поддержки языка(English distribution) - глухо. А без него-синтез на английском не работает. (использовать SAPI и другой движок для английского-сильно не хочется)
     
     

    Всего записей: 131 | Зарегистр. 24-10-2004 | Отправлено: 10:22 19-12-2008
    MoskinS



    Newbie
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Подскажите, где можно взять нормальный словарь для Ольги. МОжно использовать словари от Николая, но там порой получается просто каша. некорреткно читается и т.п.

    Всего записей: 22 | Зарегистр. 09-09-2007 | Отправлено: 00:50 26-12-2008
    astashov



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Ребята, а есть ли TTS под линукс консольный, чтоб можно было как-то передать ему текст, а он построил файл и отдал его? Есть задумка попробывать что-то вроде авто ответа при определенных обстоятельствах. Или я ни там спрашиваю это?

    Всего записей: 84 | Зарегистр. 14-09-2006 | Отправлено: 11:47 08-02-2009
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    astashov
    Здесь попробуй, может чего и пригодится. Вообще-то и другие производители под сервера делают - но так сразу не найду. Поройся там на начальной странице по поставщикам...

    Всего записей: 748 | Зарегистр. 10-11-2005 | Отправлено: 04:12 09-02-2009 | Исправлено: vikkiv, 04:14 09-02-2009
    astashov



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    vikkiv

    Цитата:
    Здесь попробуй, может чего и пригодится. Вообще-то и другие производители под сервера делают - но так сразу не найду. Поройся там на начальной странице по поставщикам...

     
    Да в принципе посмотрел еще до твоего поста, только вот я там что-то руского голоса не нашел. Может можно как-то к Cepstral русский голос прикрутить?

    Всего записей: 84 | Зарегистр. 14-09-2006 | Отправлено: 19:16 15-02-2009
    Legos

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Был бы благодарен за пояснение в чем дело:
    Скачал Алену.
    При установке на лицензионные и не лецензионные Винды (виста, хрюн)выдается сообщение (с переводом в Промте):
     
    ----
    The contents of this file cannot be unpacked. The executable you are attempting to run has been corrupted.
    Please obtain another copy of the file, verifi its integrite, and try again
     
     
    Содержание этого файла не может быть распаковано. Выполнимое, которым Вы пытаетесь управлять, было развращено. Пожалуйста получите другую копию файла, проверьте его целостность, и попробуйте еще раз
    ---
    Что за хрень и как с эти бороться ?

    Всего записей: 17 | Зарегистр. 15-11-2006 | Отправлено: 01:33 17-02-2009
    Rodny



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Legos
    Значит, при скачивании произошла ошибка, файл повреждён. Нужно качать заново.

    Всего записей: 2877 | Зарегистр. 28-07-2006 | Отправлено: 01:50 17-02-2009
    Legos

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ссори забыл указать что за Алена:
    _http://softgate.ru/2008/07/31/golosovojj_dvizhok_acapela_alyona_russkijj.html
     
    Добавлено:

    Цитата:
    Значит, при скачивании произошла ошибка, файл повреждён. Нужно качать заново.
     

    И всего то .
    Счас перекачаю...пасиб
     

    Всего записей: 17 | Зарегистр. 15-11-2006 | Отправлено: 01:51 17-02-2009
    vikkiv



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    astashov
    Неа, у Cepstral Русского нету, Sakrament (2) вроде из местных компаний на альтернативные платформы ориентируется - но у них сейчас акцент в основном на мобильные...
     
    В общем не знаю, мы простые пользователи, лично я кроме MS-Windows систем никакими серьёзными примочками не обвешивал - поэтому тут не смогу помочь.
    Единственное что приходит на ум с поддержкой русского это Loquendo (2) Linux и Acapella-Group (2) Linux.
    И у обеих компаний есть рынок серверных голосовых систем - у Loquendo даже лично видел под Линукс, правда не помню на какой....
     
    В условно-свободном доступе из этого всего ничего не видел (на самом деле просто никогда не интересовался) - поэтому это вовсе не исключает что возможно где-то и есть, да и производители часто устраивают демо-раздачи для разработчиков (по крайней мере так пишут на сайтах типа свяжитесь с нами) и т.д.

    Всего записей: 748 | Зарегистр. 10-11-2005 | Отправлено: 03:56 17-02-2009 | Исправлено: vikkiv, 04:05 17-02-2009
    astashov



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    vikkiv
     
    спасибо. посмотрю

    Всего записей: 84 | Зарегистр. 14-09-2006 | Отправлено: 20:22 17-02-2009
    dred707

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Всем привет!
     
    1. Установил голосовой движок: c:\Program Files\Character Builder\Speech Packs\NeoSpeech Kate\
    2. Подключил его в программе TextAloud
    3. В программе TextAloud попробовал этим голосовым движком озвучить английский текст.
     
    Озвучивает нормально, но перед озвучкой идет краткая инфа, кажись, рекламного характера, а если учесть, что зачастую пару слов надо только озвучить, то эта инфа перед началом озвучки раздражает (в голосах по умолчанию в TextAloud такого перед началом озвучки нет). Как ее убрать?

    Всего записей: 1 | Зарегистр. 03-03-2009 | Отправлено: 15:08 03-03-2009
    LaVas_ki

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    наблюдаю проблемы с громкостью и сапи4 и сапи5 у николая 5.1 - работают очень тихо по отношению к другим звукам, другим программам, и даже другим синтезаторам ))) девки после него вообще как гром с ясного неба - все громко и четко).... однако...
     
    при чем сапи4 ваще еще тише сапи5 самогоже николая... практчиски шепот!
    это можно как то решить?

    Всего записей: 1465 | Зарегистр. 03-08-2003 | Отправлено: 18:30 04-03-2009
    Uraanfgh56



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Подскажите пож-та программу или голосовой модуль для чтения книг (лучше мужским голосом) из форматов txt и doc. Желательно по возможности что бы голос был не как в   Magic Goody - бубнёж , ну и по возможности настройки - чтобы лучше настроить ...

    Всего записей: 3567 | Зарегистр. 03-11-2007 | Отправлено: 14:29 14-03-2009
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru