Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 748 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    Speechpro

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    1. Ударения выставлять можно
    2. Скорость речи диктора можно регулировать
     
    ****************
     
    Система «VitalVoice»
     
    Основные характеристики :
     
          Два синтезируемых голоса – мужской и женский;
          Размер морфо-грамматического словаря – до 100 тыс словоформ.
          Создание собственного голоса под заказ;
          Синтаксический и семантический анализ.
          Управление ритмикой и интонацией синтезированной речи в зависимости от содержания текста.
          Естественное «человеческое» звучание синтезируемой речи;
          Согласование падежей и времён;
          Правильное произнесение имен собственных, числительных, сокращений и аббревиатур;
          Изменения темпа речи – замедление или ускорение темпа до двух раз;
          Возможность изменения основного тона голоса – от -25% или +50% относительно среднего значения;
     
    Stroodder
    1. Битрейт 64 кбит\с
    2. Над интонацией работаем. Она не случайная но плавность голоса будет значительно улучшена. Сейчас идет разметка по эмоциональному состоянию диктора, что приведет к значительному улучшению реализации интонации. Исчезнут неуместные эмоциональные проявления. Не будет резких всплесков в интенсивности речи.
    3. Не каждая запятая выражается паузой. Обработка знаков препинания намного сложнее.
     
    Знак ударений естественно есть
     
    SelenaNight
     
    Русский язык настолько богат сочетаниями аллофонов, что иногда точных не находится и приходится брать близкие.
     
     
     

    Всего записей: 2 | Зарегистр. 01-04-2009 | Отправлено: 18:03 03-04-2009 | Исправлено: Speechpro, 18:30 03-04-2009
    SelenaNight



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Speechpro
    да я не ругаю, я просто расстраиваюсь каждый раз, очень уж хочется, чтоб заговорил компьютер по-человечески
    еще десять лет назад обещали, что не сегодня-завтра компьютер еще и понимать будет человеческую речь... а воз и ныне там
    и кстати, не только русский язык такой, с польскими голосами та же ситуация

    Всего записей: 335 | Зарегистр. 27-02-2006 | Отправлено: 23:57 03-04-2009
    sadasd

    BANNED
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Подскажите пожалуйста программу для чтения на двух языках в завивимости от текста, у меня есть вот эта - http://depositfiles(точка)com/files/uuaim1saf, но дело в том что новейший движок Olga в этой проге используется с низкой частотой и звучит хуже чем он есть (с етим движком та же ситуация в программе Textaloud)

    Всего записей: 6 | Зарегистр. 20-09-2008 | Отправлено: 15:44 10-04-2009 | Исправлено: sadasd, 15:46 10-04-2009
    Hmuryj_Mik



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Все перепробовал. Все раздражают "подвываниями"
    Колю только терплю, даже забавны некоторые читаемые им "обороты". Только сколько-ж лет нужно, что-бы реализовали синтез получше? Может и Николай получился чисто случайно ...

    Всего записей: 832 | Зарегистр. 22-08-2004 | Отправлено: 00:43 16-04-2009 | Исправлено: Hmuryj_Mik, 00:45 16-04-2009
    ALEX666999



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Hmuryj_Mik
    Предполагаю, что потенциальным создателям заморачиваться не хочется: для создания движка всяческих затрат выйдет больше, чем срубят бабла, из-за пиратства и т.п.

    Всего записей: 6652 | Зарегистр. 20-05-2004 | Отправлено: 01:05 16-04-2009
    Cosmotron



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору


    Цитата:
    Все перепробовал. Все раздражают "подвываниями"  
    Колю только терплю, даже забавны некоторые читаемые им "обороты"

    Аналогично

    Всего записей: 1417 | Зарегистр. 08-01-2004 | Отправлено: 12:05 16-04-2009
    ALEX666999



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Меня в Мыколе бесит картавость. Так то чёрт с ним с подвыванием (это вы видимо имеети ввиду что гласные тянет?)

    Всего записей: 6652 | Зарегистр. 20-05-2004 | Отправлено: 13:23 16-04-2009
    Seymour

    BANNED
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Mister_Che

    Цитата:
    Извините, а что нужно скачать, чтобы компьютерный голос читал текст и чтобы качать не много надо было, не эти 200метровые файлы. Объясните, пожалуйста, подробно.

    Вот - полный комплект Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - всего 13 Мб (зеркало). Там все, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Эксклюзив!
     
    Также понадобится программа для чтения текста (говорилка), я рекомендую DeskBot (версию mini) - полное использование всех наворотов технологий MS Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0 - 5.x, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб. Там же можно найти дополнительные анимированные персонажи от сторонних разработчиков. Ну и движки тоже другие можно попробовать, если стандартный TTS3000 не устроит.
     
    Всем остальным, кто интересуется этой темой также рекомендую скачать дистрибутив Microsoft Speech API 5.1 - полный комплект со всеми голосовыми движками для Windows 95-XP. Собран собственноручно из msm-модулей с этой странички - 40 Мб. Или только SAPI без движков (включен в архив MSAgent.rar) - 500 Кб. Эксклюзив!
     
    SAPI 5.1 также можно найти здесь и здесь - абсолютно идентичные моим дистрибутивы, сделанные из тех же вышеупомянутых msm-модулей. По первой ссылке качается версия для Windows 95-2000, по второй для Windows 95-XP. На XP устанавливается только Mike + Mary Voices Addon, т.к. SAPI и TTS Engine (Sam Voice) на нее уже предустановлены. Если не нужен английский голосовой движок, то лучше качать мою 500 килобайтную версию.
     
    SAPI 5.3 является неотъемлемой частью Windows Vista и отдельно не распространяется.

    Всего записей: 1089 | Зарегистр. 07-12-2006 | Отправлено: 22:04 03-05-2009 | Исправлено: Seymour, 04:42 23-07-2009
    Seymour

    BANNED
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Модераторам: шапку бы надо включить, и оформить по-человечески кому-нибудь, а то уже на 19 страниц темка расползлась. А эту тему закрыть, а ссылку в шапку кинуть, когда появится.

    Всего записей: 1089 | Зарегистр. 07-12-2006 | Отправлено: 01:31 08-05-2009 | Исправлено: Seymour, 15:54 02-06-2009
    alex6886

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Подскажите а как сделать чтоб Ольга могла чихнуть или кашлянуть,или издать какой-нибудь вздох между словами?Где-то в демке я слышал такое...Вот здесь:
    http://www.loquendo.com/en/audio/Olga.mp3

    Всего записей: 45 | Зарегистр. 09-03-2006 | Отправлено: 16:43 01-06-2009 | Исправлено: alex6886, 18:22 01-06-2009
    Voleon

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    alex6886
    я думаю это специальные теги должны быть в тексте программы, как на странице http://tts.loquendo.com/ttsdemo/default.asp?page=id&voice=Olga . У меня не получись у себя воспроизвести.
    Имхо: По ощущениям голос Аленка лучше чем Ольга, тем более с подключенными словарями. он мягче читает.

    Всего записей: 2 | Зарегистр. 29-04-2008 | Отправлено: 17:22 05-06-2009
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    alex6886
     
    Запустить TTS Director, выбрать Effects, разметить наличный текст ...

    Всего записей: 5704 | Зарегистр. 19-12-2003 | Отправлено: 20:09 05-06-2009
    Hiken



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Подскажите, можно ли как то сделать, чтобы английский текст читал голос вроде Kate, а русский - та же Катя? Какой на данный момент лучший русский голосовой движок? Подскажите пожалуйста также лучший немецкий, кто пробовал..

    Всего записей: 1343 | Зарегистр. 14-01-2006 | Отправлено: 21:16 05-06-2009 | Исправлено: Hiken, 21:17 05-06-2009
    AnitrA



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    чето я так и не понял что качать и как юзать... чего так сумбурно то все

    Всего записей: 1374 | Зарегистр. 14-08-2001 | Отправлено: 02:04 12-06-2009
    AmitaKrishna



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Кто-нибудь знает, где взять голоса Sangeeta (индийский английский) и Lekha (хинди) для RealSpeak TTS? Судя по демкам Лекха отлично читает на хинди и это единственный из существующих голосов для этого языка.

    Всего записей: 81 | Зарегистр. 15-06-2005 | Отправлено: 18:26 14-06-2009 | Исправлено: AmitaKrishna, 18:29 14-06-2009
    fty



    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Seymour
    Спасибо за файлы и подробное описание!

    Всего записей: 132 | Зарегистр. 13-05-2006 | Отправлено: 23:28 15-06-2009
    PONN

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Привет! Кто знает, как можно записать в мп3 смешанный текст (англ и русск)? Пробовал mp3book, textaloud, cool audio везде для чтения используется только один движек, либо русский либо английский....  

     
    http://www.kom-pas.narod.ru/audiobook_net.htm
     
    Итак программа AUDIOBOOK может:  
     
    Анализ диалогов + Поддержка тегов и  Чтение по ролям: 1. Русский - Английский. 2. Мужской - Женский...
     
    а так же:
     
    1) Использовать TTS Engine стандартов SAPI 4 и SAPI 5.
    2) Записывать текст в файлы форматов: MP3, OGG, WMA, WAV, VOX, AU, AIFF.
    3) Писать речь в файл с максимальной скоростью.
    4) Автоматически разбивать книгу на фрагменты при записи.
    5) Продолжать незаконченную работу (загружать автоматически сохраненный проект для последующей обработки).
    6) Автоматически очищать текст от ошибок с произношением типа "ПРОСТРАНСТВА" на Digalo и Elan.
    7) Использовать анализатор диалогов. Читать и писать книги применяя уникальную технологию прадварительной разметки текста.
    8) Использовать индивидуальны словари работающие на основе регулярных выражений для каждого голоса. См. Пример 1 и Пример 2.

    Всего записей: 52 | Зарегистр. 15-10-2004 | Отправлено: 09:59 17-06-2009
    maK



    Gold Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Первое впечатление - "гасите свет!" Версия программы 1.4.2 и такое убожество (в частности: 3 запуска - 2 вылета).

    Всего записей: 5704 | Зарегистр. 19-12-2003 | Отправлено: 11:02 17-06-2009
    PONN

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Первое впечатление - "гасите свет!" Версия программы 1.4.2 и такое убожество (в частности: 3 запуска - 2 вылета).  

     
    Странно у меня все ок.

    Всего записей: 52 | Зарегистр. 15-10-2004 | Отправлено: 04:45 18-06-2009
    Cosmotron



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
     3 запуска - 2 вылета

    Да, у меня тоже первый раз при запуске вылктела, плюс в работе глюков хватает, но автор предупреждал - это хобби проект + нету времени, так что нормальная ситуация, отписываемся ему по глюкам, и глядишь - через годик будет конфетка, а еще через год - $50....

    Всего записей: 1417 | Зарегистр. 08-01-2004 | Отправлено: 10:35 18-06-2009
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru