Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

Открыть новую тему     Написать ответ в эту тему

vikkiv



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Microsoft Agent / Speech API
 
   
 
Microsoft Agent - это набор программных сервисов, поддерживающих воспроизведение интерактивных анимированных персонажей в рамках интерфейса Windows. Разработчики могут использовать эти персонажи для создания различных интерактивных приложений и справочных систем, а также для представления информации в HTML-документах различными способами. В дополнение к поддержке обычного способа ввода информации с помощью клавиатуры и мыши Microsoft Agent предлагает поддержку распознавания голосовой информации (с помощью технологии Microsoft Speech API (SAPI)), позволяя управлять приложениями на уровне голосовых команд. Персонажи также могут воспроизводить синтезированную речь, аудиофрагменты или текст в специальном окне. Для поддержки голосовых функций в системе должны быть установлены Microsoft Agent 2.0, компоненты ядра Microsoft Speech API 4.x/5.x и движки для воспроизведения и распознавания речи (Text-to-Speech / Speech Recognition) на нужном языке. По желанию можно также установить дополнительные экранные персонажи.
Microsoft Agent 2.0 + Speech API 4.0 + Speech API 5.1 + Lernout & Hauspie TTS3000 Russian TTS Engine для Windows 95-Vista - полный комплект всех необходимых файлов, кроме локализаций и движков на языках отличных от русского и инструментов для разработчиков. Windows ME-Vista уже включают Microsoft Agent 2.0 и экранный персонаж Merlin. В Windows 2000 также входит Speech API 4.0, а в Windows XP-2003/Vista - Speech API 5.1/5.3. В Windows 9x и Windows 7 требуется полная установка всех компонентов, причем для Windows 7 Microsoft Agent доступен в виде специального исправления.

[c]Движки для синтеза речи (TTS):

Хотелось-бы обобщить разговоры о различных синтезаторах речи (Text-to-Speech - TTS) для PC, а то сообщения появляются довольно редко в каждом отдельном тематическом разделе.
 
Ниже идёт список голосов/синтезаторов речи для русского языка (в примерном порядке убывания качества):
 
1. Acapela-Group Алёна 22Khz - 150Mb - SAPI5/SAPI4 - Релиз в первой половине 2008-го года. Перед установкой 30-ти дневной демо версии Алёны необходимо установить ядро (~23 MB). Образец
2. Loquendo Ольга / Loquendo Дмитри ~100MB - SAPI5  - Первый релиз в конце 2008-го года. Образец1, Образец2
3. ScanSoft Катерина  22Khz - 44MB - SAPI5 (бывшая Татьяна-SAPI4) - что-то близко или даже немного/много лучше Николая (хотя у Татьяны не было такого истерического характера). Образец
4. Speech Cube Elan v5.1 - Николай (Nicolai) 16Khz - 12MB SAPI4 + SAPI5 - эволюция Digit (2002) 8MB ili Digalo (2000) 7.5MB, с поддержкой не только SAPI4 но и SAPI5 + возможность использования в нескольких программах одновременно (многоканальность) известные версии 4.2. и 5.1 а так-же Телеком и Мултимедиа. (в новых версиях Speech Cube Nicolaja пока не видно - ver 5.2 и 6.0). Из подверсий можно отметить Acapela Multimedia - SDK (ettsengine.exe), Acapela Telecom (SpeechCube.exe / acatel_srv.exe) и Acapela Evaluator (ElanTempoEvaluator.exe / ElanSaysoEvaluator.exe / AcapelaEvaluator.exe). Digit 2002 - работает  только с одной встроенной программой - с другими не хочет - так уж устроен.
5. Сакрамент - Рассказчик 3 (TalkerPro) 1 CD SAPI5 . В комплекте 2 голоса (+ 1 дополнительный отдельно -или +2 по разным источникам) - Судя по образцам с сайта производителя качество голосов не очень - однако судя по отзывам пользователей немного лучше чем Nicolai. Цена диска на рынке 150 руб. Без диска не работает - диск защищен "StarForce 3.02 protector" - так-что образ диска не создашь. вот и придется как захочешь что-нибудь послушать - вставлять диск, но мне надоело (достало).
6. Сакрамент - Рассказчик 2 (Игорь + Вика=9MB + Юлия=2.5MB) SAPI5- (+ Ольга-5.1Мб / Ирина-4.2Мб / Вячеслав-4.7Мб / Юра-2.2Мб) Sakrament Teller -  что-то улучшено но не очень заметно по сравнению с предыдущими версиями от Сакрамента за исключением разнообразия Мужской/Женский голоса.
7. Сакрамент - Рассказчик 1 (Борис) 6.5MB SAPI5 - Хуже чем Nicolai и Катерина но лучше чем все другие.
8. Иван - Ivan (Tigrix) 1.5MB SAPI4 То-же среднего качества (по моему близко около первого Сакрамента).
9. Magic -Gooddy 2004 (ver: 98->2000->2004) 28MB SAPI4: Старая программа для Windows 98 ->XP - точно не помню но кажется это был словарь вместе с TTS - качество чуть лучше чем L&H 3000. Тоже одна из первых разработок для русского языка.
10. Оратор (Orator) 4.5MB- сам не тестировал но судя по образцам до Nicolai далеко.
11. Speaking Mouse 3MB - то-же что и ниже но немного по-лучше.
12. L&H 3000 (Lernout & Hauspie) SAPI4  (мужской и женский голос) 3MB - Что-то слабо похожее на русскую речь.
 
Итого - 22 (или 24 по разным источникам) возможных голосов на Русском языке.
 
В общем я лично пока рекомендую (из общедоступных) только 4 голоса:
 
  1)  Acapela-Group Алёна 22Khz - SAPI5/SAPI4
  2)  Loquendo Ольга / Loquendo Дмитри
  3)  Nicolai (v5.1 - лучше чем 4.2 так как говорят что исправлены многие ошибки в том числе слежение за текстом и соответствие анимации движения губ в приложениях использующих визуальных агентов для сопровождения речи) и
  4)  Katerina  
 (остальные пока слушать трудно - в следствии более низкого качества) но стоит упомянуть об их болезнях:
 
  Многие считают что: Nicolai - голос выразительного дауна (или выразительного робота). Katerina - истерическая алкоголичка (или алкоголическая истеричка) в следствии её интонаций. (Все выражения и оценки взяты из других форумов).
 
  5) - как опция Сакрамент - Рассказчик 3 - но проблема с диском.
 
Ну а программы для их использования - это дело вкуса и отдельный разговор.
 
По поводу других языков - из самых известных производителей можно отметить достижения следующих разработчиков:
 
Loquendo :: Cepstral :: Acapela Group (Former Elan Speech / Babel) :: Nuance RealSpeak :: AT&T Natural Voices :: NeoSpeech VoiceText (Kate (230MB) / Paul (230MB))
 
+ Bonus: Acapela Group 30-Day Trial (Arabic (Salma / Nawfal) / 25 голосов)

Движки для распознавания речи (SR):

  • Горыныч :: Диктограф
     
    Внимание! Обсуждение движков для распознавания речи ведем в этой теме.

    Дополнительные экранные персонажи:

  • Microsoft Agent Ring :: Zero2000 :: MyDevotion :: DesktopMates
  • Microsoft Agent Character Editor + руководство по использованию

    Программы для чтения текста голосом (говорилки):

  • DeskBot (рекомендуется версия mini) - полное использование всех наворотов технологий Microsoft Agent и Text-to-Speech: анимированные персонажи, чтение текстовых файлов, документов MS Office и буфера обмена через SAPI 4.0, напоминание времени, звуковые эффекты - реверберация, шепот и др., всего 1 Мб.

  • Всего записей: 748 | Зарегистр. 10-11-2005 | Отправлено: 19:57 13-10-2006 | Исправлено: vadim1275, 15:07 30-04-2019
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ударение - это к сожалению полбеды. Это скорее вспомогательная возможность, которая позволяет не писать алгоритм подстановки символов SAMPA при смене ударения, а вот акцент и другие фефекты можно править только тэгами, например так: http://slil.ru/26262535 , других вариантов не вижу, быть может у кого-нибудь есть мысли по-поводу, рад буду поучаствовать в обсуждении.  
     Кстати, если кто-нибудь наткнется на файл, отвечающий за включение тэгов в движке, если такой конечно существует, стукните в ПМ пожалуйста.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 18:28 22-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ну вот благодаря мозговому штурму обнаружилось аж два значка для задания ударений у Ольги. Эффективность выше 80%  
    тол'стого
    Рабино`вич
     
    Кто больше?  

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 21:31 23-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
     Символ " ' " прямого отношения к ударению не имеет. Работает как мягкий (ь) и твердый (ъ) знаки.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 05:38 24-10-2008 | Исправлено: Stroodder, 05:40 24-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Stroodder

    Цитата:
     Символ " ' " прямого отношения к ударению не имеет. Работает как мягкий (ь) и твердый (ъ) знаки.

    Попробуйте, уважаемый . только не в фонемах а в любом тексте. И Вы убедитесь, что это то самое ОНО, которое давно искали в Алене.

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 14:48 24-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    уважаемый lapidus2000 а вы побробуйте этими символами  
    поставить ударение в слове "большая" так вот чтоб поставить ударение на "о" эти символы приходится ставить на "а"и наоборот. Причем в одних словах так а в других в зеркальном виде. а значек ^ где его поставил там и будет ударение

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 18:33 24-10-2008 | Исправлено: trubodur82, 18:55 24-10-2008
    evilone666



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    чет символ " ' " только разбивает слово а " ^ " вообще читается как какой-то "церком флекс" у аленки или тип-того

    Всего записей: 327 | Зарегистр. 03-11-2006 | Отправлено: 19:59 24-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus truboduru

    Цитата:
    уважаемый lapidus2000 а вы побробуйте этими символами  
    поставить ударение в слове "большая" так вот чтоб поставить ударение на "о"

     
    это очень просто "боль'шая"
     
    а вот "безразл^ично" и другие слова с мягкими гласными искажаются до неузнаваемости. знаком "^"
     
    так, что это уже не только не 100%, а просто непредсказуемая обработка знака в контесксте слова.
     
    Хотя стоит отдать должное иногда срабатывает там, где " ' "  не работает.
    Но это можно отдпть на откуп фонемам.

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 20:26 24-10-2008 | Исправлено: lapidus2000, 20:30 24-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidusu да действительно появляется такой конкретный акцент блин а че так карява сделано? у николая тупо все одни значком и читается нормально

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 20:41 24-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    trubodur82
    Возможно знака для простановки ударений вовсе не существует. Но то, что эти три знака  реально помогают править ударение - большой плюс движка.
     
    "^" найден экспериментально, или как по-другому?

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 22:19 24-10-2008 | Исправлено: lapidus2000, 22:22 24-10-2008
    romjk

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Привет! Кто знает, как можно записать в мп3 смешанный текст (англ и русск)? Пробовал mp3book, textaloud, cool audio везде для чтения используется только один движек, либо русский либо английский....

    Всего записей: 38 | Зарегистр. 19-10-2007 | Отправлено: 00:10 25-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
    да тупо сидел подставлял символы глядя на меняющиеся транскрипции

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 02:49 25-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
     
     Естественно подставляю не в фонемы, проследите закономерность (в PhonOlgaphе это хорошо видно) того, как знак " ' " меняет транскрипцию в сочетании согласных с гласными и на границе слогов.
     Если символ не разрывает слово на несколько частей, т.е. не вставляет в фонему "#" - это никак не означает, что он является знаком ударения.  
    Ну я понимаю эксперимент и т.д., Вы же не будете сидеть и править всю книжку методом подбора, на данный момент регулярно выполняется только "^" да и то см.:   пост .
     
    P.S.: Конвертил словарь Микеланджело - звучит ужасно. Похоже, что словари нужно будет делать с нуля, радует - ошибок в ударении не много, огорчает - интонация, исправить которую можно лишь с помощью SAMPA.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 09:42 25-10-2008 | Исправлено: Stroodder, 09:44 25-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Конвертил словарь Микеланджело - звучит ужасно. Похоже, что словари нужно будет делать с нуля, радует - ошибок в ударении не много, огорчает - интонация, исправить которую можно лишь с помощью SAMPA.
    а я конвертил exc_  ударения то правильные но акцент жуть!!! Stroodder А если включим тэги, чво нам это даст?Можно ли будет быстро редактировать текст

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 12:19 25-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    trubodur82
    Сможем менять дефекты произношения непосредственно в словаре, всатвлять эмоц. эффекты, добавлять эхо, менять тембр, скорость и т.п.
     
    Словарь, в формате "Говорилки", который понимает и "Балаболка" и KoobAudio в общем случае мог бы выглядеть так:

    Код:
    фефекты фикции=\SAMPA;(fif'"ekt1#f'"ikts1I#)
    Ага=\item=Aga_01  
    Апчхи!=\item=Hiccup_02
    и т.д.

     
     
    Конечно можно упростить и сделать редактор, чтобы строчка в диалоге для юзера выглядела например так:

    Код:
    фефекты фикции=fif'"ekt1 f'"ikts1I
    Ага=@Aga_01  
    Апчхи!=@Hiccup_02

     
    Или как предложенная мной ранее замена фонем русскими буквами:

    Код:
    фефекты фикции=фифекты фикцыИ
    Ага=@Aga_01  
    Апчхи!=@Hiccup_02

     
    Вариантов представления фонем для редактирования пользователем можно выдумать несколько, это уже мелочи.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 13:51 25-10-2008
    NokSam

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    Привет! Кто знает, как можно записать в мп3 смешанный текст (англ и русск)? Пробовал mp3book, textaloud, cool audio везде для чтения используется только один движек, либо русский либо английский....

     
    Действительно вопрос. Например SmartRead Editor ( http://www.smartysoft.com/index.php) ,но заменить китаиский из окна программы нельзя.  
    Ещё имеется DReader (http://www.neskoromny.narod.ru/progru.html), но тема не развивается. А жаль. Ведь действительно, в текстах на русском языке очень часто встречаются слова на других языках. И ставить переключение голоса на одно слово (термин)как-то грустно. Что-то и в браузер читалках не попадалась такая функция. Если кто обратит внимание на такую возможность, дайте знать.

    Всего записей: 42 | Зарегистр. 25-12-2005 | Отправлено: 15:47 25-10-2008
    lapidus2000

    Junior Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Stroodder

    Цитата:
    ы же не будете сидеть и править всю книжку методом подбора

    На форуме abook есть интересная утилита  писанная на Си Ajaja использующая для подготовки текстов Алене  морфологический словарь. На выходе дает - фонемный словарик неправильно звучащих слов. Там же были выложены ее исходники.
    Так вот, для укрощения Ольги хорошо бы создать ее аналог. Может кто осилит этот труд?

    Всего записей: 82 | Зарегистр. 12-11-2006 | Отправлено: 17:00 25-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

    Цитата:
    На форуме abook есть интересная утилита  писанная на Си Ajaja использующая для подготовки текстов Алене  морфологический словарь. На выходе дает - фонемный словарик неправильно звучащих слов. Там же были выложены ее исходники.
    А конкретнее вот сдесь
     
    http://abook-club.ru/forum/index.php?showtopic=2865&st=600

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 17:19 25-10-2008
    evilone666



    Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    а кто-то ведет учет словарей к аленке? есть какой-то централизованный ресурс обмена? или каждый сам за себя?

    Всего записей: 327 | Зарегистр. 03-11-2006 | Отправлено: 02:52 26-10-2008
    Stroodder



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    lapidus2000
    Что-то исходники там я не нашел.

    Всего записей: 666 | Зарегистр. 21-10-2004 | Отправлено: 06:03 26-10-2008
    trubodur82

    Newbie
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Stroodder

    Цитата:
    Что-то исходники там я не нашел.

     
    Может сырцы сообществу расшарите под GPL?
     
     

    Цитата:
    Исходники acatts.exe я уже выкладывал на ru-board-e, с тех пор из изменений только добавление переменной среды ACATTS: http://ifolder.ru/7848560  
     
    Исходники AccentFixer.exe тут: http://ifolder.ru/7809092
    Для сборки необходимы библиотеки lemmatizer.tar.gz (с www.aot.ru) и pcre (с www.pcre.org). В архиве так же есть *.vcproj (от VS 2008) для сборки этих библиотек.
     
    Только под GPL не получится  Все же, BabTTS SDK проприетарная вещь, и несмотря на то что babtts.h я писал с нуля (верней восстанавливал по документации с этого самого SDK), в рамки GPL она вряд ли влезет.

    Всего записей: 12 | Зарегистр. 28-08-2008 | Отправлено: 06:44 26-10-2008 | Исправлено: trubodur82, 06:45 26-10-2008
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

    Компьютерный форум Ru.Board » Компьютеры » Программы » Microsoft Agent / Speech API (SAPI) / Text-to-Speech (TTS)


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru