Закончила перевод фраз-шаблонов для голосового управления, с четверга продолжаю эту работу у заказчика — скармливаем переведенные фразы, одну за одной, голосовому синтезатору и слушаем, что получается. Зачастую приходится переделывать формулировки только потому, что синтезатор почему-то плохо воспринимает те или иные звукосочетания, запинается на них, зажевывает окончания. Приходится или заменять слова на синонимы, или изменять порядок слов или прибегать к иным хитростям, чтобы обойти нежелательные скопления звуков. В общем, работа медленная и занудная.
Почему-то синтезатору с трудом дается слово аудиокнига. Как ни бились, особо красивого результата пока не добились. На звукосочетании -ио- синтезатор слегка стопорится, словно машина, переваливающаяся через бревно, а на -книга тон взмывает куда-то вверх. Всё слово вместе звучит неестественно. Причем, когда нужно произнести вариант «аудиокнига» (им.п. ед.ч.), то, задав синтезатору фонетическую транскрипцию <аудьокнига>, можно получить приемлемый результат. Но если заставлять его произносить «аудиокниг» («в вашей папке аудиокниг файлов нет»), то он начинает как-то квакать в конце. И даже мягкий знак вместо и не помогает.
Когда я впервые услышала сгенерированные русские фразы, я слегка опешила, потому что они звучали очень низко и мрачно. Тут же перед глазами возник суровый образ российской пограничницы на паспортном контроле в Шереметьево. Н-да, у компьютера с таким голосом не забалуешь.
И первое, что мы сделали, это повысили тон по умолчанию: с (условного) уровня <pitch 100> до уровня <pitch 110>. Особой любезности и приветливости это голосу не добавило, но по крайней мере фразы перестали звучать так устрашающе.
Работаю вместе с Элизабеттой, инженером. Фразы-шаблоны должны переводиться на десяток разных языков, и чтобы проиллюстрировать ту или иную техническую проблему, Элизабетта порой рассказывает мне, как эту же проблему решал другой переводчик. Оказывается, буквально в каждом языке обязательно было что-то своё:
1. Во французском языке тон речи, наоборот, слегка понизили. Французские слова генератор почему-то постоянно «зажевывал». Чтобы они звучали четче, пришлось в фонетической транскрипции расставлять специальные значки минипауз (дефисы).
2. Для британского английского было решено глобально замедлить темп речи.
3. Основу всех фраз поставил Крайслер (США), на американском английском все фразы звучат очень-очень friendly, для европейского уха они кажутся чересчур фамильярными, поэтому для европейского рынка было решено переводить все фразы с обращением на «вы». Но польская переводчица сказала, что «вы» ей создает проблему, потому что в польском языке повелительное наклонение на «вы» имеет разные мужские и женские формы. Поскольку не известно, кто будет за рулём, решили, что польский голос будет общаться с водителем на «ты».
|
По поводу «запинания» синтезатора… Синтезатор может быть реализован программно либо «железом» (т.е. используется микросхема). В любом случае где-то хранятся фонемы конкретного языка ( в данном случае русского), которые и используются для преобразования текст-голос. Так вот проблема как раз в фонемах. Скорей всего это чип (микросхема), которая и нуждается в усовершенствовании (доработке). То, что вы делаете, чтобы избежать проблем — это есть вынужденная мера и является «заплаткой» (обходным маневром) а не решением проблемы. Не поймите меня превратно. Я вас нисколько не критикую. Вы все верно делаете. Однако для действительного решения проблемы и, попутно, усовершенствования технологии, я бы рекомендовал вашим инженерам связаться с разработчиком/изготовителем чипа. Ваш материал может оказаться бесценной информацией для них. Такое сотрудничество может принести не только пользу в смысле улучшения качества вашей продукции и всей технологии, но и финансовый выигрыш для ваших автомобилистов, поскольку они могут получить льготные цены в благодарность за помощь.
Я не очень хорошо знаком с современным состоянием дел в производстве синтезаторов русских фонем, но подозреваю что есть несколько производителей синтезаторов.
Вот например посмотрите какую прелесть производят эти ребята:
http://www.sitepal.com/?gclid=CPm0-tD6yasCFULf4AodCy8C7g
Может быть стоит порекомендовать вашим инженерам порыть на рынке синтезаторов и попробовать к.л. другие модели. Как я уже говорил, это можут быть программные средства (вроде этого: http://www.bytecool.com/voices.htm) либо «железные». Поскольку ваши клиенты собираются использовать их для массового выпуска продукции, с большой степенью вероятности производители синтезаторов с удовольствием предоставят им бесплатные образцы своей продукции для испытаний.
Вот такие мысли, Виктория.
kardan, спасибо за советы, но где я и где Фиат с Крайслером?! Я представления не имею, как реализован синтезатор, программно или железно 🙂 Крайслер передал Фиату технологию, которую использовал на американском рынке. Фиат взял под козырек и решил аутсорсить эту работу (видимо из-за отсутствия опыта реализации таких задач). Голосовое управление для Фиатовских автомобилей делает другая компания, которая имеет опыт голосового синтезирования, но наверняка ничего не решает.
Виктория, вам этого знать и не нужно. Это не ваша забота. Это задача для ваших инженеров.
Далее. Если вы говорите что Крайслер использовал на американском рынке эту технологию и затем передал Фиату… Скажите, ваш синтезатор нр картавит ли маленько? 🙂 Я имею в виду что я бы не особо надеялся на то, что на американском рынке Крайслер ввел русский язык в набор синтезатора. Другими словами похоже на то, что ваш синтезатор синтезирует русскую речь, используя английские фонемы… Оттого, возможно, и проблемы.
Ладно. Я думаю что мысль вы наверняка уловили. Я всего лишь хотел внести свои 2 копейки в это дело.
между прочим, я вам послал запрос на авторизацию в Скайпе. У меня есть к вам несколько вопросов. Вы в Скайпе редко бываете?
Никакой «картавости» у синтезатора нет. Что он говорит на основе английских фонем — это вряд ли. В его русской речи нет абсолютно никакого акцента или странных интонаций. Один и тот же синтезатор расчитан на такие разные языки, как русский, польский, турецкий, португальский, арабский… Тут одними английскими фонемами никак не бойтись.
PS: в Скайпе я бываю, просто в этот период я работаю не дома, и держала его отключенным.