Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Болгарчук Р. - Книга 3.0 Слушайте! 2017.docx
Скачиваний:
24
Добавлен:
01.12.2019
Размер:
23.66 Mб
Скачать

Синтез речи при дублировании фильмов.

Уже упоминал такую возможность в разделе «Программа для чтения субтитров.». И такие программы уже есть. Так же у меня есть надежды, что на YouTube появится возможность дублирования видео, используя субтитры и синтезаторы речи, но вот YouTube пока до этого не дорос. Хотя повторюсь технических проблем, которые бы этому препятствовали, нет.

Развивая эту тему, еще хотелось бы отметить, что было бы прекрасно, что бы на YouTube появилась не только возможность прослушивать дублированные видео на родном языке, но и более широкий функционал: выбор голоса, тембра, выразительности, скорости проговаривания и т.д...

Особенно важна настройка и гибкая регулировка скорости воспроизведения. Например, хотелось бы что бы была возможность автоматического замедления или паузы того или иного участка видео, если текст не успевает проговориться. Скажу из личного опыта, такое, к сожалению, на данный момент часто встречается и приходится искать золотую середину, между скоростью воспроизведения субтитров, а иногда видео и пониманием произнесенного. Т.е. если сделать что бы произносило медленно и разборчиво, звук не будет успевать за видеорядом, а если сделать что бы произносило очень быстро, то попросту не будет понятно, что произносится. Думаю, для хороших программистов не составило бы труда создать функцию автоматической подгонки скорости произносимого текста к видеоряду.

Синтез речи и понимания речи машиной.

Помимо проговаривания текста есть еще одна весьма важная задача, которая ставится перед ИТ. Она является как бы противоположностью синтеза речи и её решить труднее. Синтез речи, грубо говоря, и очень упрощенно, это произнесение последовательности конкретных символов – букв. И с эти машины уже худо-бедно справляются, т.к. буквы одинаковы и их не много. То, что человеку не привычно слушать монотонно произнесенные буквы с неправильным ударением, это уже другой вопрос. Но в принципе, с проблемой синтеза речи, справились. С пониманием речи все обстоит намного сложнее, т.к. звуки человеческой речи, которые машине предстоит преобразовать обратно в буквы, весьма разнообразны. Разнообразность их вызвана массой факторов: личной индивидуальной особенностью произносящего, окружающей обстановкой, микрофоном, и многим другим. Поэтому так трудно из голоса, особенно не знакомого вычленить и идентифицировать те или иные звуки фразы, слова, буквы. Тем не менее, и в данном направлении уже есть кое какие успехи. Думаю, уже сейчас можно было бы использовать эти две технологии вместе, с предварительной тренировкой второй и подстройке к конкретному голосу собеседника, конкретному микрофону и т.д. Эту идею уже взяли на вооружение и используют некоторые кол-центры и др. организации, умеющие экономить свои деньги и делать перспективные инвестиции. Надеюсь, что в будущем именно связка этих двух технологий будет объединена в одной программе, которую любой обычный пользователь сможет бесплатно установить и использовать на ПК. Возможно, синтез и понимание речи станет визитной карточкой многих устройств и частью интерфейса ОС способной общаться с людьми привычным для них способом. А уже в дальнейшем, при создании хорошего аналитического ядра, подключенного к мощной базе, границы будут стерты еще больше. Но это уже относится больше к оптимистичным планам и далекому будущему. Тем не мене, раз данные технологии есть уже сейчас, именно проблем в том, чтобы использовать их в одном пакете, нет ни каких препятствий.

Дабы (исправил было даны) мои слова не казались пустым звуком, дам ссылку на один очень интересный сайт https://speechpad.ru/ с помощью него, я надиктовал данные строки (два абзаца) голосом. Правда для меня это было непривычно, потому что печатаю быстрее, чем говорю, особенно если касается продуманных речей. Тем не менее, даже меня возможности этого ресурса и программы приятно удивила, поскольку надиктовывал некоторые предложения довольно быстро. Естественно программа до этого мой голос не слышала. Никакой предворительной подстройки, калибровки не было. На диктовка производилась в микрофон далеко не лучшего качества, который я купил лет 5 назад за пол доллара. К сожалению программа, на данный момент не ставит знаки пунктуации. Да и в словах быльи не значительные ошибки. Которые, я оставил в данном тексте, выделив красным. Возможно, надо говорить разборчиво и внятно прямо в микрофон, тогда ошибок вовсе не будет.

Можно с таким же успехом (практический без ошибок) надиктовывать и украинский текст. Надеюсь, это, уже сейчас мне очень пригодится в работе. Потому что ко мне часто приходят сотрудники, которые не умеют пользоваться клавиатурой и просят меня сделать то, что в принципе может сделать эта программа.

При регистрации доступны более расширенные возможности. К сожалению, насколько я понял, часть функции платные. Но с учетом того, что данную программу я нашёл практически случайно, за 5 минут, уже это весьма обнадеживает. Если немного подождать и поискать более целенаправленно, вероятно отыщутся программы лишённые и этих незначительных недостатков. Способные вводить текст с знаками пунктуации прямо в ворд или другой текстовый редактор. Кстати, версия программы доступны и для андроид. Приложение скачать, можно с гугл маркета. Но установка её в BlueStacks и попытка что-то надиктовать пока не увенчалась успехом. Несмотря на то, что голосовой поиск там работает нормально.

В настоящее время в голосовом блокноте имеется кнопка Транскрибация. Это дает возможность работать не только с надиктовываемым текстом, но и с видео и аудиоматериалом, записанным ранее. О приимуществах и необходимости создания текста с видео и аудио уже писал. Доступен перевод аудиотекстов из форматов html5 видео и аудио, а также из видеозаписей youtube. Как это сделать подробно показано в видео «транскрибирование аудио». А с помощью функции синхронного перевода, надеюсь, в будущем отпадет необходимость в живых переводчиках. Языковая проблема, возникшая по легенде, со времен Вавилона, рухнет. И появится уже рабочая цифровая Вавилонская рыбка.

Вот еще не плохая статья по данной теме «Голосовой набор текста – онлайн сервисы распознавания речи в текст».

Соседние файлы в предмете Информационная технология в печатном деле