ProCloud Yandex
08.06.2023
читать 5 минут

RHVoice Lab: как серверы помогают создавать голоса для синтезаторов речи

/upload/iblock/63e/beilapuyvlydfjucfk90p2420ab08us3/pawel-czerwinski-eybM9n4yrpE-unsplash.jpg

Движок RHVoice создавался для помощи людям, у которых проблемы со зрением. Он позволяет им ориентироваться на просторах интернета. Изначально озвучкой занимался Артемий Лебедев, но сейчас предлагается несколько голосов известных людей на выбор. Это позволяет незрячим людям выбрать подходящий тембр, который их больше устраивает.

Об RHVoice

Это некоммерческий проект, который создан более 10 лет назад. С его помощью люди, у которых есть проблемы со зрением, могут лучше ориентироваться в интернете. Синтезатор речи RHVoice может использоваться при взаимодействии с ПК. Он озвучивает:

  • ввод пароля для входа на рабочий стол;
  • информирует о завершении сеанса;
  • позволяет читать книги;
  • помогает в редактировании файлов и так далее.

Речевой синтезатор голоса постоянно развивается, у него появляются новые возможности, которые делают жизнь незрячих людей при работе с компьютером легче.

Как появилась RHVoice Lab

Несмотря на внушительный возраст проекта, лаборатория RHVoice NVDA появилась только в 2020 году. Руководителем проекта сейчас является Артем Плаксин. Он смотрел один из каналов Артемия Лебедева, у которого ровный и чистый голос, а потом задумался, как этот же голос будет звучать в синтезированном варианте. Реализовать задумку не было возможно, так как на тот момент команда специалистов отсутствовала. Однако Артем был знаком с незрячим разработчиком Бекой Гозалишвили. Она на тот момент работала с синтезированием речи на грузинском языке. Она подсказала, как реализовать идею и стала частью проекта.

Об аудитории

Невозможно точно сказать, сколько человек используют синтезированный голос при работе на компьютере. С официального сайта было свыше 15 000 скачиваний. Однако есть также файлообменники, сторонние ресурсы, которые тоже предлагают скачать данный софт.

RHVoice работает на основных платформах, которые используются пользователями. Продолжается разработка софта для менее популярных операционных систем.

Технологический стек проекта

Стоит рассмотреть, из чего конкретно состоит данный проект, чтобы лучше разобраться в его особенностях.

Инфраструктура

Данный софт работает на двух серверах. Первый используется с 2009 года. На нем 1 Тб памяти, поэтому на нем хранятся бэкапы, рабочее облако и ряд других файлов. Второй сервер используется для оперативной деятельности.

Сейчас ресурсы задействуются не все, но специально были приобретены серверы с запасом мощности, так как есть ряд интересных идей, которые планируется реализовать в будущем.

Инструменты и решения

Большинство синтезаторов речи работают на языке программирования Perl, этот софт был создан еще в 1990-х годах. RHVoice написан с использованием C++, однако все скрипты для запуска программы, конвертации, разметки и так далее писались на Shell.

В процессе создания голоса участвуют:

  • Telegram бот, который был разработан силами команды;
  • NVDA Addon, который отвечает за создание шаблонов;
  • Nextcloud – это аналог NVDA Addon, который используется в облаке.

Это базовые инструменты, которые используются специалистами проекта. Созданный шаблон они сразу загружают на облако. Если сначала процесс занимал не менее 30 часов, то сейчас все происходит гораздо быстрее.

Инклюзивность российского софта

Сегодня отечественное ПО сильно проигрывает западному по инклюзивности, так как большинство софта не доступно для незрячих людей. Однако такие люди могут без труда работать в колл-центрах, поэтому есть предпосылки для обновления программного обеспечения и его адаптации для незрячих.

За последние годы удалось убедить руководство многих крупных российских корпораций в том, чтобы задействовать на работе слепых людей. В связи с этим процесс адаптации софта сдвинулся с мертвой точки, но идет очень и очень медленно. Сложность еще заключается в том, что большинство программ, используемых на основе Linux, совсем не адаптированы для незрячих. В связи с этим приходится использовать Debian, Ubuntu и другое ПО для решения проблемы.

Могут ли незрячие люди работать программистами

Практика показывает, что это возможно. Не обязательно видеть, что именно выводится на монитор. С помощью синтезаторов речи слепые программисты успешно занимаются бэкэнд-разработкой. Код пишется в блокноте или в другом текстовом редакторе, а потом компилируется. Главное в данном случае – не лениться и быть целеустремленным. Однажды разобравшись, как пользоваться RHVoice, удастся существенно расширить свои возможности при использовании компьютера.

В чем отличие синтетических голосов Яндекса или Сбера?

На самом деле, сравнивать RHVoice с синтезаторами речи от этих корпораций будет неправильно. Дело в том, что RHVoice использует устаревшие алгоритмы для синтезирования речь, они применялись до возникновения нейросетей. В данном случае гораздо сложнее получить естественный звук, очень многое зависит от квалификации и профессионализма специалистов. Большая часть работы выполняется вручную для достижения нужного результата. Зато, RHVoice нетребователен к железу и может работать в режиме оффлайн, что считается важным преимуществом.

Где можно послушать пример синтеза речи?

Прослушать, как звучит синтезированный голос, можно в каталоге голосов. Там есть встроенный плеер, который позволит проигрывать примеры.

Можно ли создавать голоса для других языков?

На текущий момент существует возможность работать только с голосами, которые обработаны в синтезаторе RHVoice. Технически работать с другими языками возможно. Однако для этого требуется создавать новые модули, что является трудоемким процессом. Нужно, чтобы в одной команде работали лингвисты, фонетисты, языковеды и программисты.

На текущий момент необходимость выхода на рынки других стран отсутствует, поэтому в планах нет работы с другими языками. Но в будущем, вероятно, придется решать эту задачу и создавать новые модули.

Что требуется для создания голоса?

Для этого требуется до трех часов аудиоматериала, который будет соответствовать определенным стандартам. Важно, чтобы запись велась в профессиональной студии, иначе будут присутствовать фоновые звуки. Получив качественный материал, специалистам требуется около 2 месяцев работы, чтобы создать синтезированный голос.

Какая лицензия используется у этого софта

По умолчанию используется Creative Commons С, которая является полностью бесплатной, но она предполагает необходимость указания авторства. Это некоммерческая международная лицензия.

Команда RHVoice Lab тратит свое время и ресурсы, чтобы помочь незрячим людям. Работа ведется не ради прибыли, поэтому все участники команды против коммерческого использования лицензии.

Новости
18 апреля 202418.04.2024
читать 2 минутычитать 2 мин
Дайджест обновлений продуктов Q1
5 апреля 202405.04.2024
читать 1 минутучитать 1 мин
ProCloud CPO Диана Беда в рейтинге ИТ-лидеров от Global CIO
28 марта 202428.03.2024
читать 1 минутучитать 1 мин
Запуск новой локации: Казахстан