Выпуск Firefox 78.0.1 и обновление голосовых данных Mozilla Common Voice
Опубликован экстренный корректирующий выпуск Firefox 78.0.1, в котором устранена всплывшая в Firefox 78 проблема, приводившая к пропаданию установленных поисковых движков. После обновления браузера список быстрого доступа к поисковым системам у некоторых пользователей оказался пустым, нарушилась работа автодополнения ввода в адресной строке и перестали отправляться запросы через поле поиска на стартовой странице. Причиной сбоя оказалось включение в Firefox 78 функции синхронизации настроек поисковых систем. В Firefox 78.0.1 удалённое извлечение настроек отключено и возвращён локальный метод хранения.
Также с задержкой почти на сутки раскрыты сведения об устранённых в Firefox 78 уязвимостях. В Firefox 78 устранено 16 уязвимостей, из которых 10 помечены как опасные. Четыре уязвимости, собранные под CVE-2020-12426, потенциально способны привести к выполнению кода злоумышленника при открытии специально оформленных страниц. Напомним, что проблемы с памятью, такие как переполнения буферов и обращение к уже освобождённым областям памяти, с недавних пор помечаются как опасные, но не критические.
Кроме того, анонсировано обновление наборов голосовых данных, собранных в результате инициативы Common Voice и включающий примеры произношения около ста тысяч людей. В сумме было получено 7226 часов (проверен 5591 час) речевого материала на 54 языках, 14 из которых были предложены впервые. В том числе опубликован набор для украинского языка, подготовленный благодаря работе 235 участников, надиктовавших 22 часа. Для русского языка число участников увеличилось до
928, а объём речевого материала вырос до 105 часов. Для сравнения в подготовке материалов на английском языке приняли участие более 60 тысяч человек, надиктовавших 1452 часа подтверждённой речи.
Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0). Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.
Среди недостатков проекта Common Voice автор библиотеки распознавания слитной речи Voskназвал однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материла с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз), распространение записей во вносящем искажения формате MP3, создание нового проекта вместо присоединения к существующему VoxForge.