Эта запись изначально создана мною для того, чтобы читатели могли делится своим опытом в области распознавания речи, образов и даже изображений, делиться предположениями и идеями. Дело в том, что данная область очень хорошо развивается за рубежом и становится очень обидно, когда узнаешь, что в нашем «пост-советском пространстве» ничего кроме громких патентов и хитроумных теорий нету. Меня искренне поражает точность распознавания от IT гиганта Google (я оценил качество распознавания речи благодаря телефону с OS «Android»). Честно говоря точность распознавания даже очень не плохая… Пожалуйста, оставляйте свои комментарии и предложения ниже. Даже если вы считаете свою идею лишенной здравого ума всё равно оставляйте. Часто так бывает, что люди недооценивают свои идеи. Для чего всё это? Спросите Вы. Моя цель — создать систему распознавания речи «с нуля» вместе с «коммьюнити», а код открыть, ведь коллективный разум — большая сила. Из кирпичей можно построить большую виллу:)
Ранее мной уже проделана часть работы по распознаванию человеческой речи с помощью микрофона, но результаты распознавания не сильно впечатляют. Моя нынешняя система может с уверенностью распознать гласные звуки и выделять разные группы звуков, таких как шипящие (например, «ж», «ч», «ш», «з», «с») и ударные («б», «п», «в», «д»).
Пишите интересные идеи тут!)
Идея у меня такова:
1. На вход сигнал 20-4000 Гц
2. Речь моделируем АР моделью N-го порядка.
3. Также имеем азбуку АР коэффициентов.
4. Если неимеем создаём с помощью векторного квантования
5. Квантовать будем не сами АР коэффициенты а их Линейные спектральные пары
6. Ни интервале стационарности речевого сигнала (160-300 семплов при Fs=8000) определяем
коэффициенты АР модели и смотрим на азбуку (таблицу соответсвия).
ВСЁ!
В добавку к сказанному, http://masters.donntu.edu.ua/2008/kita/snisar/library/article3.htm.
Я бы не ограничивался частотой дискретизации речевого сигнала в 8000 Гц.
Лучше загонять сигнал при высшей частоте семплирования.
В этом случае будем иметь большее соответствие цифры к оригиналу, а возможные шумы можно отфильтровать c помощью ФНЧ.
И ещё! Насколько я понимаю, эта модель заведомо дикторозависима?
P.S. Честно говоря мне не совсем понятна идея «линейных спектральных пар»…
«дикторозависима»?! — Я бы сказал подругому — адаптируется к диктору но будет работать правда хуже для дикторов и про том разноязычных. Хотя всё должна подтвердить практика
Вектор линейных спектральных пар в пространстве лучше расположены или я бы сказал устроены так что там не нужно такого хитрого критерия как в указанной статье, достаточно квадрата расстояния. Но вот что точно известный факт: если квантовать АР коэф-ты то корни многослена по этим коэф-там могут выйти из единичной окружности что приведёт к нейстойчивому процессу. Но квантуйте и обрабатывайте ЛСП как хотите преобразование ЛСП->АР всегда гаратнтированно корни будут внутри единичной окружности.
PS: предлагаю обменятся ссылками на блоги. Буду благодарен если разметисте у себя на сайте ссылку на мой блог http://nemtsovv.com . В ответ добавлю в своём ссылку на ваш. ок?
Здравствуйте Геннадий,
Думаю наши ресурсы будут хорошим дополнением друг другу и это плюс для потенциального посетителя. Ваш сайт добавлен в категорию «Друзья ресурса». Ваш ход!;)
Привет.
Ты говоришь что твоя система распознаёт уверенно некоторые звуки.
Вопрос: от разных дикторов или от одного и того же?
Я тут ранее давал идее но поработав над другой но похожей задачей: распознать одно и тоже слово среди данных N слов. Столкнулся с той проблеммой что от разных дикторов не распознаёт. Думаю потому что спектральные пары несут спектральную информацию характерную для конкретного диктора.
Какие признаки ещё взять которые были бы инвариантны дикторов не знаю пока. Есть идеи? Может коэффициенты отражения? Вот такие дела.