Допомога у написанні освітніх робіт...
Допоможемо швидко та з гарантією якості!

Оцінювання якості алгоритмів корекції мовленнєвих сигналів

СтаттяДопомога в написанніДізнатися вартістьмоєї роботи

Розглянуто алгоритми спектрального віднімання, MMSE, logMMSE, Wiener-TSNR, Wiener-HRNR. Всі ці алгоритми належать до групи так званих алгоритмів «частотної корекції», згідно яких корекція спотвореного сигналу здійснюється за співвідношенням де та — спектри потужності сигналу та відновленого сигналу , — частотна характеристика фільтра, що коригує. В якості фази відновленого сигналу приймається… Читати ще >

Оцінювання якості алгоритмів корекції мовленнєвих сигналів (реферат, курсова, диплом, контрольна)

Національний технічний університет України «Київський політехнічний інститут»

Оцінювання якості алгоритмів корекції мовленнєвих сигналів Продеус А.М.

3 056, Київ, вул. Політехнічна 16, тел. (044) 454 90 72

E-mail: [email protected]

В наш час, із поширенням мобільних комунікаційних пристроїв, актуальною є проблема підвищення стійкості систем автоматичного розпізнавання мовлення (САРМ) до дії завад шляхом використання препроцесорів корекції мовленнєвого сигналу (рис. 1).

Рис. 1 — Препроцесор корекції мовленнєвого сигналу у складі САРМ Метою даної роботи є, по-перше, порівняння якості п’яти алгоритмів компенсації шумової завади, а по-друге, оцінювання потенційних можливостей дев’яти показників якості, що застосовуються при такому порівнянні.

Розглянуто алгоритми спектрального віднімання, MMSE, logMMSE [1], Wiener-TSNR, Wiener-HRNR. Всі ці алгоритми належать до групи так званих алгоритмів «частотної корекції», згідно яких корекція спотвореного сигналу здійснюється за співвідношенням де та — спектри потужності сигналу та відновленого сигналу , — частотна характеристика фільтра, що коригує. В якості фази відновленого сигналу приймається фаза сигналу .

Оскільки коректор входить до складу САРМ, для оцінювання його якості доцільно використовувати показник «точність розпізнавання слів» [3]:

де — загальна кількість слів, що їх розпізнають; - кількість помилкових видалень слів; - кількість замінених слів; - кількість помилково вставлених слів. Недоліком показника Асс% є необхідність моделювання САРМ, що є досить складним завданням.

Для усунення цього недоліку, доцільно дослідити можливості «проміжних» показників (рис. 1). Серед таких в даній роботі розглянуто: сегментне відношення сигнал-шум SSNR, логарифмічно-спектральне спотворення LSD, логарифмічне відношення правдоподібності LLR, дистанція зважених спектральних схилів WSS, дистанція Ітакури-Саіто, кепстральна дистанція, композитний показник, перцептуальні оцінки якості мовлення BSD та PESQ.

Як і очікувалося, наскрізний показник Acc% вичерпно характеризує якість алгоритмів корекції мовленнєвих сигналів у складі САРМ (рис. 2).

Рис. 2 — Залежність Асс% від вхідного відношення сигнал-шум

Серед «проміжних» показників, що досліджувалися, лише два — LRR та SCI — непогано узгоджуються із показником Асс% (рис. 3), констатуючи низьку якість алгоритмів Wiener-TSNR та Wiener-HRNR.

А

Б

Рис. 3 — Залежність LLR (а) та SCI (б) від вхідного відношення сигнал-шум Але, як бачимо, суттєвим недоліком показників LRR та SCI є те, що одержані за їх допомогою оцінки носять якісний характер. Крім того, показники LRR та SCI, на відміну від Acc%, не спроможні відобразити досить суттєву різницю в ефективності алгоритмів спектрального віднімання, MMSE та logMMSE.

В подальшому є доцільним дослідити причину несподівано низької ефективності алгоритмів Wiener-TSNR та Wiener-HRNR.

алгоритм якість мовленнєвий сигнал

Література

1. Springer Handbook of Speech Processing / Ed. J. Benesty, M. Sondhi, Y. Huang — Berlin Heidelberg: Springer-Verlag, 2008. — 1176 p.

2. Plapous C., Improved Signal-to-Noise Ratio Estimation for Speech Enhancement / C. Plapous, C. Marro, P. Scalart // IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14, Issue 6, Nov. 2006. — P.2098;2108.

3. The HTK Book / Ed. S. Young, G. Evermann, M. Gales. — Cambridge: University Engineering Department, 2009. — 375 p.

4. Hu, Y. and Loizou, P. Evaluation of objective quality measures for speech enhancement / Y. Hu, P. Loizou // IEEE Transactions on Speech and Audio Processing, 16(1), 2008. — P. 229−238.

Показати весь текст
Заповнити форму поточною роботою