Розпізнавання мови

РефератДопомога в написанніДізнатися вартістьмоєї роботи

Розпізнавання мови (реферат, курсова, диплом, контрольна)

Распознавание промови.

По з розвитком комп’ютерних систем стає дедалі очевидним, що використання цих систем набагато розшириться, ставши можливим використання людської промови під час роботи безпосередньо з комп’ютером, й у частковості можна буде управління машиною звичайним голосом у реальному часу, і навіть введення та виведення інформацією вигляді звичайній людської промови.

Существующие технології розпізнавання мови немає поки достатніх можливостей їхнього використання, але цьому етапі досліджень проводиться інтенсивний пошук можливостей вживання коротких багатозначних слів (процедур) для полегшення розуміння. Розпізнавання промови нині знайшло реальне використання у життя, мабуть, лише у випадках, коли використовуваний словник скорочено до 10 знаків, наприклад при обробці номерів кредитних карток і інших кодів доступу в які базуються за комп’ютерами системах, обробних передані телефоном дані. Отож насущна завдання — розпізнавання по крайнього заходу 20 тисяч слів природної мови — поки що залишається недосяжною. Ці можливості поки що недоступні для широкого комерційного використання. Проте кілька компаній самотужки намагається скористатися цим вже що у даної галузі знання.

Для успішного розпізнавання мови слід вирішити такі задачи:

Þ обробку словника (фонемного состав),.

Þ обробку синтаксису,.

Þ скорочення промови (включаючи можливе використання жорстких сценариев),.

Þ вибір диктора (включаючи вік, підлогу, рідну мову й діалект),.

Þ тренування дикторов,.

Þ вибір особливого виду мікрофона (приймаючи до уваги спрямованість і місце розташування мікрофона),.

Þ умови роботи системи та отримання результату із зазначенням помилок.

Существующие сьогодні системи розпізнавання мови грунтуються збиранні всієї доступною (часом навіть надлишкової) інформації, яка потрібна на розпізнавання слів. Дослідники вважають, в такий спосіб завдання розпізнавання зразка промови, джерело якої в ролі сигналу, підданого змін, буде достатньою для распознавани, але з тих неменш нині навіть за розпізнаванні невеликих повідомлень нормальної промови, поки що неможливо після отримання різноманітних реальних сигналів здійснити пряму трансформацію в лінгвістичні символи, що є бажаним результатом.

Вместо цього проводиться процес, першим кроком якого є початкове трансформування введеної інформації для скорочення оброблюваного обсягу те щоб її було б піддати комп’ютерному аналізу. Прикладом є «техніка зіставлення відрізків», що дозволяє скоротити вводимую інформацію з 50 «000 до 800 бітов в секунду. Наступним етапом є спектральне уявлення промови, отриманий шляхом перетворення Фур'є. Результат перетворення Фур'є дозволяє як стиснути інформацію, але й дає можливість сконцентруватися на важливих аспектах промови, які інтенсивно вивчалися у сфері експериментальної фонетики. Приклад такого уявлення див на рис. Спектральне уявлення досягнуто шляхом застосування широко-частотного аналізу записи.

Хотя спектральне уявлення мови досить корисно, пам’ятаймо, що изучаемый сигнал дуже різноманітний. Розмаїття виникає за багатьма причин, включая:

Þ відмінності людських голосов;

Þ рівень промови говорящего;

Þ варіації в произношении;

Þ нормальне варіювання руху артикуляторов (мови, губ, щелепи, нёба).

Для усунення негативного ефекту впливу варіювання голосового тракту на процес розпізнавання мови було використане безліч методів. Передусім розглядалася характеристика простору траєкторії артикуляторных органів, включаючи голосні, використовувані що говорять. Найбільш вдалі форми трансформації, використаної для скорочення відмінностей, були уперше представлені Сакоя & Чибо і називалися динамічними спотвореннями (dynamic time warping). Техніка динамічного спотворення використовується для тимчасового витягування та скорочення відстані між спотвореним спектральним поданням і шаблоном для говорить. Використання даної техніки дало поліпшенні точного розпізнавання (~20−30%). Метод динамічного спотворення використовують майже всі комерційно доступні системи розпізнавання, що дають високу точність повідомлення при використанні. Техніка динамічного спотворення представлена на мал.2. Спочатку сигнал перетворюється на спектральне уявлення, де визначається нечисленний, але высокоинформативный набір параметрів. Потім визначаються кінцеві вихідні параметри для варіювання голоса (следует відзначити, що дана завдання є тривіальної) і виробляється нормалізація для складання шкали параметрів, і навіть визначення ситуаційного рівня промови. Вищеописані змінені параметри використовуються потім до створення шаблону. Шаблону входить у словник, що характеризує проголошення звуків під час передачі інформації що говорять, використовує неї. Далі у процесі розпізнавання нових мовних зразків (вже які піддалися нормалізації і отримали свої параметри), ці зразки порівнюються з шаблонами, вже наявними у Словнику, використовуючи динамічний спотворення і схожі метричні виміру. У час його вивчається і доповнюється.

Очевидно, що спектральне уявлення промови дозволяє характеризувати особливості голосового тракту чоловіки й спосіб використання що говорять. Звичайний спосіб моделювання специфічних ефектів «модель-источник «- використання фільтрів. Мовний апарат моделюється з допомогою джерел, викликають резонанс, що веде до пікових точкам інтенсивності звуку в сусідстві з окремими частотами, званими формантами. При проголошенні звуків вібрація голосових зв’язок є джерелом порушення, й інші короткі імпульси викликають резонанс між голосовими зв’язками і губами. Оскільки мову, щелепу, губи, зуби і альвеолярна апарат рухаються, величину і місце цих резонансов змінюються, дає можливість відтворення особливих параметрів звуків.

Возможно побудувати дуже точну модель, також прямо змоделювати руху артикуляторов фізіологічно реальним шляхом. Використання цих моделей сприяли розумінню шляху, у якому відбувається мовної сигнал. Та оскільки спостереження над артикуляторами утруднено, залишаються недоліки. Хоча природа вокального тракту дуже впливає вихідний сигнал промови, це єдине обмеження, що слід брати до уваги, оскільки контроль над м’язами звукового тракту обумовлений сигналами моторного кортэкса мозку. Можливо, усе аспекти впливу акустичної структури контролюють сигнали і форму звукового виходу промови (це може бути доведено з систематичної погляду).

Аспекты впливу акустичної структури включає в себя:

Þ природу сегментів індивідуального звуку (гласные/согласные),.

Þ структуру стилю,.

Þ структуру морфем (приставки, коріння, суффиксы),.

Þ лексикон,.

Þ рівень синтаксису фраз і від пропозицій і.

Þ довгострокові обмеження промови (long-term discourse constraints) .

Ниже розглядається вплив обмежень і загальнодосяжний спосіб їхнього впливу виробництво сигналу промови. Слід також прийняти до уваги те що, що людський апарат сприйняття також має бути змодельований, вона сама собою накладає на процес сприйняття додаткових обмежень. Нещодавно процес сприйняття було старанно вивчене з допомогою методу сигнального придушення барабанних перетинок через порушення нервових клітин, які утворюють приблизно 30 тисяч нервових закінчень слухового нерва. Але вивчення нервових закінчень здатне лише прояснити формування простих синтетичних гласних. Перед дослідниками стало нове головний напрямок у сфері вивчення відтворення промови, що з інтеграцією всієї фізіології сприйняття людини. Нині з’являються деякі моделі явищ, які у вусі, і безпідставно очікується поліпшення розуміння процесу розпізнавання мови через повнішого розуміння характеристик цього впливу.

Что стосується рівня артикуляторного контролю, першим рівнем є індивідуальний фонетичний сегмент, інакше кажучи, — фонема. Багато природних мовами їх приблизно 40. Але і їхній набір істотно различатется. Тому, наприклад, англійські голосні може бути носовими, навіть ненавмисно, в нас саме французькій носализация гласних є фонетичним контрастом, і тому впливають на значення виголошуваного. У французькій мові носова коартикуляция домінує у гласних істотно впливає для сприйняття фонем і отже головне сенс значення. Хоча усі розмовляючі мають однаковий голос, використання різне. Приміром, використання кінчика мови чи прицмокування, коли у деяких африканських мовами. Зрозуміло, що природа артикуляционных рухів має сильний вплив на метод відтворення промови. Ці обмеження завжди активно використовують у практичних системах.

На наступному рівні лінгвістичної структури фонетичні сегменти згруповані в согласные/гласные, отже й в склади. Далі, залежно від ролі фонетичного сегмента всередині цих складів їх реалізація то, можливо сильно змінена. Приміром, початковий згоден в складі може бути реалізований як абсолютно відмінний від кінцевої позиції. Згодні дуже міцно зв’язуються між собою, що впливає на наступні обмеження. Наприклад, в англійському якщо початкова група згодних складається з трьох фонем, перша фонема мусить бути /p.s/, наступній фонемой може бути невимовний згоден, третьої чи /r/ чи /l/, як, наприклад, в слові /scrape/ чи /split/. Розмовляючі рідною уникають цих обмежень чи можуть активно їх використати у час процесу сприйняття. З вище наведених прикладів очевидно, що хоча й існують сильні обмеження, що впливають слухача, та їх сила перестав бути вирішальної під час промовляння промови. Тобто будь-яке моделювання процесу сприйняття то, можливо активною і може надати велику допомогу у розумінні головного сенсу.

Другой приклад, що складає необхідність застосування сфальцьованого пошуку, може бути представлено сприйнятті кінцевого погоджується. Серед багатьох ключових слів для розпізнавання кінцевого погоджується існує спектральна природа шуму, відтвореного після звільнення кінцевої перемички і переходу резонансу другий форманты в гласний, наступний цю перемичкою. Чимало дослідників вивчали ці впливу, і їх досліджень показали, що котре обмежує вплив обох вищеописаних характеристик для сприйняття варіюється природою наступного гласного, і отже, потужна стратегія розпізнавання повинна мати деякі знання про твердої позиції гласного перед кінцевим згодним до того, як буде саме розпізнавання кінцевого погоджується. Кінцеві згодні дають яскравий дуже цікавої комплексу фонетики, використовуваного для лінгвістичної забарвлення. Наприклад, під час розгляду слів rapid і rabid можна знайти 16 фонетичний відмінностей.

Кроме сегментного і слогового рівнів існують обмежені впливу через структури морфем, що є мінімальними синтаксичними одиницями мови. Вони містять у собі приставки, коріння, суфікси. Можна собі уявити, що це синтаксис на слоговом і морфемном рівнях, як і нормально розпізнаний синтаксис, характеризується способом, у якому англійські слова гуртуються у фрази і такі пропозиції. Можливо уявити ці обмеження як наслідки розгляду граматики поза контекстом. У цьому виді обмежень багато «гучних» варіацій сегментів промови, такі ж таки відносяться і до ієрархічним синтаксичним обмеженням.

Дополнительные обмеження на природі входу нової лексики у мову можуть бути рівнем слова. Багато досліджень виявили, що характеристика слів під час введення розбивки п’ять жорстких класів фонетичних сегментів може бути скорочена до мінімуму, часто маючи єдиний у своєму роді розпізнавання. Далі занадто посилюється ефект близько двох літер і фонетичних сегментів відтоді як і вивченні англійських і французьких словників було знайдено, що як 90% слів мали єдине значення і лише 0,5% мали 2 і більше альтернатив. На фонемном рівні було знайдено, що це слова щодо англійської словнику з 20-ти тисяч слів мали одне значення через безладних фонемных пар. Цей приклад допомагає показати, все ще існує котре обмежує впливом геть лексичному рівні, яке ще склала сучасних системах розпізнавання мови. Природно, що дослідження, у цій галузі тривають.

Кроме рівня слів синтаксис має додаткове обмежувальне вплив. Його вплив на послідовний порядок слів часто характеризується в системах чинником, який у часи чергу, характеризує кількість можливих слів, які можуть опинитися слідувати за попереднім словом у процесі проголошення. Синтаксис також має обмежувальні впливу просодические елементи, такі як наголос, наприклад у разі, коли наголос слів в incline і survey варіюється залежно від частини промови. Можливо у тому, щоб охарактеризувати наголос в слові, потрібно прийняти до уваги як індивідуальне слово, але вищенаведені додаткових обмежень синтаксису.

Далее, крім синтаксичного рівня обмеження домінують над семантикою, прагматикою і промовою, що погане усвідомлюється людьми, однак має дуже важливого значення для процесу розпізнавання.

Несмотря на складність описи характеристик джерел різних обмежень, важливу роль грають сучасні системи впливу, представлені всілякими варіантами проголошення звуків. Наприклад, система HARPI університету Сarnegie-Mellon University є системою, у якій звуковідтворення описується, як шлях через комплексну мережу. У цьому вся способі обмеження структури стилю, слова синтаксису пов’язані одним структурою. Структура контролю, використовувана на допомогу пошуку, є адаптацією динамічною програмної техніки. Більше сильний підхід було запропоновано моделями використання ланцюгів Маркова. Ці моделі їх як єдина структура, де можливості може бути точно вивчені експериментальним шляхом. Закодовані уявлення спектральною трансформації відтворення промови йдуть на перебування самого правильного шляху через мережу, і UMC нещодавно були отримані дуже гарні результати. Конче важливо підкреслити використання такого формальноструктурного підходу, що сприяє автоматичному визначенню класів символів через структурування і параметризацию.

При інший підхід бази даних, і пов’язані із нею процеси обробки використовуються структурою контролю. Такий підхід було старанно вивчене системою HEARSAJ 2, що була розроблено у інституті Сarnegie-Mellon University, і українською системою HWIM (hear what I mean). У цих системах комплексна структура даних, що містить всю інформацію про відтворенні звуків, вивчається з погляду конкретних обмежень. Але як вище зазначено, кожне з цих обмежень має особливу внутрішню модель, й має повний аналіз може бути зроблено. Для проведення аналізу, у цілому структура даних повинен мати взаємодія між різними процесами, і навіть кошти на інтеграції. Попри те що, що структура включає у собі кілька дуже різних джерел знань і його внесок у розуміння мови досить загальний, вона також має дуже багато ступенів свободи, які можна використовуватимуться ретельного системного відтворення. На відміну від надання цього, техніка, джерело якої в ланцюгах Маркова, має математичну підтримку. Щоб матимуть можливість сфальцьованого дослідження обмежень взаємодії і інтеграції у тих, необхідно застосовувати обидві системи. Ті системи, які описують обмеження взаємодії, сфокусовані багато в чому на відтворенні знань, і вони щодо слабко контрольовані, а системам з математичної підтримкою, які своєю чергою мають чудову техніку задля встановлення параметрів і оптимізації вивчення, бракує використання комплексної структури даних, необхідні характеристики обмежень високого рівня, як-от синтаксис. Обидва напрями у сьогодні перебувають у процесі розвитку.

В висновок треба зробити упор на вплив виробничої технології для цієї системи. Технологія інтеграції перестав бути великий проблемою для систем розпізнавання мови, навпаки, це є архітектурою цих систем, включаючи спосіб подачі обмежень. Потрібно здійснити грандіозні експерименти і знайти нові шляхи, що необхідні обмежувального впливу взаємодії.

Во багатьох засобах розпізнавання промови має типовий приклад стрімко що розвивається класу високо інтегрованих комплексних систем, які мають використовувати кращу комп’ютерну техніку й найостанніші досягнення сучасного математичного забезпечення.

Список литературы

Для підготовки даної роботи було використані матеріали із російського сайту internet internet.

Показати весь текст

Заповнити форму поточною роботою