Допомога у написанні освітніх робіт...
Допоможемо швидко та з гарантією якості!

Машины, що кажуть і слушают

РефератДопомога в написанніДізнатися вартістьмоєї роботи

Розроблено основні правила перетворення фонетичної ланцюжка в синтезовану акустичну волну. Эти правила, для формалізації яких створено спеціальну мову, працюють на сегментном рівні. Наприклад, правило, що б тривалість сегмента, запювется—* «0,35)>, де Т — номінальна тривалість; А, В, С, — перемінні, залежать від позиції і тривалості слова чи фрази. У… Читати ще >

Машины, що кажуть і слушают (реферат, курсова, диплом, контрольна)

УДК 621.391.

Розглянуто современныэ тенденції розвитку систем автоматичного розпізнавання і синтезу мовних сигналів. Освітлені проблеми побудови алгоритмів розпізнавання в неадаптивных системах мовного управления.

Описано експерименти зі створення систем автоматичного мовного запиту економічної інформації із елементами автоматичного обучения.

Книжка розрахована на науковців, інженерів і, які спеціалізуються із технічної кібернетиці і теорії інформації. Роботу рецензували і рекомендували до видання: академік АН СРСР А. А. Дородницын кандидат фізико-математичних наук.

М.Н.Маричук© Видавництво «Штиинца », 1985 р. Про I5Q3000000 — 62 39−85 M755(I2) — 85.

Проблема реалізації мовного діалогу чоловіки й технічних засобів — актуальна завдання сучасної кібернетики. Нині користувачами обчислювальних машин і коштів, оснащених обчислювальними машинами, стають люди й не не є фахівцями у сфері програмування. Особливо актуальна постало завдання спілкування чоловіки й ЕОМ з її появою мікропроцесорів і великих інтегральних схем. Нова технологія справила прогресивне впливом геть психологію як розробників сучасних багатопроцесорних ЕОМ .і нефахівцівпользователей, не підготовлених до того що, аби скористатися складної функціональної клавіатурою, мовою програмування, комплексними засобами управління технікою. Проблема мовного управління виникла, крім того, в зв’язку з, що деякі областях застосування мова стада єдиним можливим засобом оощения з технікою (за умов перевантажень, темряви чи різкої зміни освещенности, при зайнятості рук, надзвичайної зосередженості увагу об'єкті, який дозволяє відволіктися жодної хвилини, і т.д.).

Масове впровадження різних побутових технічних засобів, містять мікропроцесори та інші великі інтегральні схеми, зокрема, складних мікрокалькуляторів, пег-зональных ЕОМ, також вимагає спрощення, «демократизації «системам управління такі кошти. Ми повинні користуватися новою складної технікою як і, як користуємося годинами, радіоприймачем, пральної машиной. Приближается час, якщо будуть створено «механічні слуги «людини — роботи, які допомагають у побуті, виконують роботу з збиранні приміщення, які допомагають в сільськогосподарських і вартість будівельних роботах, і т.д. Безумовно, людина буде зацікавлений у голосовому управлінні складної побутової технікою й у кінцевому підсумку такими роботами.

Найближчі перспективи розвитку обчислювальної техніки, створення високопродуктивних ЕОМ п’ятого покоління, надеденных здатністю аналізувати зорові і звукові образи, також 3 вимагають здобуття права завдання автоматичного розпізнавання і синтезу мовних сигналів не залишалися поза увагою. Неможливо припустити, щоб обчислювальні системи мали продуктивністю кілька десятків і сотні мільйонів операцій на секунду і як вступних пристроїв використовували традиційну клавіатуру дисплея, перфоленты чи перфокарты.

У першій главі розглядається сучасний стан автоматичного розпізнавання і синтезу мовних сигналів (за публікаціями до 1981 р. включно). Зазначається зростаючий потік публікацій з цим проблемам, причому багато робіт присвячені питанням практичного побудови систем розпізнавання і синтезу промови на спеціалізованих микроЭВМ. У даний монографії не було використано роботи, опубліковані після 1981 р., оскільки матеріали до друку готувалися переважно до бтого часу. (южно лише відзначити, що з 1982 і 1983 рр. практичне напрям робіт у царині автоматичного розпізнавання і синтезу промови інтенсифікувалося. У нашій країні з’явилися перші промислові системи автоматичного ввода/вывода мовної інформації - «ІКАР », розроблена в НИИСчетмаше (м. Москва), СРД- 1, изготовленная в ОКБ Інституту кібернетики АН УРСР їм. В.М.Глушко-ва, і Марс, створена Мінським відділенням ЦНИИС. Ці системы, широко демонстровані на ВДНГ й інших виставках, мають приблизно подібними технічними характеристикамивони навчаються, настроюється на голос конкретного користувача і словник, який досягає йОО слів, і забезпечують точність розпізнавання близько 95& і втратило реальний час розпізнавання. Як методу, забезпечує нелінійне порівняння вхідних реалізації і еталонів, використовується динамічний програмування. Великих успіхів у створення систем що така досягнуто й у QUA і Банк Японії. У з 1982 р. почав виходити спеціальний журнал Speech Technology (Мовна технологія), у якому описуються області застосування промыиленных систем розпізнавання і синтезу промови, їх тестування, технічні характеристики і технологічні особенности.

У монографії основну увагу приділяється опису систем розпізнавання мови, працюючих без попередньої настройки на диктора. Автори протягом кількох років спільно працювали над цієї проблемою в Обчислювальному центрі Академії наук СССР. Идеология неадаптивных систем розпізнавання склалася ще 60-ті гг.-в спільних розробках Обчислювального центру та Інституту проблем передачі інформації АН СРСР. Але основні результати, достойні книзі, отримані авторами наприкінці 70-х — початку 80-х рр. Глава 1.

СУЧАСНІ ТЕНДЕНЦІЇ РОЗВИТКУ ПРОБЛЕМИ МОВНОГО ВЗАИМОДЕЙСТВИЯ.

«ЧЕЛС СТОЛІТТЯ — ЭВМ».

§ I.I. Деякі аспекти дослідження мовних сигналів на сучасному этапе.

У 1970;х рр. підвищився інтерес до проблем дослідження промови. Це з зрослими успіхами дискретної обробки сигналів на сучасної мікроелектронної техніки і значним поширенням микроЭВМ і мультимикроцессорньк систем, появу яких означало революцію у інформатики. Наукові досягнення у галузі автоматичного розпізнавання і синтезу промови порушили питання про практичному спілкуванні людини зі світом потужних зі своєї продуктивності і можливостям микроЭВМ мовою, близькому до природного. Надзвичайно складна техніка наблизилася до користувачанеспеціалісту, і користувач «зажадав », щоб спілкування про ЕОМ (зокрема, з інформаційними і керуючими ЕОМ) вироблялося більш звичному йому природному языке.

У зв’язку з цим привернули увагу робота зі створення перших промислових пристроїв обмеженого мовного введення та виведення інформації, і навіть досить розрекламованих систем автоматичного розуміння природною, злитої промови, з яких працювали у ОДА протягом I972-I976 рр. у проекті айра.

Слід зазначити, що автоматичне розпізнавання і синтез промови — не єдина у мовних дослідженнях, що привертає мою увагу фахівців і потенційно можливих потребителей.

Поруч із автоматичним розпізнаванням змісту повідомлення і синтезом промови (проблемами, що у основному і присвячена справжня монографія), дослідники мовних сигналів успішно вирішують завдання: автоматичного розпізнавання особистості говорить (тобто. вирішують завдання, хто це сказав), автоматичної верифікації говорить (підтвердження, чи той конкретна людина вимовив ця фраза), оцінки за голосу емоційного стану оператора, распознавания промови, вимовної на другий повітряної середовищі (гелиевая мова), визначення по мовному сигналу патології органів речеобразования, розробки досконаліших методів викладання іноземної мов (вироблення правильного акценту і інтонації з попередньої картини «еталонних «параметрів мовного сигналу), допомоги особам з дефектами органів слуху і речеобразования, очищення аналізу затупленной промови, створення систем вузькосмуговій помехоустойчивой зв’язку, а також інших завдань. Розгляд всіх цих негараздів не належало до плани авторів, які обмежуються тут простим їх перечислением.

У цьому главі коротко розглядаються основні публікації по проблемам автоматичного розпізнавання і синтезу промови, що з’явилися в I976-I98I рр. Відомості про попередніх роботах у цій галузі можна отримати гроші з [58,79,8б].

У СЮ9] наводяться основні лабораторії США, Великобританії, Німеччині й Західній Німеччини, тематика яких пов’язане з автоматичним розпізнаванням і синтезом промови. У [127] повідомляється, що проблему побудови машин, здатних сприймати мова людини (бажано з допомогою пра «л природної мови), залишається головним напрямом мовних досліджень, однією з ключових проблем кібернетики. У [144] відзначається зростаючий інтерес до цієї проблеми, пов’язані з збільшенням попиту малі устрою розпізнавання слів і появою нових компаній, активно що у створенні промислових систем автоматичного розпізнавання мови новому технологічної базе.

У нашій країні є широкий інтерес до проблеми дослідження мовних сигналів. Регулярно проводяться всесоюзні школи-семінари по проблемі автоматичного розпізнавання слухових образів (APGO). У кожній союзної республіці існують лабораторії чи групи, вирішальні ці задачи.

Стало традиційним класифікувати системи автоматичного розпізнавання мови на адаптивні, хто з підстроюванням під диктора і словник, і неадаптивные, щоб забезпечити роботи з довільним диктором-носителем норми вимови даного мови. До практичним системам першого типу ставляться vipюо, WRS і ІКАР, СРД-1, МАРС, до неадаптивным — експериментальні системи лабораторії Bell, ПЦ і ИППИ АН СРСР, пристрій фірми Dialog Systems. Слід зазначити, що системи автоматичного розпізнавання мови доки отримали широкого поширення, хоч і випускаються з 1973 р. серийно.

Більше доведеними рівня комерційних зразків є системи автоматичного мовного відповіді, тобто. системи, засновані на автоматичному синтезі промови. Промисловість навіть Японії випускає великими партіями синтезатори промови, ориэнтированные найбільш різноманітне застосування, — від дитячих игрушек, оснащенных голосовим висновком, до потужних інформаційних систем, відповідальних голосом по мовному запиту користувача. У основі нових б комерційних систем мовного відповіді лежать три основних способи синтезу — безпосереднє кодування мовної хвилі (дискретизація і стиснення), формантный синтез і синтез, заснований на лінійному пророкуванні [5]. (Докладний опис досягнень науку й промисловості, у області автоматичного синтезу промови дано в § 1.4).

У п’ятій главі докладно розглядаються особливості розробленої авторами експериментальної запросной системи мовного введення, яка з проблемно-ориентированным мовою, словниковий запас якого складають 120 слів. Система виходить з аппаратурно-программном методі розпізнавання, использующем інформативні ознаки мовних відрізків ^23,13,9?].

§ I. W l•/•л-номера відповідно ознаки, сегмента в слові і вислів у фразе.

Процес розпізнавання слів починався з вибору еталонівпретендентів, ідентичних вхідний реалізації, і кодів макровре-ненной структури та відмінних неї числом квазифонетичвских сегментів на величину трохи більше заданого порога. Найімовірніші пари гіпотез про слові приймалися методом динамічного програмування. У цьому враховувалися лексичні обмеження цього разу місце слова у фразі. Далі блок семантико-синтаксического аналізу ухвалював рішення про справжню послідовності слів у фразі. Працюючи з 6 операторами і навчанні системи кожному їх надійність розпізнавання слів становила 8836, а надійність розпізнавання фраз з допомогою блоку лінгвістичного аналізу — 95%. Точність верифікації диктора по довільній фразі - 96%. Система стійка до зовнішніх шумів до 65 дБ.

Інша система, розроблена сьогодні в Інституті системам управління АН ГрузССР, способна працювати у вищому урочне шумів (до 100 дБ і вище) СЗб]. Основний особливістю цією системою розпізнавання фраз, виголошуваних з паузами між словами, була комплексу помехозащищенных датчиків, що забезпечив прийнятне ставлення сигнал/шум на вході системи розпізнавання. Як приймача мовної інформації застосовувався ларингофон ЛЭМ-3, і навіть додаткові помехозащитные ознаки мовлення, як яких використовувалися артикуляционные характеристики ре-чеобразования. Безконтактні датчики дозволяли выделять:

— ознака, який відбиває зміна величини розчину ротовій щілини у час проголошення неогубя°нных звуков;

— ознака ступеня огубяения;

— ознака швидкості повітряного потоку у потового отвори [42]. Зак.480 17.

Вивчення властивостей мовного сигналу у просторі вибраних ознак дозволило розробити процедуру описи слів, що забезпечує відновлення як макровременной (мають на увазі пос-хедовательность дзвінких і глухих ділянок, і навіть пауз), так і квазифонемной структури промови. При випробуванні систем [ЗЬ,??] виявилася висока точність розпізнавання фраз. До сожалению, обе системи реалізовані на ЕОМ Ы-200, яка має малим обсягом оперативної пам’яті і слабким швидкодією, що робить час розпізнавання фраз був у 30 — 50 разів більше реального.

У ранках традиційного аппаратурно-программного напрями автоматичного розпізнавання мови працюють у ПЦ й Інституті проблем передачі АН СРСР [13,67,6?] .У основі методу лежить алгоритмічна обробка виділених спеціальної апаратурою інформативних параметрів коротких відрізків мовного сигналу (сегментів тривалістю 10- 20 мс). Послідовність цих відрізків і як висловлювання, потрібної дешифрировать. Параметри (ознаки) сегментів характеризують (більшою або меншою мірою) параметри мовотворчого тракту людини, що визначають особливості породжуваних звуков.

У Cl3] розглянуті алгоритми розпізнавання назв чисел від нуля до ста, причому система передбачає реальне час розпізнавання і довільного диктора. Алгоритм розпізнавання двоступінчастий і полягає з блоків розпізнавання і підтвердження фонетичної структури (верифікації). Якщо гипотезируемое слово не підтверджується (блоком верифікації), то вхідні реалізація порівнюється зі інакше кажучи, близькими до неї у просторі ознак, чи подається сигнал переспроса. При розпізнаванні двухсловных поєднань друге слово аналізується з кін.ХХ ст напрямі для її початку. Варіанти вимови, виходячи з яких створювався алгоритм, досліджувалися на матеріалі близько 2200 реалізації назв чисел, виголошуваних 20 дикторами. Через війну аналізу отримані варіанти вимови двозначних чисел. Чимало їх ми промовляються порівняно однаково і різняться ступенем редукції ненаголошених гласних, ступенем аффрицирова-ния м’яких вибухових, наявністю чи відсутністю змичок перед аффрикатами тощо. За інших числах може істотно порушуватися фонетична структура, пропуски окремих согласных. В умовах, коли можливий безліч варіантів проголошення, алгоритм повинен використовувати лише найбільш уживані варіанти, в яких зберігаються «оперні «звуки — ударні голосні, щелевые, вибухові, і навіть початкові і кінцеві звуки. I&.

У OS?] розглянуто використання мовного Управління в підсистемі АСУП з урахуванням мини-ЭВМ. Аппаратурно-программная система, розроблена в Львівському ордена Леніна державному університеті їм. І.Франка, вже експлуатується. Система використовує мини-ЭВМ ЕС-1010 як реального часу й паралельної роботи близько 90 відсотків виробничих завдань. Це накладає жорсткі умови на обсяг оперативної пам’яті, використовуваної для програм обробки мовного сигналу (всього 10 Кбайт). Словник системи 40 слів, які можна зорганізовані у командні фрази (5 слів у фразі). Використовується дев’ять типів запиту, прикладами яких може бути: «оперативне зведення випуску », «ресурси зміни », «вихідні характеристики ділянки першої настройки «тощо. Через жест- «ких ресурсів пам’яті система орієнтована працювати з однією диктором, сформировавшим свої еталони і у яких свій пароль. Робота системи у приміщенні машинного залу з рівнем шумів 68−75 дБ показала надійність розпізнавання фраз, перевищує У0%, а після переспроса — більш 9Ь%.

Недостатня надійність розпізнавання з першого ^^проголошення обумовлена переважно спрощеннями алгоритму розпізнавання, на які довелося піти заради економії «місця та оперативної памяти.

Аппаратурно-программное напрям представлено також системою [33], а її першому місці розпізнавання виявляла за тими словами сеґменти і класифікувала їх за способу освіти звуків на голосні, щелевые, аффрикаты, тремтячі, і навіть глухі і дзвінкі. З другого краю етапі деякі звуки классифицировались всередині цієї групи за місцем їх освіти. Через війну кожному сегменту присвоювалася Кодова последовательность, занимающая I байт. Чотири старших розряду цього коду вказували групову приналежність даного звуку, чотири молодших розряду визначали тип звуку всередині даної группы.

Для розпізнавання слів утворюється елементарна послідовність псевдослогов, сравнивающаяся з еталонами послідовності. При експериментальної перевірці роботи система розпізнавання на матеріалі 50 і 200 слів з участю трьох дикторів вона мала 93 і 84% точності розпізнавання соответственно. Анализ помилок показав, що у більшої частини вони викликали неправильними формуваннями сегментів контрольної реалізації чи еталонів, виникаючими при спрацьовуванні системи на початок проголошення від сторонніх шумів чи шумів дыхания.

Інтерес Вільгельма до побудові систем розпізнавання мови, які працюють із безліччю дикторов, стали проявяять й радянські дослідники, тради- 19 ционно котрі з одним диктором. Т. К. Винцюк і співавтори [21] показали, у межах існуючої однодикторной системи фонемного розпізнавання промови може бути створена многодикторная система розпізнавання, яку автори назвали кооперативной, поскольку система попередньо навчається за вибіркою кооперативу дикторів. Основні результати експериментів: при індивідуальному навчанні системи розпізнавання мови середня надійність розпізнавання по чужим дикторам вбирається у 80% (на словнику зі ста слов);

— при кооперативному навчанні середня надійність розпізнавання для чотирьох членів кооперативу складаємо 98^, що цілком природно для практичного использования;

— кооперативний навчання сприяє суттєвого перевищення надійності розпізнавання мови осіб, які брали участі отриманні навчальною вибірки (обох нових дикторів середня надійність розпізнавання 97 і 92%).

P.S 1.3. Розвиток систем распознавания/понимания злитої речи.

Завдання спілкування чоловіки й ЕОМ з допомогою естественной, слитной промови виявилася набагато складнішим, ніж спорудження систем розпізнавання ізольованих слів. Однією із перших практичних систем розпізнавання послідовності слитных словосполучень (п'ять слів вихідного словника) стала система фірми KdC. описана ранее.

Надалі будемо розрізняти системи розпізнавання *і системи розуміння злитої промови. У перших, зазвичай, розглядаються фрази, що складаються з послідовності слів, між якими синтаксична і семантична зв’язок або отсутствует, либо занадто жорстка (використовується автономна грамматика).Системы розуміння, на відміну систем розпізнавання, при декодуванні вхідного висловлювання використовують вищі лінгвістичні рівні мов, близькі до природних, працюючи з фразами, у яких припустимі стилістичні помилки, безглузді звукові поєднання, довільні паузи і междометия.

При побудові систем розуміння промови необхідна за більшою мірою, аніж за створенні систем розпізнавання злитої промови, використати досвід фахівців із штучного інтелекту, і навіть залучати спеціальні знання про синтаксисі, семантикою і прагматиці мови спілкування. У той самий час відзначимо, що розподіл на системи автоматичного розпізнавання й розуміння є 20 досить умовним і буде визначається коефіцієнтом розгалуження, що свідчить про, скільки можливих слів допускається після кожного слова висловлювання. У середовищі сучасних системах розпізнавання злитої промови середній коефіцієнт не превышает, как правило, 30 (у системі Nac-ISQ), а системах розуміння цей коефіцієнт сягає 200−300 (безглузді звукосполучення типу цмм …, эээ … тощо., і навіть паузи і вигуки так можна трактувати в СПР як можливі варіанти слов).

Оскільки автоматичне розпізнавання 300 — 300 слів у безперервному мовному потоці - складне завдання, веди використовувати звичайні математичні методи розпізнавання, то тут для її вирішення і залучаються вищі рівні знання про мову (синтаксис, сематика і прагматика), і навіть інші способи, щоб забезпечити звуження числа альтернатив кожному кроці ухвалення рішення про слові, використовувані зазвичай, у завданнях штучного інтелекту (ІІ). У зв’язку з цим у системах розуміння говорять про семантичної точності розпізнавання сенсу фрази, коли все складові (слова) може бути розпізнані правильно.

Перейдемо до розгляду систем розпізнавання злитої промови. Як правило, такі працюють за принципом фонемного розпізнавання, від точності якої загальна надійність роботи системи. Однією з найцікавіших вітчизняних систем із навчанням на конкретного диктора і словник є система, побудована Інституті кібернетики АН УРСР їм. В.М.Гяуи-кова [l9,20], розвитком якої стала кооперативна система розпізнавання рвчи[213.

У основу цією системою покладено математична модель мовного сигналу, у якій кожної фонемі відповідає отриманий алгоритмічно (на основі аналізу поточної автокорреляции сигналу, параметрів лінійного передбачення і поточного енергетичного спектра) певний набір бінарних ознак (двоїчний код). Модель враховує коартикуляционныв ефекти, зміна тривалості фонем і надасть динаміки інтенсивності сигналу. Модель автоматичного розпізнавання Інституту кібернетики АН СРСР використовує аналіз сигналу у вигляді синтеза.

Певний процеср породжує з елементарних еталонних сигналів по певних правил еталонну слитную мова (загальний всім слів алфавіт еталонних елементів містить близько 80 елементів кодів). Розпізнавання злитої рччи зводиться до потреби перебування найбільш правдоподібного еталонного сигналу злитої промови. 21.

У цьому моделі автоматично перебувають кордону окремих фонем, паузи, тип і кількість фонем в розпізнаваної послідовності про урахуванням апріорній ймовірності частоти народження фонем. Еталонний сигнал злитої промови формується з еталонних сигналів окремих слів шляхом нелінійного перетворення вихідних словесних еталонів. У цьому еталонні сигнали слів складалися в еталонну слитную мова отже паузи між словами мали різну тривалість (у цьому чис/ie і нулевую), а тривалість елементів фрази змінювалася плавно. Параметрами граматики, породжує еталонні фрази, були: алфавіт еталонних елементів, акустике-фонетические транскрипції слів, правила стикування слів у фразі, правила нелінійної деформації сигналів вздовж осі часу й деяких інших параметры.

Для експериментів з розпізнавання злитої промови (словник включав 200 слів) отримано 1000 цих слів, вимовлених одним диктором (навчальна вибірка). При випробуваннях система дала 0,5% помилок, і 3% відмов при розпізнаванні слів в злитому потоці. Розширення словника до 300 слів збільшило кількість помилок до 1%, причому відмов було 3,5%. При експериментах зі словником зі ста слів удалося одержати час розпізнавання (на ЕОМ БЭСМ-6), однакову I з на I слово [193 • Зазначимо, що близький до цього метод використовують у системах розпізнавання злитої промови (СРСР), розроблених у Відділі обчислювальної науки дослідницького центру фірми 1УЫ. У зв’язку з тим, що це фірну (як і, як і фірма Sperry Univac) активно займається дослідженнями з розпізнавання злитої промови після закінчення проекту arpa, розглянемо ці роботи більш подробно.

У С39] описана СРСР, основу якої лежить модель акустичного каналу, забезпечує автоматичне породження всіх можливих поверхневих форм гаданого висловлювання що з імовірностями їх породження. Це породження здійснюється з допомогою акустико-фонологических правил (АФП).приложенных до базової ланцюжку висловлювання. АФП враховують в злитої промови такі фонологические явища, як пропуски, вставки заміна окремих фонем всередині слів, підвищений тон промови, діалектні особливості, зміни на стиках слів і т.д.

Зручною структурою висловлення поверхневих Форд висловлювання з’явився спрямований граф, дуги якого позначені можливими звуками. Кожному вузлу графа відповідає розподіл ймовірностей, зазначених на виходять дугах. Дуги на кінцях графа, відповідного сукупності всіх поверхневих форм вимовлений- 22 ного слова, мають пов’язані з початковими і кінцевими состояни-яни умови сполуки, зумовлені фонологическими явищами на стиках слов.

Мова системи визначається автоматною граматикою, представленої графом і що включає 250 слів. Для розпізнавання використовувався лінгвістичний декодер-алгоритм послідовного декодування, який би перебування пропозиціями щодо максимальної апостеріорної ймовірністю по послідовності ланцюжка фонем, вступників із виходу спеціального акустичного процесора. Точність декодування висловлювань на контрольної вибірці становила (за даними на серпень 1977 р.) 95% при 6% помилковою інтерпретації, спричинені 0,6% помилок неправильного розпізнавання слів. Слід зазначити, що розглянута система була сияьно модифікована протягом останніх 3 роки: спрощений акустичний процесор, від якого быви зняті функції фонемной сегментації і маркування. Позначилося можливим, використовуючи алфавіт з 33 фонем, маркувати ними десятимиллисвкундные відтинки мовного сигналу безпосередньо по акустичним данным. Преимущество такого уявлення автори роботи [Ю5Д вбачають у тому, що, по-перше, інформацію про звуке, распределенная за довжиною фонем, виявляється більш корисною для розпізнавання, бо за цьому зростає кількість інформації, котра надходить від акустичного процесора до лингвистическоу декодеру. Удругих, сегментація і маркірування (ухвалення рішення про звуці) рознесені у часі, і лінгвістичний декодер може, виходячи з структурі окремих слів, під час порівняння вирішити, чи уявляє коротка маркіроване ланцюжок десятимиллисекунцных сегментів істинний звук чи йому це — помилкова помилкова ставка.

Подальше вдосконалення сантисенундного акустичного процесора (asAJ) з допомогою використання 45 еталонних фонетичних міток замість 33 дозволило точність класифікації (мовою зі словником з видів слів) до 98,8% на контрольному матеріалі 100 пропозицій [l07]. Слід відзначити, що ще досконаліший процесор (wbap), у якому отримані найкращі результати розпізнавання (0% помилок), використовує лише п’ять параметрів, одне із котррых — короткочасні зміни загальної енергії сигналу, а чотири — відбивають параметри гласних й описані до цього часу [l4l]. Цей процесор здійснює акустичне порівняння безпосередньо, используч величини акустичних параметрів, а чи не фонетичні мітки, пов’язані з сантисекундными відрізками. До кожного слова використовується модель з кінцевим числом станів, яка породжується алгоритмічно з відображеного 23 вимови. Кількість станів моделі одно довжині цього проголошення в сантисекундах. У моделі забезпечуються переходи зі стану до цього ж стану, до сусіднього і крізь одно. С кожним переходом пов’язано пятимерное гауссовское розподіл у просторі первинних параметрів. Середні значення й дисперсії вихідних розподілів, і навіть перехідні ймовірності формуються автоматично під час навчання на додаткових реалізаціях слів для формування узагальнених еталонів з допомогою алгоритму Вктер-би [39].

У процесорі wbap використовувана статистика заснована скоріш на особливості слів, ніж особливості звуков.

Слід зазначити, що з I976-I978 рр. були спроби збільшити обсяг що у СРСР фірми IBh словника до 1000 слів (тезаурус лазерних патентів). Попередні результати випробувань цієї системи описані у [106}. На тестовому безлічі фраз, куди входило 486 слів, помилка розпізнавання слів становила 33,1%, причому жодна з й0 контрольних фраз була визначено правильно — програма розпізнавання робила помилку хоча в слові кожної фрази. Розвиток цією системою [107] дозволило рахунок збільшення числа фонетичних міток до 52 знизити помилки у розпізнаванні слів до 20%.

У [108,109] розглянуті подальші поліпшення цією системою, які дозволяли зменшити кількість помилок при розпізнаванні слів з допомогою використання досконалішого сантисекундного акустичного процесора сзар-зоо, у якому число еталонних фонетичних міток було розширене приблизно двісті. При розпізнаванні 50 п «едл°жений, які включають 980 слів, не так розпізнаним 87 слів, у тому числі 34 слова, які становлять односкладові слова типу «of », «а », «are », «as «та інших. Перехід на роботу цією системою з безліччю дикторів описаний в [l59]. Фундаментальна обізнаність із новими дикторами реалізована з допомогою використання автоматичної селекції акустичних еталонів, выполняющейся двома різними способами. Один з методів, в основі якої лежить процедура Витерби З 39], реалізований з допомогою сантисекундного акустичного процесора TPIVIAI [l07], а інший, заснований на алгоритмі кластеризації, використовує акустичний процесор autociust. (У першому методі використовувалося 85 еталонів, у другому — 20D.) Точність розпізнавання слів становила під час використання першого алгоритму 65%, а другого — 90%. У1983 р. була однієї фірми про розпізнаванні словника ділової листування загальним обсягом 5000 слов.

Над проблемами розпізнавання злитої промови продовжує працювати фірма Sperry Univas, що у проекті АЙРА. Ця 24 фірма розробила з «стему автоматичного распозньвания слов, словосочетаний природничих пропозицій {l74]. За підсумками спектрального аналізу та лінійного передбачення в спектральною об-дасти звуки классифицировались за способом й місцю освіти. Система випробували на словнику з 31 слова двома дикторами. Точність розпізнавання ізольованих слів при використанні синтаксису завдання становила 95%. Попередні результати з розпізнавання злитої послідовності слів, проголошувані трьома дикторами, склали від 54 до 74% для завдання з ограничечным порядком прямування слів. Передбачалося, що у буде використано акустико-фонетичзские і фонологические правила, нормалізація дикторских вимов, просодические характеристики промови. Передбачалося також, що буде використано складніші процедури для синтаксичного і семантичного аналізу. У 1977 р. система працювала з цими двома словниками — з 36 (алфавит-но-цифровой словник) і 64 слів (словник мовного управління) [123, 153]. Для обох словників точність розпізнавання становила 95^, а середньої точності розпізнавання слитялс словосполучень — 88%.Дальнейшие розробки включали розширення словникового складу системи, числа типів пропозицій, використання правил фонетичної і словесного верификации.

У [l54] повідомляється, що систему Sperry Univac. було модернізовано на допомогу пошуку і верифікації ключових слів серед злитої промови. У цьому системі використовувалися обчислювані на деся-тимиллисекундных інтервалах параметри мовного сигналу, який провів через телефонний канал. Дослідниками був обраний досить потужний набір параметрівБезпосередньо по мовної хвилі визначилася частота основного тону. Спектральний аналіз з допомогою швидкого преобраэозания Фур'є (БПД) дозволяв отримати такі ознаки мовних відрізків: загальну енергію в смузі 100 -8600 гц, енергію сонорних (100 — 3000 гц), высокочастотную енергію сонорних (650 — 3000 гц), низкочастотную енергію (JOO — 600 гц), різницю енергій низьких і високих частот 1 кГц) діапазонах. Ці параметри виділяються у реальному масштабі часу з сигналі, яке надходить із АЦП в мини-ЭВМ, яка має середнім швидкодією 600 тис. операцій на I з. Параметри (число нульових перетинань і амплітудний значення сигналу на інтервалі аналізу кожному за з діапазонів) формуються програмно, та його значення дають можливість грубо класифікувати сегменти на 10 різних типів — пауэы (глуха змичка), наявність дзвінкої змички, що характеризують дзвінкі вибухові б, д, г, сонорный згоден, глухий фрикативный (переднеязычный чи заднеязычный), носовій, свистячий, гласний високого йди низького підйому. Надалі виробляється пере класифікація сегментів на 59 класів, окремі перетинаються у просторі признаков.

У другий стадії саме до середнього ділянці сегментів застосовують порівнювати з еталонами (цих еталонів кожному за класу сегментів то, можливо до 100). При порівнянні середній ділянку сегмента по-ступившей на вхід реалізації порівнюється зі безліччю еталонів, які подучены від спеціально навчених дикторів. Використання сегментації I рівня дозволяє, як йдеться у [l79], прискорити загальну сегментацію вп’ятеро порівняно з уніфікованої, заснованої .виключно на коефіцієнти лінійного предсказания.

Як зазначалося, ключовою проблемою систем розуміння Промови є верифікація сдоврсиьк гипотез. подожданных различ-иыми джерелами знань. Блок словесної верифікації повинен оце-нвдь, наскільки акустичні дані вхідний реалізації відповідають фонетичної транскрипції гипотезируеного слова. 2S.

Відповідно до оцінкою, словесний верификатор відкидає більше числі гипотезированных слів, зберігаючи можливі пра~ вильные, щоб згодом відібрати єдине з допомогою инфор~ мации вищих уровней.

У HearsayП слова народжуються або словесним гипотезато-ром знизу вгору (блоком POMOW), або преде називаються згори донизу семантикосинтаксичним блоком sass. Блок словесної верифікації wizard обробляє гіпотези над словами знизу вгору, використовуючи акустичну інформації і результати автоматичної сегментації. Кожен сегмент висловлювання представлений вектором фонемных ймовірностей (тобто. з кожним відрізком висловлювання зв’язуються певні звуки, яким присвоюються якісь ваги), Кожне слово словника записується еталонним графом можливих фонетичних произнесений, враховує все альтернативні варіанти произнесений. Однорідна модель, використовувана блоком словесної верифікації, дає можливість знайти оптимальне збіг однієї з еталонів (відповідне шляху одному з еталонних графів) і ділянки вхідний реалізації, відповідного слову.

У системі Hearsay-П при словесної верифікації стики між словами не розглядаються, лише їх внутрішня обробка. wizard намагається верифікувати слова, нібито вони перебувають у изоляции.

При верифікації слова обробляються знизу вгору так: передбачені моменти початку й кінця слова пов’язуються з відповідними сегментами висловлювання bseg і eseg. Досліджуються всі дороги в еталонних графах можливих слів, які збігаються з відрізками і вхідний реалізацією. Порівнюються з еталонами відтинки, що починаються в (baeg-I: beeg +I) і закінчуються в jesegI I eeeg +I (, тобто. паралельно розглядаються дев’ять можливих ділянок висловлювання, що зумовлює дев’яти оптимальним шляхах на еталонних графах, з яких вибирається той. оцінки якого найбільші, чи найбільш відповідають оскільки він розглядався ділянці. Зрушення однією сегмент вправо чи вліво дозволяє уникати помилок при поданні вхідного, висловлювання (акустичних даних) різними джерелами знань. У результаті блок словесної верифікації може змінювати час словесних гіпотез, і навіть їх оцінки. Слід зазначити, що у проектах ВШ (Speechlis і HWIM) йде безпосередній перехід від фонетичного описи до словесному, то Hearsay-П використовується ще проміжний, слоговый рівень між словами і звуковими сегментами. Для підтримки словесних гіпотез використовуються звані типові склади, слоготипы (syltypes). Ццея слоготипов зводиться до того що, що склади, мають схожі сегменти (наприклад «та », «па »), ставляться одного типу. Ніяких спроб розрізняти слова з складів в Нвагвау-П не робиться. Кожен слоготип характеризується слоговым ядром, обумовлених евристично присвоєними сегментными знаками і становищем максимуму енергії на відрізку. До кожного слоготипа гипотези-руются слова, у яких зустрічається даний стиль; багатоскладні слова відкидаються, якщо погано погоджуються про послідовністю слоготипов. Докладний опис слогового гипотезатора pokow міститься у З 1783.

У Неагаау-П є ще один гипотезатор — гипотеза-тор словесних послідовностей wozeq. Порівняно зі стратегією однословных «острівців надійності «багатослівна послідовність бажана з двох причинам:

1) довіру до гіпотезі про послідовності сдов більш високо, ніж у однословной гипотезе;

TOPIG P. S, 6: CACTIOH: PASS,.

LEVEL: 40) яких і визначає клас можливих предметів розмови (.Topice) в термінах їх семантичних подклассов.

Як згадувалося, sass має набір сильних і слабких коштів, які представляють різні види обробки інформації на синтаксичному і семантичному уровнях.

1.Правило розпізнавання породжує гіпотезу про фразі з досить надійним гіпотезам про складових фрази. sass розглядає слова розпізнаними, якщо їх оцінки (в окулярах), певні іншими джерелами знанчй, перевищують якийсь поріг. Складові фрази мають також задовольняти деяким структурним вимогам — наприклад, таких як тимчасова суміжність між складовими. Правила розпізнавання ведуть обробку знизу вгору, рухаючись від часткового грамматического розбору до повного. Вони уявляють собою сильні кошти обробки (сила оцінюється ймовірністю те, що послідовність розпізнаних составгчющих може якось осмислено інтерпретуватися) .

2. Правила передбачення гипотезируют сио-во чи фразу залежно від ймовірності контексту, певного на попередніх етапах розпізнавання висловлювання. Правила передбачення виконують обробку, перекриваючи тимчасової ин-Тврвая «острівцями надійності «. Ці правила необхідні бо ні все слова в вимовленому висловлюванні може бути расчознаны знизу вгору, тобто. джерелами знань нижніх рівнів.ияа правила передбачення визначається умовної ймовірністю те, що передбачені складові можна висловлюванні при Денном (распознанном раніше) контексті, ата сила назад пропор- «тонаяьна числу составляющих, которые можуть з’явитися у цьому є. Зак.480.

3. Правила повторного розбору (res-pelling rules) виробляють обработка7 згори донизу і чисельно оцінюють складові предскапанной фрази, розбиваючи гипотезируемое пропозицію на гіпотези для послідовних складових або ж «розщеплюючи «гипотезируемый клас на альтернативні гіпотези щодо різноманітних складових висловлювання. Правила повторного розбору (прочитання) проводять обробку, повертаючись до словесному уров. ню, отже пророцтво (про фразі) верхнього рівня може піддаватись випробуванню (слово по слову) джерелами знань нижнього рівня, якби верхньому рівні щось сходится.

4. Правила постдикции несЭходимы у тому, аби після сформування поняття підтвердити його великою кількістю «очок довіри », дати їй більш гарну оцінку, підтвердивши існуючу гіпотезу про фразі іншими гіпотезами. Правила постдикции як більше сильні включають правила передбачення і повторного прочитання, которуе занадто слабкі, щоб підтвердити створення гіпотези, але можуть зробити корисний внесок, коли гіпотеза вже є. Правила постдикц^и виконують три функції: а) дозволяють об'єднувати висновки, підтримують оцінювану гіпотезу з урахуванням різних джерел знань; б) дають воамсвность гилотеэирсвать слова фрази з низькими початковими оцінками у цих колегіях розпізнавання з урахуванням контексту" в) сприяють фокусуванню увагу головні напрями, визначених зростанням очок гіпотез тих слів, які контекстуальний можливі (і такою ооразом можна вважати правильними), отже обробка висловлювання на цих напрямах іде за рахунок списку пріоритетів під час першого очередь.

Автоматичне перетворення описової інформації про граматиці мовиHearsayП, заданої параметрическими структурними уявленнями (psr), в процедурну форму здійснює ком-пиллятор суытет, який транслює ці подання у правила розпізнавання, передбачення, повторного прочитання і постдикции. cvshet розбиває послідовності слів, складових висловлювання і представлених PSR, на пари послідовних еталонів, формуючи нові подпоследовательности і породжуючи їм відповідні правила [ 13Й 3 .

Однією з цікавих систем автоматичного розпізнавання злитої промови — система harfy, розроблена у проекті arpa (США, Піттсбург). Цю систему проти іншими розробками, котрі проводили за цим проектом [l5lj, наиболее близька до практичного використанню. Словник harpy становить ЮНИЙ словоформ — слів телефонної информацион- 34 но-справочной служби про новинах. При випробуваннях harpy отримали точність розпізнавання фраз, рівна 95% на навчальною вибірці і 92^ на контрольної. Система сприймає слитную мова, яка містить стилістичних помилок. У harpy інформацію про мові представлена фонетичним графом — інтегральної мережею переходів з кінцевим числом станів, не котра враховує апріорні ймовірності переходів. Розпізнавання здійснюється порівнянням вхідний реалізації, представленої маркованими сегментами, з цим сетью.

Система містить кілька евристичних процедур підвищення її характеристик: виділення подсетей і стиснення їх задля зменшення загального обсягу мережі, автоматичне складання описи коартикуляционных явищ на стиках слів тощо. Час розпізнавання системи під час випробування становила 2D з на 1 з промови (є дані, що на даний час він снижено до Зс на I з речи).

Синтаксичні значення hahpy однозначно визначаються незалежною від контексту поруч вироблених правил, формализующих проолемноорієнтований мову. Лексичні знання представлені словником, який містить символічну фонемную транскрипцію всіх альтернативних произнесений. Правила стиків, як й у системах IBM, враховують фонетичні явища при поєднанні слів в разом промовлене словосполучення. Як первинних параметрів використовуються коефіцієнти автокорреляции і лінійного передбачення. У системі Нлару своєю практикою здійснюється адаптивна підстроювання під диктора з допомогою десяти узагальнених еталонів, характеризуючих усереднений вокальний тракт групи дикторів. На базі harp? розробили голосової введення в картографічну систему (vigs), дозволяє дублювати клавіатуру при введення картографічної інформації [l3l]. B час система harpy перекладається мультимикропроцессорную базу [36]. час торкнутися короткому опису систем «розуміння «промови. Їх розробка почалося після появи звіту [161], у якому відомі американські фахівці з галузі штучного інтелекту, розпізнавання мови, системного програмування, математичної лінгвістики виклали погляди на проблему побудови систем, сприймають слитную мова, вимовну на природному мові. Основні становища звіту [161] стали основою п’ятирічної програми arpa.

Досить докладні огляди по початковому етапу робіт над системами розуміння промови зберігають у [79,85]. Тож тут розглянемо лише підсумки проекту arpa у сфері створення 35 конкретних СПР. Можна вважати завершеними (більшою або меншою мірою) системи розуміння промови трьох американських організаційОЫП, 3RI і ввн [179, 162, 187, 189].

Основні зусилля c,?J були спрямовані на побудова системи розуміння промови Неагаау-1 «^заснованої на принципі: «Висування гіпотези і його підтвердження різними незалежними джерелами знання мові «. Окремі елементи цією системою докладно висвітлені у [79, 85, 8b, I2U, 179].

Система Псагвву-п випробували на IOU пропозиціях, що складаються з IUH словоформ, аналогічних словника системи harpy, описаної раніше (система HARPY мала граматику з набагато простим синтаксисом). Помилки при розпізнаванні фраз в Неагаау-п составляди 16%, а час розпізнавання перевищувало час розпізнавання системи harfx у два — 33 раз.

У фірмі вен на I етапі розроблялася система розуміння промови Speeohlis, як мовою якої використовувався спрощеному варіанту мови ИПС lunar; система Ь^-паг давала можливість аналізувати зразки місячних пород[?9,Уб1 В подальшому була вдосконалена тієї ж фірмою нову систему розуміння промови нулі (Hear what I mean) З урахуванням недоліків Speechlia. .Мова системь. hwim належить ^ області бухгалтерських розрахунків. Замість роздільних синтаксичного і семантичного блоків системи Speechlis, нздш має єдиний, семантико-синтакси-ческий модуль, який реалізує так званий блок «прагматичної граматики ». Ця граматика представлена тут у вигляді сіті й грунтується не так на таких синтаксичних категоріях, як підлягає, присудок, определение, а на семантичних — «поїздка », «чи пекло », «відстань ». Словник itvim включає 1100 словоформ [185, I8yJ Прагматична граматика, хоч і жорстко пов’язані з проблемноорієнтованим мовою, вельми зручне длк обеспеченля простих принципів використання синтаксичних, семантичних і прагматичних обмежень мови, які потрібно робити підвищення точності інтерпретації висловлювання. По-видимому, на першо" етапі побудови автоматичних систем розуміння промови доцільно і надходити, тобто. розділити завдання використання словниками (наприклад, при автоматичному машинному перекладі текстів) та використанням синтаксису і семантики для побудови СПР. dc ьтором разі завдання трішки інша — і більше складна, і іще (проста. З одного боку, немає впевненості у правильному распоэ навании всіх складових висловлювання; неясно, існують я «.

36 взагалі прогалини (паузи, вигуки тощо.) на тимчасової оси, где шукати ключове слово тощо. Але з іншого боку, ми обмежуємося досить простим проблемно-ориентированным мовою з відносно невеликим словником і спрощеними граматичними конструкциями.

У системі нто, 1 акустична інформація використовується блоками акустикофонетичного розпізнавання (apr) і периметри-чеокой верифікації слів (?та). Результатом роботи APR є фонетична транскрипція «знизувгору » .

Блок pvw здійснює верифікацію «зверху-вниз », води словесна гіпотеза підтримується акустичним рівнем. Основний програмний модуль верификатора — програма синтезу слів по правилам.

Отдичие системи h. ". «im від Speechlia полягає й у характері акустико-фонетического розпізнавання — в наявності в системи HWIM блоку селективною модифікації (зМ), котрий дає можливість реалізувати двоступеневу сегментацію і маркірування. Програма SM не вдома породжує грати сегментів, представляє можливі альтернативи фонам. Кожен із сегментів спочатку маркується однієї міткою. Потім у залежність від цієї попередньої класифікації обчислюються деякі величини аку-отичаских параметрів і модифікуються оцінки даних фонем. Функції пяотности ймовірностей, використовувані блоком сеяективной модифікації sM, вступають у бяок агер (Acoustic Rionetic Experiments Facility), який містить модулі, дозволяють моделювати звуки мови і перевіряти параметричні багатовимірні розподілу ймовірностей для низки фонетичних класів, що дозволяє повніше використовувати багато незалежні параметри одновременно.

Програма а? виділяє як грубі класи фонем, а й виробляє ідентифікацію всередині класів. Характеристики фонам в злитої промови сильно залежить від контексту, тобто. спостерігається наявність кількох аллофонов, котрим оцінки сильно перекриваються. Тож у hv/im для кожного класу фонем встановлюється ряд фонетичних ознак і використовується таблиця, у якій показано ранжування цих ознак для аллофонов кожного класса.

Після сегментації висловлювання і побудови сегментной грати, перекрывающей висловлюйте відрізками, відповідними фонемам, блок управління викликає процедуру лексичного пошуку на сканування вздовж всієї сегментной грати та пошуку Ib найбільш підхожих слів. Через великий невизначеності на стиках 37 слів її долають зліва праворуч і справа-наліво. Сяова, відібрані процедурою лексичного пошуку, утворюють словесну грати, де їх використовуються при наступної обробці. Блок управління, обравши з УО відібраних при скануванні слів одне з найбільшим вагою (яке здобуло найбільшу оценку).пытается, виходячи з прагматичної граматиці, будувати гіпотезу про більшому відрізку сигналу. Якщо розширення гіпотези неможливо, блок управління бере таке (по вагу^) слово словесної грати; якщо це слово підходить, то розширюють двухсловную гіпотезу, а якщо ні, то підбирають нове ключове слово. так продовжують до того часу, поки що не побудована гіпотеза про все высказывании.

Якщо цю систему неспроможна сформувати правильну гіпотезу про фразі або якщо вичерпані ресурси, то считается, что система має не змогла інтерпретувати висловлювання. При розширенні гіпотези блок управління викликає синтаксичну компоненту, що дає змогу оцінити гіпотезу передбачити нові слова. Синтаксична компонента позначає кожне слово словесної грати, яку можна використовувати для розширення гипотезь ", й встановлює, які ще слова потрібні на утвердження цієї гіпотези («підказка «згори). У зв’язку з останнім може бути зроблено додаткові перевірки еталонами для перевірки, чи немає у поточної реалізації висловлювання необхідних слов.

Потому, як синтаксична компонента («прагматична граматика ») зробила свої припущення слів зліва-направо, вона викликає процедуру лексичного пошуку для перевірки нових гіпотез над словами. Оцінки слів, оцінки гіпотез про відтинках фрази з оцінкою фраз («подій », як його називають розробники Wi «iu) впливають загальну стратегію інтерпретації висловлювання. Подіям присвоюються окуляри, приблизно рівні сумі очок слів підтвердженої гіпотези і слів, необхідних розширення цієї гипотезы,.

Спробуємо розглянути приклад, з яких стане зрозуміло, як працює механізм аналізу припущення, заснований на так званої «островковой стратегії «. Нехай на вхід системи надійшла фраза:

" What Is the total budget figure? «(Яка загальна сума бюджету?). При перегляді фрази справа-наліво процедура лексичного пошуку формує таблицю: 17 17 24 22 11 182 178 174 -38 -10 -Rd -R 1. FIGURE 2. FIGURE 3. TOTAL 38 4. FIGURE1723169−535. YEAR2023107−23б. УСУ2 022 100−317. IS3596−318. ABOVE10149409. BUDGET111781−1610. IT6880−1611. IS2576−3112, ТО7973−4613^ WOULD0372−3114. -34 572 015, FIGURE172169−38Слева направо16. TOTAL — ED71?1 971 017. FIGURE1724182018. WHAT03178019. PIOURE1722178−3820. TOTAL711174−1021, FIGURE1723169−5322. HJDGET1117154−1623. VKAH2023107−2324. YOU2022100−3125. IS3596−3126. FIGURE — ED172389−3827. FIGURE172883028. BUDGET111781−1629. IT6880−1630. HIS2576−31.

Список представляє 30 можливих слів при скануванні справа й зліва, позиції правої та скільки лівої кінцевих сегментів слова, очок, яке одержало дане слово при порівнянні еталонів з ділянками вхідний реалізації на місцях між початкової ідеї та кінцевої точками гипотезируемого слова, логарифма ймовірності проголошення даного слова. Список може описувати якісь специфічні властивості, пов’язані з вимовою (тут скрізь пропуски — -), і навіть показувати, справа чи зліва вироблялося порівнювати з еталоном (тут показники R і L).

Аналіз списку гипотезируемых слів показує, що найбільше очок досягло слово totaled (при скануванні зліва-направо). Бто слово посідає у словесної решітці позицію від сегмента 7 до сегмента 12 і має вагу 197. І тому слова соа- 39 дається однословная гіпотеза, що має розширити синтаксична процедура. Але прагматична граматика Демшевського не дозволяє формувати фразу з те слово у часі. Отже, ніякого передбачення можливий контексті з те слово зроблено Сыть неспроможна. Слід можливість перейти до наступному (по оцен. над окулярах) слову figure. Зазначимо, що є сім різних порівнянь з те слово приблизно гом ж місці висловлювання, трохи відмінних очками.(Это пояснюється різними фонологическими ефектами на кінцях слова, можливостями різної сегментації в сегментной решітці і різними можливими произнесениями цього терміну, відбитими в еталонному фонетичному графі; в кашем цьому випадку всі пов’язані з невизначеностями сегментації цього слова наприкінці.) Власне кажучи, те, що один голос є у списку ймовірних кандидатів кілька разів, є гарним ознакою того, що це слово справді у высказывании,.

Щоб уникнути надлишкової обробки, автори вводять поняття «нечіткого словесного порівняння », яке узагальнює порівнювати з еталоном один і тієї самої слова, появи приблизно на тому ж місці. Завжди, коли словокандидат подібно figure траплялося кілька разів, у результаті розширення гіпотези використовуються нечіткі кордону. Отже, для слова figure пропонується розширити гипотезу.

Після обробітку запропонованого слова (з приблизно відомими межами) процедура Syntax підбирає слово виос-зт, який закінчується позицією 17. У прагматичної граматиці hwim слово budget може використовуватися лише словосполученні budget figure й, оскільки це словосполучення перебуває у кінці пропозиції, ніяких слів справа більше нічого очікувати. Блок управління використовує далі знайдене словосполучення в ролі розширеного «острівця надійності «на допомогу пошуку слів від позиції II на початок высказывания.

Звертаючись до синтаксичної процедурі, блок управління виявляє, що прагматична граматика допускає ще кілька слів, крім слів з списку, розглянутої раніше, належала для розширення цієї гіпотези. 9то пов’язано про те, що службові слова, которые можуть стояти перед словосполученням budget. figure, мають занадто малий вагу (окуляри). Через війну порівняння сегментів, розташованих зліва слова budget, і еталонів слів, що допускаються прагматичної граматикою, отримують новий список, яким розширено попередній (у списку залишаються самі слова, оцінки яких перевищують вктоочающий модель пользова-теяя і семантичну память.

Експерименти з vdms показали, що мовної сигнал обмежується по смузі на частоті 9 кГц і робить на 12-разрядный аналого-цифровий перетворювач, де квантуется із частотою 30 кГц. Затії оцифрована мова проходить через ЦАП і результирую щая аналогова мова надходить втричі полосовых фільтра, мають смуги пропускання I&0 — 190, 990 — 2200 і 8000 — 5000 гц. Через інтервали удесятеро мс з фільтрів знімалися два параметра — максимальна амплітуда і кількість нульових перетинань. Отримані шість параметрів використовувалися для грубої акустичної маркування кожного десятимиллисекувдного отрезка.

Щойно слово вступає у систему, формується і зберігається у пам’яті информахцж про неї, зокрема, відзначається, скільки висловлювань тому це слово пролунало і былс воно використано, наскільки мабуть, що це слово повториться вкотре. У системі враховано, що різні контекстные слова передбачені тематичної пам’яттю, «старіють «від висловлювання год висловлюванні і ймовірності їх використання зменшуються. Вів* ймовірність пророкованого слова Падає нижче заданого нaпepe^ порога, це слово що час не рассматривается. Все ет «в vdms виконує блок діалогового рівня Discourse, є найбільш оригінальним блоком системи. Процедури, які 42 реалізує Discourse, засновані на изучении, диаюга між двома людьми, спільно які виконують деяку роботу. Ьыло знайдено й Досмаяизовано вплив контексту на характер диалога, причем розглядаються два виду контекстного впливу. Глобальний контекст забезпечує одна частка обмежень при інтерпретації висловлювання. Ці обмеження використовуються при ідентифікації групи іменників. Другий вид обмежень пов’язані з поточним контекстом сусідніх висловлювань. Їх використовують при інтерпретації скорочених, еліптичних висловів і зокрема, додають додаткові фрагменти до скороченому висловом. Як прикладу висловлювання, що може сприйняти система VDl «iS, ыож «але привести таке: «Надрукуйте типи підводних човнів, у яких понад сім ракет » .

СПР vdms — spi побудовано базі проблемно-ориентированного языка, доступного інформаційно-пошукової системі даних про підводному флоті США, Великій Британії та СРСР. Загальний словник системи становить 450 слів [ 182], Система використовує синтаксис спонтанного англійського діалогу, що дозволяє запам’ятовувати інформацію про раніше вимовлених фразах і декодировать поточні, використовуючи попередні висловлювання. Система vdms-sri найбільш повно використовує ідеологію штучного інтелекту при інтерпретації усних висловлювань, які можна сильно «усіченими » .

Для випробування системи було пророблено серія дослідів, які мають визначати найкращу структуру СПР такого типу. Було випробували 16 експериментальних систем, що надали точність інтерпретації висловлювань від 46,7 до 73,3%, причому якщо итерировать несуттєві оаибки розпізнавання, то точність (для найкращою конфігурації системи) зростає до 81,7%. У [1в2~ відзначається, що ефективної допомогою при реалізації мовного діалогу виявилися користування та перевірка контекста.

Починаючи з 1976 р. почали з’являтися роботи про будівництво СПР в Західної Європи (Франція, Італія, ФРН), Японії СССР. Уровень досліджень по СПР у країнах (обсяг словаря, сложность мови) поки нижче, ніж робіт, виконаних США у проекті arpa. Сяедует, втім, відзначити, що розробка «малих «СПР виробляється у відповідність до тенденцією [145], яка заклта-в"оя у цьому, щоб «заповнити прірву «між практичними сис-^мами розпізнавання слів і щодо громіздкими СПР, выполнившимися у проекті arpa.

У С142]приведена таблиця, яка, на думку автора, характеризує дійсне стан і майбутнім розвитком комерційних систем розпізнавання/ розуміння промови до 3000 г.:

431 982 — БІС системі розпізнавання речи.

1985 — Високоточні системи розпізнавання ізольованих слів з більшими на словарями.

1990 — Системи автоматичної диктовки з обмеженою словником, керовані синтаксисом языка.

I&95 — Системи розуміння промови з необмеженим словником, але з обмеженнями на синтаксис.

2000 — Системи розпізнавання злитої промови з необмеженим словником і без обмежень на синтаксис.

§ 1.4. Системи автоматичного мовного ответа.

1.4.1. Комерційні системи автоматичного синтезу промови. У системах автоматичного мовного спілкування «человек-ЭВМ «є автоматичний мовної висновок, дозволяє людині отримувати необхідну інформацію звичайній формі мовного сигналу. Проблема автоматичного мовного виведення вважається простіший, ніж автоматичне розпізнавання промови (у разі мова сприймає людський мозок, -; тоді як у другому — автомат). Тому роботи з побудові систем автоматичного мовного відповіді (САРО) промисловість отримала раніше, ніж роботи з автоматичному розпізнаванню/ розумінню промови. Синтезатори речи, являющиеся головними вузлами таких систем, вже виготовляються промисловістю США, деяких інших країнах [30, 46, 51, 52, 100, 142]. У саязи з її появою мікропроцесорів і спеціалізованих БІС, соціальній та зв’язку з, що користувачі зажадали, щоб інформаційні, керуючі системи й решту системи, засновані .на використанні ЕОМ, «говорили », фірми, випускають ЕОМ чи окремі вузли ЕОМ, почали випуск устаткування дея систем мовного відповіді. Побудовано перші промислові системи, який забезпечують одночасне автоматичне розпізнавання (автоматичний речеэой запит «з допомогою обмеженого лексикону) і мовної відповідь. Перше застосування такі знайшли у «інтелектуальних «терміналах великих ЕОМ (чи мереж ЕОМ), у деяких системах військового призначення, в приладах побутової електроніки [52, 60, I40t .

Слід зазначити також, що продовжують розвиватися наукових досліджень у створення систем автоматичного синтезу. Ці праці, направлені основному для підвищення якості (чіткості і природності) синтезируемой промови (без підвищення обсягу інформації, необхідної керувати син;

двзатором), проводять у США [103, 112, 129, 133, I??], СРСР f48, 63, 54], Японії [l3b, I62], Великобританії [l64], Канаді [167], Франції [146 171], Італії [l60,JSl], Мексиці [ill], Западной Німеччини [122, 184], Норвегії [137] та інших странах.

У [142] відзначається, що ЕОМ п’ятого покоління (мультиыикро-процессорные машини) будуть значно ширше, ніж сучасні ЭЗУ, використовувати введення та виведення інформацією мовної формі. Передбачається, що у найближчим часом ЕОМ, обладнані системами мовного виведення, настільки проникнуть наша життя, що цілком змінять взаємовідносини чоловіки й техники.

У основі систем автоматичного мовного відповіді, що у справжнє час ринку, лежать три основних способи синтезу рэчи — безпосереднє кодування мовної хвилі (дискрети-аация і стиснення), форматний синтез і синтез, заснований на лінійному предиктивном кодування (лінійному пророкуванні). У [б] наводяться системи автоматичного мовного виведення — найпоширеніші нині США системи що така. Так, в сис-томч Votrax процес створення усного висловлювання за текстом, що надійшов із ЕОМ чи з клавіатури в закодованому виде, начинается про розбивки тексту на основні звукові влементы — фонеми. Оскільки фонемная ланцюжок, відповідна тексту, не забезпечує високочастотної промови, то ця ланцюжок програмно перетворюється на ланцюжок аллофонных кодів (аллофоны — це варіанти проголошення фонем залежно від контексту; різні дослідники називають різне число аллофонов кожному за языка;в системі Votrax використовується 12Ь аллофонов, що дає змогу отримувати більш природну мова). Для породження злитої промови аллофоны Повинні плавно переходити один у друга.

Кожному аллофону відповідає котра управляє слово, що впливає на апаратний синтезатор звуків, що у два етапу переробляє ланцюжок 12- розрядних управляючих слів. У першому етапі Котра Управляє слово декодируется і переробляється в аналогові управляючі сигнали, що задають частоту основного тону, тривалість зміни у часі амплітуди і гармонік, що з кожним ал-Яофоном. З другого краю етапі реалізується власне синтез. У цьому параметричні сигнали, впливаючи на генератори звуку і прог-Рачмируемые фільтри, перетворюються на звуки промови. Дзвінкі звуки °оздаются з допомогою генератора регульованої висоти тону, а глухі - з допомогою генератора біл го шума.

У приладах Texas Instruments великі інтегральні сис-^ы (БІС) моделюють голосової тракт людини. У основі моделі •вяит метод лінійного передбачення (чи лінійного предиктивного ко;

дирования — ЛПК). При ЛПК на кристал синтезатора подаються значення коефіцієнтів для цифрового фільтра другого порядка, который моделює динаміку форматних частот. Обчислення коефіцієнтів фільтра виробляє інша БІС — мікропроцесор тыз -1000. Третя БІС зберігає частини слів в параметрическом вигляді. Відтворення розмови з цим параметрами здійснює складний програмний алгоритм. Перевага методу ЛПК залежить від тс-л, що вона дозволяє скористатися тим, що голосової тракт людини стосовно повільно змінює свої параметри при речеобразовании. Это властивість обмежує діапазон зміни форматних параметрів, які можуть опинитися слідувати за форматами вже з генерированных відрізків звуків промови. Таке прогнозування зменшує вимоги обсягу пам’яті системи, і навіть до швидкості обміну даними; з описуваної системою вона дорівнює 1200 бит/с. Синтезатор National Semiconduoton Inc. здатний здійснювати анаяогоцифрове перетворення мовних сигналів і зберігати в пам’яті для подальшого відновлення. Такий метод передбачає величезний обсяг інформації, які мають зберігатися у пам’яті, що робить її малопривабливим. Однак у аналізованої системі ця труднощі обходиться з допомогою використання різних методів стискування даних. Це дозволило реалізувати якісний синтез промови в тимчасовій області на рівні &1С. Дискретизацию і стиснення вихідної промови, записаній на магнітної стрічці, здійснює мини-ЭВМ. Результуючі дані зберігаються у постійному запоминающем устрої (ПЗУ) на подальше відновлення, здійснюваного БІС процесора промови. Завдяки застосуванню Трьох методів стискування (підстроювання фазового кута, дельта-модуляции і полупериодного скасування) швидкість надходження даних, якими відновлюється нормальна мова, знижується приблизно до 1000 бит/с промови, отже по ПЗУ ємністю 10 кбит можна зберігати приблизно 10 слів. Процес сяатия починається з дискретизації аналогового мовного Сигналу і поділу цифрового масиву до дільниць, у кожному у тому числі 128 оГсчетов; ці ділянки певною мірою характеризують періоди основного тону. Для отримання набору цифрових вибірок, аналогічних формованому пропозиції, підлаштовуються фазові кути цих відрізків. Подальше стиснення здійснюється з допомогою дельта-модуляции, у результаті замість зберігання абсолютної амплітуди кожної вибірки на згадку про записуються лише знаки збільшення амплітуд щодо попереднього значения.

розглянемо далі докладніше кілька сучасних систем параметрического синтеза.

У ГЮО] описана розроблена фірмою Texas Instrument a програма, що дозволяє перетворювати довільний текст в мова. Програма спільно з інтегральним синтезатором промови типу tms-5й00 дозволяє читати вголос інформацію, отражаемую на екрані дисплея домашнього комп’ютера 9S14. У відрізнивши від Speak and Spell система має не иоподозувт записані до цього часу ПЗУ слова фрази, а синтезує слова з 128 аллофонов (аналогічно системі Votrax описаної раніше), які об'єднуються системою для освіти злитої промови. Програма перетворення тексту в ланцюжок аллофонов вибирає аллофоны з бібліотеки й визначає їх наголос і інтонацію. Потім ця інформація вступає у блок синтезу промови, що формує звуки, використовуючи кодування, заснований на лінійному предсказании.

Блок-схема перетворення тексту в мова, реалізованого Texas Instruments, представлена на рис.I.I.

Аллофоны мають зміну тривалість від 50 до 200 мс і кодуються в відповідність до параметрами, необхідні організації синтезу, заснованого на лінійному пророкуванні. Бібліотека аллофонов, куди входять довгі, і короткі паузи, кодується по енергій і коефіцієнтам, необхідним установки характеристик фільтра ЛПК-синтезатора. Бібліотека аллофонных кодів займає 3 кбайта памяти.

Для перетворення тексту, що надходить на вхід в пооледова-тедьность аллофонов, використовується набір з 650 правил, що у процесі випробувань забезпечував правильний вибір 97^ фонем і 92% аллофонов. Правила займають 7 кбайт пам’яті. Програма конструироСинтез промови Конструювання промови (програмне формування кодовою аллофонной ланцюжка) |Вход|Правил| |Преобразо|1|Центр| |ное |а | |вание |+|альны| | |преобр| |аллофонов|1|й | | |азован| |у ці | |Проце| | |іє | |для | |сварок | | |тексту| |синтезато| | | | |в | |ра | | | | |аллофо| | | | | | |ны | | | | | |текс| | | | | | |т | | | | | |.

[pic] |Упра| |Син|Ре| |влен| |тез|чь| |не | |ато| | |Памя| |р | | |ть | |реч| | | | |і | | | | |тає| | | | |- | | | | |520| | | | |0 | | | | | | | | |. 1 | | | |{ | | | |Мовленнєвий| | |постоян| | |ное | | |запомин| | |ающее | | |устройс| | |тво tm | | |S-6100 |.

Р і з. I.I. Блок-схема перетворювача «текст — мова «.

вания пов’язує і сглаживав! переходи з-поміж них. Через війну формується кодова управляюча ланцюжок аллофонов, які мають узгоджені енергетичні рівні й досягнуто плавність облямовує, а згладжування коефіцієнтів фільтра робить більш плавними переходи між звуками.

Після об'єднання аллофонов і згладжування переходів з-поміж них в аллофонной ланцюжку мали бути зацікавленими розставлено наголоси і зазначена інтонація відповідно до знаками користувача при кодування вхідного тексту. Алгоритм конструювання промови встановлює частоту основного тону лише для відзначених слогов. Управление інтонацією грунтується на градиентном управлінні частотою основного тону в ударних складах. У нейтральних інтонаціях безударным складах відповідає середнє частоти основного тону, тоді як ударні розташовуватимуться трохи вища середньої лінії тону. Нахил створюється програмою, а користувач лише позначає ударні слоги.

Як зазначалося, синтез промови у системі перетворення «текст — мова «системи Texas instruments грунтується на лінійному пред-сказуемостном кодування, що є математичної моделлю голосового тракту, реалізованої як фільтра. Коефіцієнти лінійних рівнянь фільтра, зумовлені шляхом аналізу природному мовленні, використовують у моделі для управління «конфігурацією «голосового тракту для формування мовного сигналу. У системі запам’ятовуються відповідні різним аллофонам коефіцієнти фільтра, коефіцієнт передачі фільтра, частота сигналу возбуждения, используемого керувати фільтром. Система Texas Instruments забезпечує [100] добра якість і промови під час використання ЛПК зі швидкістю передачі від 1200 до 2400 бит/с.

У Cl40] зазначалося, що розроблена в 1976 р. система дискретного розпізнавання слів was, призначена для введення мовних команд в ЕОМ управління вогнем тактичної артилерії, використовувала систему мовного відповіді (зворотний зв’язок) YS фірми Vo-fcrax. Блок речевс «про відповіді повторював слова усного донесення, котрі за радіо чи телефонному каналу надходили до корректировщику стрільби. Що стосується, якщо усна команда распознавалась машиною верно, корректировщик вимовляв ключовим словом, що означає, що команда може діяти за систему управління огнем.

У [30,129] розглядаються нова інтегральна схема синтезатора промови sc-OI і системи для проектування словника cds-ii. Мовний інтегральний синтезатор sg-oi реалізує фонемного синтез. Для перетворення фонем в параметри мові вживається фо;

немный контроллер. Синтезатор працює із зовнішньої пам’яттю, де зберігаються 6- розрядні коди фонем. На відміну не від системи Texas Inntru-ments синтезатор sc-OI використовує для моделювання голосового тракту людини не кодування, заснований на лінійному пророкуванні, ні тим більше традиційний метод, заснований на застосуванні аналогових полосовых фільтрів, на вхід яких надходять сигнали порушення від генератора із регульованою частотою, що моделює роботу голосових зв’язок, і південь від генератора псевдослучайных сигналів, що моделює шумовий источник.

На вході синтезатора SC-OI стоїть фонемного контролер, який перетворює код фонеми (їх 64) в матрицю спектральних параметрів. Контролер ж можна змінювати частоту основного тону; що дозволяє усувати монотонність звучання синтезованою промови. Управління синтезатором здійснює генератор синхронизирующих імпульсів, що у інтегральної схемою. Управління годину- «тотой основного тону справляєте » ! зовнішнім впливом на джерело тонального сигнала.

Після вступу коду фонем на фонемного контролер останній відповідність до тим, який звук може бути порожден, управляет моделлю голосового тракту, впливаючи на ланцюга з переключаемыми посудинами. Тривалість кожної фонеми встановлюється не більше 50 — 250 мс.

Фонемная інформація, яка надходить на вхід, створюється програмою перетворення, що аналізує тексг, запроваджуваний на згадку про з провідною ЕОМ чи з клавіатури. У кодах фонетичних сим-всдов, формованих цієї програмою, містяться числа, які означають тривалість генерованого звуку, яка від ударения.

Інформація для синтезатора sc-OI виробляється системою для проектування словника типу cdsII, на вхідний клавіатурі якої набираються слова чи фрази, підлягають синтезу. Система виходить з микропроцессоре типу 6У08 фірми Motorola. Дд-горитм перетворення «текстмова «і операційна система займають 24 кбайта ПЯУ і робочу частина оперативної пам’яті ємністю 2 кбайта. Вихідна інформація ciis-11 використовується для програмування пам’яті стираемого СОБАЦІ, де зберігаються дані для ІВ синтезатора. Для програмування ПЗУ інформації з cds-ii передається послідовним кодом в провідну ЕОМ (що можна використовуватиме перекладу слів в фонеми), стрічковий перфоратор чи інший пристрій із єдиною метою наступної запис у ПЗУ. У систему проектування словника входять також друкар, що дозволяє друкувати мовну інформацію в шестнадцатиричном коді (исполь;

зaк.480 49.

ауя, як зазначено, 6 біт на фонему), та був вручну вводити в программатор ПЗУ. Поруч із системою cDy-II ^тієї ж фірмою випускається універсальний мовної модуль fYHtl), який володіє можливістю перетворення тексту в мова. Ще цього влаштування у табличном вигляді записані коди 1300 слів, і навіть 25 суфіксів і префіксів. Як це і система проектування словника cds-ii, УРЫ включає до свого складу мікропроцесор типу 6806. Він також має синтезатор типу ас-01, операційну систему, що зберігається в ПЗУ ємністю 2 кбайта, таблицю слів, записану в перепрограммируемом ПЗУ ємністю 2 кбайта, і I кбайт робочої області оперативного запоминающего устрою. УРМ можна використовувати як робочого модуля, а різної апаратурі. У цьому модуль може управлятися зовнішнім процесором чи провідною ЕОМ. Деякі дані про інші синтезаторах зберігають у [51, 52, 55, 142]. 1.4.2. Підвищення якості синтезируемой промови. Попри поява комерційних систем автоматичного мовного ответа, синтетическая мова ще ке якісні. Тож у лабораторіях світу продовжують енергійно працювати над проблемою синтезу промови. У працях щорічних міжнародних конференцій з акустики мови і обробці сигналів, що проводяться Інститутом інженерів по електротехніці і радіоелектроніки США з 1976 р., більшість доповідей присвячено автоматичному синтезу. Роботи ставляться до різним мовам. У З 115] описана розроблювана для шведського мови система «текстмова », що базується на правилах перекладу буквеної інформацією фонетичну. Система синтезу складається з послідовності перетворень, кожна з яких відбиває частина знання мовленнєвий процесі. Зазначається, що з отримання якісної промови доцільно математизировать використання таких просодических параметрів, як тривалість звуків і інтонація. При формалізації правил перетворення використали досвід робіт зі створення систем «текст-речь », які у навіть враховано той факт, що фонетичне уявлення висловлювань у шведському мові бо-яее просте, ніж у англійському. Найбільші труднощі викликає пошук в неразмеченном знаками наголоси тексті ударних складів, і навіть складів вторинного наголоси (aecondary stressed syllable). Під час цього пошуку варто використовувати різні ключові індикатори, такі як здвоєні голосні, деякі закінчення і комбінації гласних з приголосними, утворюючими ударні слоги.

розроблено основні правила перетворення фонетичної ланцюжка в синтезовану акустичну волну. Эти правила, для формалізації яких створено спеціальну мову, працюють на сегментном рівні. Наприклад, правило, що б тривалість сегмента, запювется—< DURATION — Т * ЙХР (-ЬОО (В)* 0,12 — LOG (A>* «0,35)>, де Т — номінальна тривалість; А, В, С, — перемінні, залежать від позиції і тривалості слова чи фрази. У [Вб] повідомляється про систему мовного синтезу, розробленої для англійської мови Bell Laboratories. Система забезпечує вищу якість синтезируемой промови з допомогою» I) точніших правил визначення тривалості звуків промови, заснованих на виключно вимірах, які продесаны на ділянках природному мовленні; 2) розширення правил обліку аллофонических змін як функції словесних та інших кордонів; 3) запровадження значної частини правил просодії нижнього рівня, які враховують особливості речеобра-эования (асиміляцію звуків, зміни всередині звукосполучення згодних, контекстну залежність гласних тощо.); 4) правил, які враховують повільні зміни параметрів моделі голосових зв’язок і шумового джерела порушення. Багато особливості системи синтезу промови Bell Laboratories розглянуті й у С75, Ь9]. В [69], зокрема, досить докладно описані властивості просодії англійського языка. Предполагается розрізняти просодию вищого (собственна Просодические функції) і просодию нижчого рівнів (їх акустичні компоненти) і використовувати правила просодії підвищення якості синтезируемой промови. При дослідженні злитої промови виявилося, що у англійському языке:

— головний чинник, визначальний тривалість гласних, — позиція гласною в слові, а слова — у пропозиції (чи синтагме); гяасная має найбільшу тривалість, якщо вона у тому складі перед паузою; це пояснюється особливостями контуру основного тону перед паузою, значно подовжує гласний; відмінність тривалості гласних в предпауэальной і непредпау-эальной позиціях приблизно перебуває у співвідношенні 2:1;

— наступні згодні вкорочують тривалість гласного Ьо порівнянню з певним середнім значенням), якщо на гласним слід глухий вибуховий (характерне смычкой), і подовжують, якщо на гласним слід дзвінкий фрикативный; найбільший вплив на тривалість гласних згодні надають в предпаузальной позиции;

-.тривалість ненаголошених гласних, якщо де вони перебувають наприкінці слова, составпяет близько сорока мс; в кінцевих позиціях вони Содее тривалі; 51.

— дифтонгизация сильно подовжує гласную;

— на тривалість згодних основне вплив надають 2 чинника: становище згодної щодо ударного сдога і національних кордонів слова чи пропозиції з консонантность окружения;

— тривалості консонантних згодних (саме глухих фрикативных f, s, S) підпорядковані точному аддитивному правилу, наголос та невидимі кордони слова діють як чинники збільшення, а згодні, суміжні з фрикативными, діють як головний чинник укорачивания;

— найбільше мінливість длительностей залежно від наголоси і перекручуванні позиції виявляють переднеязычные згодні t, d, n " ,.

— дзвінкі Фрикативные у середині Харцизьк. Наприкінці счов значно коротші глухих фрикативных, що у той самий позиции;

— вплив оточуючих згодних на тривалість конкретної згодної залежить від способу і місця їхнього артикуляції; тривалість згодної залежить також від рівня консонантности її окружения;

— у зв’язку з цим комбінації двох послідовних згодних, що характеризуються у тому ж місцем артикуляції, виявляють тенденцію до зменшення тривалості обох, наприклад, пй і nt; дзвінкі фрикативные зазвичай подовжують соседнкж. согласную;

— тривалість плавних і носовых, согласных сильніше від інших піддається впливу суміжних які з ослыпей ступенем консонантности, вплив яких виявляється через кордону слов;

— початкова згодна функціональних слів (артикля і прийменників) значно коротші, ніж у випадках значимих слов;

— легко передбачувані слова зазвичай складаються з коротших гласних і згодних, ніж непредсказуемые;

— у «англійському мові згодні на початку слова може бути іншими акустичними характеристиками, ніж ті ж згодні наприкінці слова (це явище називають селективною аллофонией на відміну позиційно зумовленої адлофонии, що з явищем коартикуляции); - початкові аллофоны (проти кінцевими і середніми) мають сильніші консонантные ознаки — велику переривчастість, чіткість інтонаційних складових (основного тону і гармонійної структури) серед рачи, інтенсивнішу шумову складову фрикативных, сильніший вибух із явним ділянкою аспірації в глухих вибухових тощо.; ці якості початкових аллофонов нвняются ознаками початку повідомлення, зазвичай слова. У С89] розглянуть деяких інших властивості просодії, призначені в о&нову правил перетворення «текст — мова «і забезпечуючі високу перебірливість і природність синтетичної промови. 52 вГ2] докладно описана лінгвістична і фонетична сторона паботы, яку треба виконати при реалізації якісного синтезу розмови з произвольному тексту. Найважливішими етапами иссяедований тут являются:

— створення більш досконалої моделі мовного тракта;

— визначення повнішого набору абстрактних правил лінгвістичного описи текста;

— розробка повного зводу правил, дозволяють вивести фонетичні описи за правилами лінгвістичного описи тексту (дравід перетворення літер на звуки);

— формалізація морфофонематичаских правив і правил лексичного наголоси, що дають лише на рівні слів остаточну корекцію ланцюжка фонем (аллофонов);

— граматичний аналіз пропозицій, розкриває ієрархічну природу їх побудови визначення правильності інтонаційного контура;

— ретельніше иосдедование просодических корелят лінгвістичних структур.

Зазначимо особливої важливості створення хорошою моделі мовного тракту, параметри якої змінюються відповідно до правилами ре-чвобразования. Хороша модель дозволяє істотно онизить обсяг інформації, яка описує форму мовного сигналу (вироблюваного на Мходе моделі з невеличкого числа параметрів), і навіть глибше і еотеотвенно описати мовні явища. При параметрическом синтезі інформацію про фонемах (аллофонах) запам’ятовується як комплексу параметрів і керував модифікації отих параметрів під впливом різних обмежень. У неперервному зв’язку про цим підвищення якості синтезу необхідні структурні моделі, відбивають ащ обмеження різних рівнях — артикуляторном, дистрибутивом, словообразовательном, синтаксичному і семантичному. Ці иодеди повинні координуватися гнучкою структурою управления, обео-почивающей їх взаимодействие.

На підвищення природності та чіткості промови, генерируе- «ой форматными синтезаторами, в [176 ] пропонується використовувати обчислення форматних параметрів більш коротких інтервалах, що дозволяє поліпшило синхронний із головною тоном аналіз. 1домен-т^ змикання голосових зв’язок характеризуються імпульсним воабужде «нием. У першому етапі аналізу оцифрованою хвилі такі точки воз-°Й.

Показати весь текст
Заповнити форму поточною роботою