Принципи та алгоритми машинного перекладу
Історія розвитку систем МП в СРСР пов’язана з групою «Статистика мови», що була створена на початку 70-х рр. в Ленінградському педінституті імені Герцена професором Р.Г. Піотровським. В 1976 р. цією групою була розроблена одна з перших в СРСР систем машинного перекладу. Трохи раніше цієї події, в 1974 р. почала самостійні пошуки група, очолювана учнем Р.Г. Піотровського В. В. Рожковим. Потім цією… Читати ще >
Принципи та алгоритми машинного перекладу (реферат, курсова, диплом, контрольна)
Постановка задачі машинного опрацювання текстів на природній мові
Перші системи машинного перекладу з’явилися ще у 50-х рр. ХХ ст. Однак обмежені можливості тогочасних комп’ютерів і недосконалість алгоритмів, що лежала в основі цих систем не дозволили їм вийти за стадію експериментальних розробок.
Розвиток апаратної частини обчислювальної техніки й удосконалення програмного забезпечення (зокрема високорівневих мов програмування) дозволили значно підвищити якість систем машинного перекладу (МП) і призвели наприкінці 70-х — на початку 80-х рр. до нової хвилі ентузіазму з приводу їх промислового і комерційного використання. Серед інших факторів цьому сприяли, з одного боку, такі яскраві свідчення можливості застосування МП для розв’язання реальних задач, як використання системи SYSTRAN для перекладу англійською мовою російської космічної документації в рамках програми радянсько-американського співробітництва «Аполлон — Союз», а з іншого — активне включення в розробку систем МП японських комп’ютерних і перекладацьких фірм, котрі і зараз успішно освоюють дану область і все більш продуктивно конкурують з провідними фірмами — розробниками таких систем в США і Європі.
Розробка вітчизняних систем МП визначалася роботам по двох основних напрямках перекладу: послівного і глобального.
Історія розвитку систем МП в СРСР пов’язана з групою «Статистика мови», що була створена на початку 70-х рр. в Ленінградському педінституті імені Герцена професором Р.Г. Піотровським. В 1976 р. цією групою була розроблена одна з перших в СРСР систем машинного перекладу. Трохи раніше цієї події, в 1974 р. почала самостійні пошуки група, очолювана учнем Р.Г. Піотровського В. В. Рожковим. Потім цією групою був створений електронний перекладач «Сарма», який став прототипом системи Socrat. Ідеї Ленінградської школи виявилися напрочуд плідними і послужили основою для багатьох комерційних систем машинного перекладу — окрім Promt та Socrat на цих же принципах засновані, наприклад, системи Multis і Pars.
Всі ці системи, хоча і розроблялися самостійними групами, мають досить багато спільного, їх можна охарактеризувати як системи, що реалізують «послівний» переклад. Між тим, давно відомо, що текст не можна подати як просту сукупність слів, які мають той чи інший зміст. Левова доля сенсу міститься не в самих словах, а там, де вони вступають у відносини між собою. Наприклад, підводний човен — це не човен під водою. Ринок і базар — синоніми. Але птичий ринок та птичий базар — зовсім різні речі. Біляча клітка в технічному жаргоні не має нічого спільного ані з білкою, а ні з кліткою, це позначення короткозамкненого ротора електродвигуна. Це не ефектні виключення, за оцінкою Г. Г. Білоногова, що очолює колектив розробників МП RETRANS, в розвиненому мовному співтоваристві налічуються десятки, якщо не сотні мільйонів понять, а слів — всього біля мільйону. Отже, достатньо велика частина понять виражається фіксованою комбінацією слів — серед них і птичий базар, і біляча клітка (навіть переставити слова в такому словосполученні не можна — клітка біляча — це вже не технічний термін, а цінник в магазині). Наша мова знаходиться в більш жорстких рамках, ніж нам здається: можна сказати: їхав автобусом, але не можна сказати їхав велосипедом, увагу приділяють (чому-небудь) або звертають (на що-небудь), висновок роблять, перевагу віддають, роль грають, значення мають, перемогу здобувають і т. ін. Такі словосполучення в лінгвістиці називають стійкими словосполученнями.
Чи здатний комп’ютер навчитися подібним тонкощам, і якщо так, то як? Спроба дати відповідь на це питання і послужила розвитку другого напрямку в розробці систем МП. До нього насамперед належить лінгвістична школа. Це експериментальні системи ЕТАП і RETRANS.
Система МП ЕТАП розробляється в лабораторії комп’ютерної лінгвістики Інституту проблем передачі інформації (ІППІ РАН). Абревіатура ЕТАП, вказувала на «електротехнічний автоматичний переклад». На протязі ряду років розробку очолював академік Ю. Д. Апресян (керівник авторського колективу «Нового великого англо-російського словника» — найбільш повного з існуючих на сьогодні англо-руських словників), а потім його учень, доктор філологічних наук І. М. Богуславський. Система заснована на лінгвістичній теорії «СЕНС — ТЕКСТ», основоположником якої є російський вчений І. А. Мельчук, що проживає зараз у Канаді.
Згідно з цією теорією виділяються декілька рівнів подання мовної інформації: орфографічний, морфологічний, синтаксичний і семантичний. Якщо ж мова йде про машинний переклад, то інформація однією мовою повинна послідовно пройти ці стадії від введення вихідного тексту до отримання сенсу, зашифрованого за допомогою спеціальної семантичної мови. Потім процес йде у зворотному порядку: від семантичного рівня (сенсу) до орфографічного (конструювання готового тексту) мовою перекладу. Для цього необхідно пройти наступні етапи аналізу вихідного тексту: морфологічний аналіз, синтаксичний, семантичний, і в зворотному порядку такі ж етапи синтезу. Це складний процес. Так, наприклад, щоб правильно упоратися з синтаксичним аналізом речень, системі перекладу слід «мати уявлення» про те, які типи зв’язків з іншими словами характерні для того чи іншого слова. Так, про дієслово «купити» система повинна знати: купити може хтось що-небудь у кого-небудь за скільки-небудь і т.д.
Одиницею перекладу в цих системах вважається не окреме слово, а речення, з його синтаксичною структурою.
Інший підхід до глобального перекладу реалізований у системі RETRANS (автор концепції - професор Г. Г. Білоногов). Процес перекладу в цьому випадку складається з наступних основних стадій:
Перша стадія — аналіз вихідного тексту. На основі «локального семантико-синтаксичного аналізу» тексту розпізнаються фразеологічні одиниці: дієслівні сполучення, іменні словосполученні й інші відрізки тексту, для яких має сенс шукати перекладні еквіваленти в машинному словнику.
Друга стадія — нормалізація і формування пошукових образів. Пошуків образ — це нормалізоване уявлення текстової одиниці (для іменника — це називний відмінок однини, для дієслів — основа, що має спеціальний код, який характеризує тип словозміни і т.д.).
Третя стадія — пошук в словнику.
Нарешті, остання стадія — синтез вихідного тексту, котрій виконується на основі синтаксичного аналізу тексту-оригінала.
Серйозна проблема МП — багатозначність (полісемія). Поява неоднозначностей в тексті є природною, але вона відносно малоймовірна, якщо основною структурною одиницею тексту і словника є не слово, а фраза або словосполучення: багатозначних фраз і мовних зворотів набагато менше, ніж багатозначних слів. Взагалі, чим менше відрізок тексту, тим менш ймовірною є полісемія. Багатозначних коренів і слів в мові більше, ніж багатозначних слів, котрих, в свою чергу значно більше, ніж багатозначних словосполучень.
Додатковим засобом розв’язання проблем, пов’язаних з багатозначністю є тематичні словники, де для багатозначного слова або фрази вказується пріоритетний перекладний еквівалент, специфічний для даної предметної області. Методика застосування додаткових словників істотно розрізняється в різних програмних продуктів. Стандартні засоби перекладу в Word 2002 передбачають можливість підключення словників з Інтернету (для зареєстрованих користувачів), деякі системи не дозволяють користувачу обирати словник самостійно (додаткові словники обираються автоматично на основі ключових слів з тексту, які програма інтерпретує як належні до певної предметної області). Такий алгоритм реалізований у системі Pragma компанії Trident Software. Більшість представлених для Word 2002 комерційних систем машинного перекладу реалізують алгоритми глобального перекладу, стандартні ж засоби Word 2002 орієнтовані більшою мірою на технологію перекладу послівного. Слід однак зазначити, що конкретні програмні продукти як правило поєднують алгоритми різних видів, сполучають в різних пропорціях велику кількість інженерних ідей і рішень.
Історія розробки систем машинного перекладу показала, що традиційна лінгвістика, яка не ставила перед собою задач створення точних і одночасно вичерпних описів мов і майже не займалася проблемою відповідності між мовами, дуже мало займалася семантикою і навіть синтаксисом окремих мов, далека від потреб забезпечити розробки по системам МП готовими відомостями. «Складність виявилася не в тому, щоб формалізувати і „машинізувати“ дещо відоме про мови, а в тому, щоб зрозуміти, якого роду інформація про мови необхідна в даному зв’язку, а потім навчитися добувати і описувати цю інформацію». Тим самим велика доля відповідальності зі існування автоматичного перекладу виявилася покладеною на лінгвістику. З’ясувалося, що спочатку повинна бути проведена досить трудомістка лінгвістична робота з формалізованого опису мов, і тільки потім її результати можуть бути використані для побудови системи МП, в той же час МП — це та експериментально-прикладна галузь, де лінгвістичні теорії, описи, гіпотези і т. п. можуть проходити перевірку практикою.