1.3 Этапи синтаксичного аналізу систем автоматичної обробки текстів природньої мови
Контекстний аналіз.Як вказувалося раніше, результатом морфологічного аналізу є приписання кожній словоформі морфологічної інформації: частина мови, рід, число, відміна і т.д. Оскільки дана інформація формується поза зв’язку словоформ у реченні, дуже часто вона є багатозначною (омонімічною). Тоді як в реченні словоформа може виконувати тільки одну функцію і утримувати тільки один набір… Читати ще >
1.3 Этапи синтаксичного аналізу систем автоматичної обробки текстів природньої мови (реферат, курсова, диплом, контрольна)
Синтаксичний розбір (розпізнавання) є початковим етапом синтаксичного аналізу. Саме при його виконанні здійснюється підтвердження того, що вхідний ланцюжок символів є програмою, а окремі підланцюжки складають синтаксично правильні конструкції у цій програмі. Слідом за розпізнаванням окремих підланцюжків здійснюється аналіз їх семантичної коректності на основі накопиченої інформації. Далі проводиться додавання нових елементів у проміжне представлення програми.
Розбір призначений для доведення того, що аналізований вхідний ланцюжок, що записаний на вхідній стрічці, належить чи не належить множині ланцюжків, породжуваних граматикою даної мови. Виконання синтаксичного розбору здійснюється розпізнавачами (автоматами). Тож мета доведення полягає в тім, щоб відповісти на запитання: чи належить аналізований ланцюжок множині правильних ланцюжків заданої мови. Відповідь «так» дається, якщо така приналежність встановлена. У супротивному випадку дається відповідь «ні». Одержання відповіді «ні» зв’язано з поняттям відмовлення. Єдине відмовлення на будь-якому рівні веде до загального відмовлення.
Щоб одержати відповідь «так» щодо всього ланцюжка, треба його одержати для кожного правила, що забезпечує розбір окремої підланцюжки. Оскільки множина правил утворять ієрархічну структуру, можливо з рекурсіями, то процес одержання загальної позитивної відповіді можна інтерпретувати як збір за певним принципом відповідей для листів, що лежать в основі дерева розбору, що дає позитивну відповідь для вузла, що містить ці листи. Далі аналізуються оброблені вузли, і вже в них отримані відповіді складаються в загальну відповідь нового вузла. І так далі до самої вершини. Так піднімається наверх інформація, що підтверджує виконання вказівки начальника організації[4].
Мета синтаксичного аналізу побудова синтаксичної структури речення вхідного тексту. Вхідними данними синтаксичного аналізу (СА) є вихідні дані морфологічного аналізу і правила синтаксису вхідної мови.
В результаті морфологічного аналізу кожної словоформи вхідної фрази прописується певний комплекс морфологічної інформації, при цьому словоформи розглядаються ізольовано, поза зв’язком з іншими словами та реченнями (часто ця інформація омонімічна). Отримані дані не відображають структурних зв’язків між елементами фрази. Разом з цим слова в реченні не можуть слідувати у довільному порядку и передавати при цьому певну думку. Кожна мова має свій власний синтаксис. Задача СА — описати цей синтаксис, тобто описати допустиму структуру фраз. На етапі синтаксичного аналізу необхідно, використовуючи морфологічну інформацію про словоформи (отриману на етапі МА) і відомості із словника, побудувати синтаксичну структуру вхідного тексту. Результатом СА є уявлення речень в категоріях синтаксису (підмет, присудок, прямий додаток та інш.).
Синтаксичний аналіз взагалі проходить три етапи:
- 1. Встановлення синтаксичного зв’язку між словоформами в реченні (контекстний аналіз), який проводиться на рівні словосполучень.
- 2. Побудова формалізованої структури синтаксичного відношення у фразі, який проводиться на рівні речення.
- 3. Побудова міжфразової синтаксичної структури (на рівні дискурсу).
Контекстний аналіз.Як вказувалося раніше, результатом морфологічного аналізу є приписання кожній словоформі морфологічної інформації: частина мови, рід, число, відміна і т.д. Оскільки дана інформація формується поза зв’язку словоформ у реченні, дуже часто вона є багатозначною (омонімічною). Тоді як в реченні словоформа може виконувати тільки одну функцію і утримувати тільки один набір морфологічної інформації, який відповідає цій функції. Морфологічна багатозначність може проявлятися на двух основних рівнях.
Перший рівень проявлення багатозначності - багатозначність на рівні розпізнавання частин мови.
Наприклад, в англійській мові:
1. Дієслово третьої особи однини теперішнього часу і іменник множини мають однакові форми.
Thechanges — эти изменения,
Heneverchangesanything — он никогда ничего не меняет;
2. Основна форма дієслова може співпасти з іменником і прикметником.
Hiswork— его работа,
Wework — мы работаем,
Theymustworkhard — они должны много работать;
3. Особове дієслово в минулому часі - з дієприкметником ІІ.
Have brought — принёс,
Thecreatedsystem — созданнаясистема.
В російській мові:
— Іменники на ла, ло, л — и діэслово минулого часу:
Большое село — солнце село,
Прозрачное стекло — стекло варенье;
— Іменники нав — і дієприкметники:
Военно-полевой устав — устав трудится;
Разлив реки — разлив молоко, і т.д.
Другий рівень проявлення багатозначності - багатозначність на рівні розпізнання граматичних категорій, які відповідають одній частині мови. Цей вид багатозначності проявляється більшою частиною у флективних мовах. В російській мові:
1. Іменники-істоти однини і множини у родовому і знахідному відмінку:
Родовий відмінок (нема кого?) хлопчика (одн.), хлопчиків (множ.);
Знахідний відмінок (бачу кого?) хлопчика (одн.), хлопчиків (множ.);
2. Іменники-неістоти ч.р., одн. і мнж. в називному і знахідному відмінку:
Називний відмінок (що?) стіл (одн.), столи (мнж.),
Знахідний відмінок (бачу що?) стіл (одн.), столи (мнж.);
3. Іменники жіночого роду наия:
Називний відмінок (що?) лінія (одн.), лінії (мнж.),
Родовий відмінок (нема чого?)линии (одн.),
Давальний відмінок (кому?чому?) лінії (одн.),
Знахідний відмінок (бачу що?) лінії (мнж.),
Місцевий відмінок (про що?) лінії (одн.);
Для рішення любих типів омонімії взагалі, необхідні потужні мовні засоби, навіть такі як семантичні і предметні. Однак у деяких ситуаціях для зняттяморфологічноъ омонімії словоформ достатньо звернутися до їх ближчого лінійного контексту (контекстний аналіз). Для аналітичних мов вводять спеціальний блок правил, які усувають із речення, яке перекладається більшу кількість «паразитичних» омонімів. Наприклад, для правельної інтерпретації слова work(як інфінітива, а не як іменника) у разі theymustworkhardдостатньо переконатися в тому, що зліва від нього знаходиться модальне дієслово must. Наявність зліва від словоформи, яка обробляється особового займенника третьої особи однини безперечно доказує її дієслівний статус і дозволяє усунути омонімію[6].