Принцип аналогій у морфологии
Діяльність Белоногова Р. Р. і Зеленкова Ю. Р. описується принцип побудови алгоритму морфологічного аналізу текстів з урахуванням принципу аналогії. Цей принцип використовують у системах орфографічного контролю російських текстів, системах автоматичного індексування документів і майже системах машинного перекладу текстів з російської англійською і з англійської мови російською. Продуктивність… Читати ще >
Принцип аналогій у морфологии (реферат, курсова, диплом, контрольна)
Принцип аналогій у морфологии.
Діяльність Белоногова Р. Р. і Зеленкова Ю. Р. описується принцип побудови алгоритму морфологічного аналізу текстів з урахуванням принципу аналогії. Цей принцип використовують у системах орфографічного контролю російських текстів, системах автоматичного індексування документів і майже системах машинного перекладу текстів з російської англійською і з англійської мови російською. Продуктивність програми за комп’ютером з процесором від 386 і від становить близько 400 слов/с.
При автоматичної обробці тексту виникають проблеми «нових» слів. Для синтаксичного аналізу та синтезу треба зазначити граматичні характеристики слів. Якщо слова у Словнику немає, то морфологічний аналіз може бути виконано, отже неможливо знайти визначено граматичні характеристики слова.
А, щоб визначити граматичні характеристики слів без словника, Белоногов запропонував принцип аналогії. Він грунтується у тому, що є сильна кореляційна зв’язок між граматичними характеристиками слів і буквеним складом їх кінців. Наприклад: організація, приватизація, концентрація мають ж. р., їм. п. і од. год.; працюють, розуміють, приваблюють — це дієслова в 3-ем особі мн. год. тощо. д.
Принцип аналогії перевірявся ряд індоєвропейських мов: (російський, болгарський, латиський, іспанський, англійський) і він ефективним. Спочатку він застосовувався визначення граматичних характеристик слів, не включених в машинний словник. Потім виникла ідея під час проведення морфологічного аналізу відмовитися від машинного словаря.
Якщо з текстам великого об'єму скласти словник словоформ й призначити кожної словоформе деякі граматичні ознаки, та був перетворити даний словник у зворотну словник словоформ, можна знайти, що чимало ділянки словника мають однакові набори признаков.
Зворотний словник словоформ є список словоформ з цими характеристиками як свідчення довгі грамматического закінчення, номер флективного класу (типу словозміни) і числової індекс, що характеризує такі ознаки як «глагольность», «местоименность», «порівняльна ступінь». Например:
масштабу 01/001/01 служба 01/056/01 виниклі 02/105/10 батальйон 00/021/01 розраховуючи 00/152/10.
Зворотний словник використовується для автоматичного морфологічного аналізу текстів, якщо складові їх словоформи ототожнювати зі словоформами словника і приписувати їм граматичну інформацію, зазначену у Словнику. Словоформам тексту, котрі перебувають у Словнику, можна приписувати граматичну інформацію тих словоформ словника, кінці що у у максимальному ступені збігаються з кінцями цих словоформ текста.
Обсяг зворотного словника можна скоротити, якби усіх її ділянках залишити по дві словоформи: початкову і кінцеву. Понад те з цих двох словоформ можна тільки один, і якщо словоформа тексту не співпаде ні з одного словоформой зворотного словника, їй приписується інформація безпосередньо попередньої словоформи цього словаря.
Цей скорочений словник ще скоротити, якщо вилучити з нього початкові літери словоформ, не мають вплив на результати морфологічного аналізу. У цьому в кожній пари поруч що стоять словоформ оставляются справа збіжні кінцеві буквосочетания і ще однієї букві, які збігаються. Например:
аба 01/001/01 єба 01/044/01 неба 01/071/01 авшие 02/105/10 тальон 00/021/01 тывая 00/152/10.
По виконанні всіх операцій обсяг словника скорочується увосьмеро. На точність спочатку включених в словник словоформ це вплине, а точність аналізу інших словоформ російської буде досить высокой.
Для морфологічного аналізу текстів з урахуванням методу аналогії досить розташовувати зворотним словником кінців слів. Але автори розробки зробили «Словник службових і коротких слів». У цілому цей словник було включено спочатку приводи, займенника, частки, спілки й короткі слова до 5 літер. Потім у нього ввійшло також словоформи, котрі за методу аналогії аналізувалися не так. Через війну цей словник сягнув 11 тисяч словоформ.
Отже, у процесі морфологічного аналізу словоформи шукаються у Словнику «Службових і коротких слів», потім у словнику кінців словоформ. Результатів аналізу, отримані з першому словника, вважаються надійнішими, і словоформи, характерні для цьому словнику, подальшому опрацюванні не подвергаются.
Нині ймовірність правильного аналізу слів при обробці текстів будь-який тематики перевищує 99%.
У у розробці даної системи поруч із авторами цієї статті брали участь науковці відділу лінгвістичних досліджень ВІНІТІ: А. П. Новоселов, Є. Ю. Рижова, З. А. Самоделкина, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Є. Р. Дружинина.