Вилучення ознак.
Дослідження внеску синтаксичних ознак у розпізнавання анафоричних відносин
В настоящей работе была использована следующая модель для распознавания анафорических связей. Задача распознавания сводится к задаче классификации. Это означает, что для каждого анафорического выражения алгоритм создает список кандидатов на роль антецедента, целевыми классами являются два класса: пара ИГ, связанная анафорической связью vs. пара, не связанная анафорической связью, т. е. мы имеем… Читати ще >
Вилучення ознак. Дослідження внеску синтаксичних ознак у розпізнавання анафоричних відносин (реферат, курсова, диплом, контрольна)
В настоящей работе была использована следующая модель для распознавания анафорических связей. Задача распознавания сводится к задаче классификации. Это означает, что для каждого анафорического выражения алгоритм создает список кандидатов на роль антецедента, целевыми классами являются два класса: пара ИГ, связанная анафорической связью vs. пара, не связанная анафорической связью, т. е. мы имеем два целевых значения: 1-связь есть, 0 — связи нет. Далее в работе, пара двух ИГ потенциальный антецедент + анафорическое местоимение будет называться анафорической, если эта пара принадлежит множеству размеченных в аннотированном корпусе пар. Алгоритмов классификации существует большое количество, поэтому на базовых признаках будут запущены несколько алгоритмов, и тот алгоритм, который покажет наилучшие результаты, будет использован в дальнейшем исследовании влияния синтаксических признаков. Базовые признаки были выбраны на основе работ, в которых описывались системы для разрешения анафорических связей в русском языке.
В качестве базовых признаков в настоящей работе были использованы следующие признаки для обучения:
1) длина именной группы в буквах 2) длина именной группы в словах 3) дистанция между именной группой и местоимением в словах 4) дистанция между именной группой и местоимением в буквах 5) дистанция между именной группой и местоимением в именных группах 6) согласование в числе 7) согласование в роде 8) сколько раз встретилась лемма слова в тексте до местоимения (salience) 9) тип местоимения (personal/relative/reflexive).
Набор признаков практически целиком соответствует набору «самых полезных» признаков из статьи (Ionov and Kutuzov, 2014). Под «самыми полезными» признаками понимаются признаки, которые внесли наибольший вклад в классификацию кореферентных связей. Признаки 1−5 относятся к позиционным, признаки 6−7 относятся к синтаксическим, 8-й признак это, как было уже сказано ранее, контекстный вес, и 9-й признак — морфологический. Все признаки были собраны с помощью собственных скриптов, написанных на Python. На вход подавались только синтаксически обработанные тексты, тексты оригиналов никак не обрабатывались. Для того, чтобы связать словоформы из синтаксического дерева со сдвигом из другого документа, на котором основана разметка анафорических связей, синтаксическая разметка была дополнена информацией о сдвиге. Посчитать сдвиг автоматически, используя длины слов в синтаксическом дереве, так, чтобы этот сдвиг совпадал с разметкой, не удалось, потому как разметка была нанесена на оригинальный текст, в котором присутствовали лишние пробелы, либо дополнительные знаки, которые при обработке в синтаксическом парсере были удалены. Так как реализуются базовые признаки, которые не раз были реализованы в других работах, то ожидаемый результат работы классификаторов составлял от 40 до 60 процентов.
После определения всех базовых признаков стояла задача в соотнесении пар кандидат + анафор с референтными цепочками из документа. Решалась она следующим образом:
- 1) Поиск анафора в цепочках на основе совпадения сдвигов (после нахождения выдается референтная цепочка).
- 2) Для каждого кандидата для заданного анафора произведен поиск по вершине группы и сдвигу вершины среди всех элементов референтной цепочки.
- 3) Если вершина именной группы кандидата совпадает с вершиной элемента в референтной цепочки (совпадает их сдвиг), значит между этим кандидатом и анафором есть кореферентная связь.
Данный алгоритм позволяет решать проблему с возможным несоответствием именных групп, которые были извлечены с помощью собственных алгоритмов, с теми, что были представлены в цепочках.