Розробка фасетно-блочного тезаурусу на тему «Водний транспорт»
В контексте данной работы следует проанализировать особенности внутриструктурного построения ИПТ, так как некоторые из них созданы на базе фасетного анализа лексики. Использование идей Ш. Ранганатана применительно к задачам оптимизации структуры ИПТ плодотворно осуществлялись школой ленинградских исследователей под руководством профессора Соколова Аркадия Васильевича, предложившего… Читати ще >
Розробка фасетно-блочного тезаурусу на тему «Водний транспорт» (реферат, курсова, диплом, контрольна)
В настоящее время существует значительное число информационно-поисковых тезаурусов (ИПТ), разработанных как у нас в стране, так и за рубежом. Все многообразие ИПТ можно проанализировать, воспользовавшись такими параметрами, как тематический профиль, назначение, системность построения, количество естественных языков, форма представления информации и особенности внутриструктурного построения ИПТ.
В контексте данной работы следует проанализировать особенности внутриструктурного построения ИПТ, так как некоторые из них созданы на базе фасетного анализа лексики. Использование идей Ш. Ранганатана применительно к задачам оптимизации структуры ИПТ плодотворно осуществлялись школой ленинградских исследователей под руководством профессора Соколова Аркадия Васильевича, предложившего фасетно-блочный метод построения тезаурусов. Реализация данного метода осуществлена в комплексе ИПТ, созданном в научно-исследовательском секторе Ленинградского государственного института культуры (ЛГИК) им. Н. К. Крупской для двух смежных узкотематических областей: «Судоходство» и «Морские порты».
Категорийный анализ лексики осуществляется на базе разработанных фабул (блок-схем), которые обеспечивают единообразную систематизацию терминологии. Фабула представляет собой упорядоченную схему категорий фасетов и блоков, раскрывающих наполнение тезауруса [13,14,15]. Фабула является необходимым условием достижения совместимости тезаурусов.
Разработано три уровня фабул:
- — универсальная фабула включает категории, общие для всех тезаурусов, независимо от их тематической принадлежности. Она является обобщенным списком категорий, совокупность терминов, относящихся к той или иной категории, образовывает фасет. Например:
- 0−0 — общие свойства и характеристики. Фасет объединяет термины, отражающие свойства и характеристики предметов или процессов, имеющие межотраслевое значение (большой, малый, твердый);
- 0−1 — хронологический фасет (термины времени месяц, день, будущее);
- 0−2 — пространственные фасеты, терминология местонахождения предмета, его пространственная принадлежность и место действия (внешнее, внутреннее, центр;
- 0−3 — прикладной фасет, область практической деятельности или сфера приложения полученных результатов (геодезия, картография, радиотехника).
- — типовая фабула — эта детализация универсальной фабула, применительно к определенному циклу отраслей знания. В результате получается список терминологических слоев, каждый из которых относится к той или иной отрасли знания. В данном примере выделяются типовые для отрасли «Водный транспорт» категории лексики ИПЯ. Слой отраслевой терминологии, относящийся к той или иной категории, образует отраслевой подфасет. Например: «Суда», «Корпус судна», «Грузы», «Тара», «Порты», «Акватории», «Океанографические объекты» и т. д. Таким образом, разработав типовую фабулу и определив ряд отраслевых категорий, относящихся к тематике «Водный транспорт», получают отраслевую структуру ИПТ. На основе разработанной фабулы были созданы два узкотематических тезауруса «Судоходство» и «Морские порты».
- — частная фабула является детализацией типовой фабулы, применительно к определенной отрасли знания и учитывает специфические категории данной тематики, в данном случае для водного транспорта «Судоходство», «Морские порты». Специфическими для темы «Судоходство» были 16 подфасетов, для «Морских портов» — 32. Внутри отраслевых подфасетов были выделены специфические категории, на основе которых формируются частные фасеты. Например, отраслевой подфасет «Технические средства судовождения» делится на 16 частных фасетов: «Инструменты навигационные», «Компасы магнитные», «Дальномеры», «Лоты» и др.
На следующем этапе стоит задача обеспечить совпадение терминологии, относящейся к общим категориям. С этой целью унифицируется внутрифасетный анализ, сущность которого заключается в переходе от языка ключевых слов фасетов к дескрипторному языку, представленному в виде блоков.
Предварительная систематизация ключевых слов по фасетам и отраслевым терминологическим слоям облегчила дескрипторизацию и процесс установления парадигматических отношений, т. к. терминология собрана вместе и таким образом, обозрима.
Дескрипторный блок (ДБ) объединяет в себе понятия, характеризующие предметы фасета с одной точки зрения. Наименование дескрипторного блока есть наименование признаков этих предметов.
Например, в структуре фасета «Суда» около восьми ДБ:
ДБ-00 Значение ДБ-01 Назначение ДБ-02 Конструктивные особенности Амфибия Вспомогательные Водоизмещающие Баржи Исследовательские Гидрольные Буксиры Специальные Многокорпусные Землесосы Спортивные и т. д. — катамараны Катера и т. д. — тримараны и т. д.
Среди дескрипторных блоков, вошедших в тезаурусы, есть такие, которые не имеют своего наполнения. К ним дается отсылка, адресующая к фасетам и блокам, находящимся в другой части тезауруса. Анализ показал, по области распространения ДБ делятся на три группы:
- 1. Общие — имеющие фасетной привязки, например, ДБ «Технико-экономические характеристики»;
- 2. Многофасетные — имеющие привязку и используемые в других фасетах, например, ДБ «Материалы»;
- 3. Однофасетные — применяющиеся лишь в одном фасете, например, «Конструктивные особенности судов».
Наличие общих ДБ дает возможность их стандартизировать. В обоих рассматриваемых тезаурусах выделено 21 ДБ, которые по наименованию полностью совпали. В их числе ДБ «Назначение», ДБ «Размеры», ДБ «Агрегатное состояние», ДБ «Конструктивные элементы» и др.
Всего в тезаурусе «Судоходство» 295ДБ и 1800 дескрипторов, а в тезаурусе «Морские порты» — 322ДБ и 1500 дескрипторов, из них совпавшими (многофасетными) являются 185ДБ (30%) и 1304 дескриптора (40%). Совпавшим лексическим единицам присвоены одинаковые кодовые обозначения, что является важным в достижении совместимости тезаурусов.
Реализация фасетно-блочного принципа построения ИПТ позволяет не только унифицировать представление общей лексики в разных тезаурусах, но и создает возможность для обмена фрагментами (в виде блоков или фасетов) между тезаурусами.
Фасетно-блочные тезаурусы удовлетворяют не только требованиям совместимости, но они являются эффективным поисковым средством. Реализация данного метода осуществлена в ИПТ по целлюлозно-бумажной промышленности для АСНТИ «Папирус», на Ижорском заводе функционирует АСНТИ, применяющая тезаурус по энергомашиностроению.
Идея о «тезаурофасете» была высказана еще в 1969 году известным английским специалистом по разработке тезаурусов Джин Эйтчисон. После публикации своей первой статьи о «тезаурофасете» она на протяжении нескольких лет выступала на многих научных конференциях и симпозиумах, продвигая идею «в массы», доказывая ее перспективность и высокую функциональную эффективность. Гипотетический проект поражал своими поисковыми возможностями, множеством «входов» и «выходов», обеспечивающих многоаспектное индексирование информации. Конституция тезаурофасета была в целом понятной: глубокая (термин, применяемый Ш. Р. Ранганатаном) фасетная классификационная система адекватно совмещалась с тезаурусом. Потенциал системы такого рода был бы огромным.
Прошло три десятка лет. Нигде, даже в коммерческих структурах, идея тезаурофасета так и не реализована. Она оказалась слишком затратной: для её создания необходимы колоссальные денежные средства и парк современных компьютеров. Однако даже при наличии того и другого трудно найти главное: персонал, специалистов достаточно высокой квалификации.
Таким образом, развитие «тезаурусного дела» в России после 80-х годов сменилось затишьем. Сегодня тезаурусы почти не разрабатываются и не издаются. Там, где они применяются в системе документального поиска (например, в Библиотеке Государственной Думы, в некоторых других отраслевых АБИС, о которых рассказано выше), используются переводы зарубежных (чаще всего — международных) тезаурусов. [18].