Стратегия пошуку автоматизованих інформаційних системах

РефератДопомога в написанніДізнатися вартістьмоєї роботи

Інформаційний пошук (Information Retrieval, IR) — пошук неструктурованою інформації, единицой уявлення якої є документ довільних форматів. Предметом пошуку виступає інформаційна потреба користувача, неформально котре виражається у пошуковому запиті. І критерій пошуку, і результати недетермированы. Цими ознаками інформаційний пошук відрізняється від «пошуку даних», який оперує набором формально… Читати ще >

Стратегия пошуку автоматизованих інформаційних системах (реферат, курсова, диплом, контрольна)

КАЗАНСКИЙ ДЕРЖАВНИЙ УНІВЕРСИТЕТ КУЛЬТУРИ І ИСКУССТВ.

Кафедра информатики.

Вступний реферат по теме:

Стратегія пошуку Автоматизованих інформаційно-пошукових системах.

Выполнил:

Султанов Ильнур Ильдусович.

Казань, 2004.

Содержание Введение 3 Проблеми пошуку інформації 5 Пошукові алгоритми 7 Оцінка якості 16 Додаткові можливості надані пошуковими машинами 18 Лінгвістика 20 Укладання 22 Список літератури 23 Глосарій: 24.

Проблема пошуку це й збору інформації - одну з найважливіших проблем інформаційно пошукових систем. Звісно, не можна порівнювати у тому відношенні, скажімо, середньовіччі, коли пошук інформації був проблемою бо цьому інформації майже немає, і були потрібні зусилля лише здобуття права знайти що завгодно за більш менш значному цікавого для питання. Проблема пошуку інформації придбала новий характер в 20-му столітті, з початком розвитку століття інформаційних технологій. Тепер вона в тому, що інформації замало, й тому важко знайти, а у цьому, що її навпаки стає дедалі більше, від цього знайти відповіді на цікавий для питання може бути теж важкою завданням [2].

Так, спочатку з’явилася можливість піти у бібліотеку і, витративши там час вплинув на вибір потрібної книжки з каталогу, знайти необхідну інформацію. Але каталоги не вирішують повністю проблем пошуку інформації навіть у межах однієї бібліотеки, позаяк у каталожну запис входить щодо мало інформації: заголовок, автор, місце видання тощо. Проблема пошуку інформації значно ускладнюється при використання віртуальних джерел. Тут використовується технологія онлайнових каталогів, в результаті застосування якої користувач має можливість виконувати пошук в каталогах відразу кількох бібліотек, ніж, насправді, ще більше ускладнює перед собою завдання, але, з іншого боку, збільшує шанси розв’язати цю проблему [1].

На етапі весь інформаційний простір, у якому живемо, дедалі більше поринає у Інтернет. Інтернет стає основний формою існування інформації, не скасувавши традиційних, такі як журнали, радіо, телебачення, телефон, різноманітні довідкові службы.

У цьому роботі об'єктом дослідження є Автоматизована інформаційно пошукова система. Це система де зберігається інформаційний масив, з яких користувачеві видається потрібна інформація, осуществляющаяся або автоматично, або вручную.

Предмет дослідження включає у собі ті властивості, сторони, і відносини об'єкта дослідження, які потрібно вивчити. Предмет позначає кордону, у яких об'єкт вивчається у цьому конкретному дослідженні. Предметом дослідження є стратегія інформаційного поиска.

Мета дослідження: Мета дослідження ставиться, огляд і виявлення пошукових сервісів (можливостей надані нині), написання рекомендації до проведення пошуку, аналіз розвитку пошукових систем.

На виконання поставленої мети перетвориться на рамках дослідження необхідно рішення наступних завдань: 1. аналітичний огляд пошукових систем; 2. визначення механізму пошуку пошукових системах; 3. створення інформаційного системи, по АИПС; 4. оцінка ефективності створеної системи; 5. розробка рекомендацій до проведення пошуку використовуючи інформаційну систему.

Проблемы пошуку информации.

Ключ проблеми у тому, що зросла кількість користувачів не які мають професійними навичками у пошуку інформації мовою запитів. Природно з проблемою зіштовхнувся як інтернет, а й вплив електронних бібліотек (ЕБ) і електронні каталоги (ЕК). До таких системам ставляться бібліотеки НЭБ-НСН, Интегрум — Техно у Росії, Лексис-Нексис, Рейтер на Западе.

Більше сувора організація каталогів в бібліотеках, повне єдність форматів (чи вводити майже повне) всередині однієї бібліотеки перестав бути рішенням проблеми сучасних пошукових систем. Пошук це мистецтво. Зрозуміло, що у сфері мистецтва не можна домогтися гарантованого, чи масового результата.

Існує переконання, що кожен нове покоління програм пошуку совершенней попереднього. І інша думка, що «все нове — це добре забуте старе». Гадаю, що стосовно пошукових системам істина лежить десь посередине.

Але що змінилося насправді останніми роками? Не алгоритми і структури даних, не математичні моделі. Змінилася парадигма використання систем. Системою пошуку набули користувачі не мають професійні навыки.

Особливо пошукові системи були затребувані з появою Інтернету. У процесі еволюції пошукових систем, стали очевидні такі зміни. По-перше, люди й не лише «думають словами», а й «шукають словами». У ній системи, вони очікують побачити слово, набране в рядку запиту. Друге: «людини шукає» важко «перевчити шукати», як і важко перевчити говорити чи писати. Наукова думку 60-х — 80-х про итеративном уточненні запитів, усвідомлення природної мови, про пошуку за змістом, про генерації чіткої відповіді питанням, доки вдається створити, й не витримує критики.

Пошукові алгоритмы.

Як і кожна програма, пошукова система оперує зі структурами даних, і виконує алгоритм. Є чотири класи пошукових алгоритмів. Три алгоритму з чотирьох вимагають «індексування», попередньої обробки документів, у якому створюються допоміжний файл, себто «індекс», покликаний спростити і прискорити сам пошук. Це алгоритми инвертированных файлів, суффиксных дерев, сигнатур. У вырожденном разі попередній етап індексування відсутня, а пошук відбувається з допомогою послідовного перегляду документів. Такий пошук називається прямым.

Прямий поиск.

Нижче подана найпростіша його версія знайома многим.

|char* strstr (char *big, |ПРЯМИЙ ПОШУК ТЕКСТУ. | |char *little) { |У цьому функції мови З текст | |char *x, *y, *z; |рядки big переглядають | |for (x = big; *x; x++) { |зліва праворуч і кожної | |for (y = little, z = x; |позиції x запускають | |*y; ++y, ++z) |послідовне порівнювати з | |{ |шуканої подстрокой little. | |if (*y ≠ *z) |І тому, рухаючи | |break; |одночасно два покажчика y | |} |і z, попарно порівнюють все | |if (!*y) |символи. Якщо ми успішно | |return x; |сягнули кінця шуканої | |} |подстроки, отже, вона | |return 0; |знайдено! | |} | | | | |.

Попри що здається простоту, останні 30 років прямий пошук інтенсивно розвивається. Було висунуто чимале число ідей, які знижують час пошуку рази. У цьому слід врахувати, нові алгоритми та його поліпшені варіанти з’являються постоянно.

Хоча прямий перегляд всіх текстів — досить повільне заняття, не треба думати, що алгоритми прямого пошуку не застосовують у інтернеті. Норвезька пошукова система Fast (internet використовувала чіп, який реалізує логіку прямого пошуку спрощених регулярних висловів, і розмістила 256 таких чипів в одній платі. Це дозволяло Fast-у обслуговувати досить багато запитів в одиницю времени.

З іншого боку, є купа програм, комбинирующих індексний пошук для перебування блоку тексту з подальшим прямим пошуком всередині блоку. Наприклад, досить популярний, зокрема й у Рунеті, glimpse.

У прямих алгоритмів є позитивні риси. Наприклад, необмежені спроби з наближеному і непевному пошуку. Адже будь-яке індексування завжди пов’язане з спрощенням і нормалізацією термінів, отже, з втратою інформації. Прямий ж пошук працює безпосередньо по оригінальним документам без жодних искажений.

Инвертированный файл.

Ця найпростіша структура даних. Першу категорію людей знає, що це таке, по «конкордансам» — алфавитно упорядкованим вичерпним списками слів вже з тексту чи що належать одному автору (наприклад «Конкорданс до віршів А. З. Пушкіна», «Словарь-конкорданс публіцистики Ф. М. Достоєвського»). Другі починають працювати з тій чи іншій формою інвертованого списку щоразу, що будують чи використовують «індекс БД по ключового полю».

Проілюструємо цей дивний організм з допомогою чудового російського конкорданса — «Симфонії», випущеної московської патріархією за текстом синодального перекладу Біблії [симфония].

Рис. 1.

Перед нами упорядкований за алфавітом список слів. До кожного слова перераховані все «позиції», у яких це слово трапилося. Пошуковий алгоритм полягає у знаходженні потрібного слова завантаженні на згадку про вже розгорнутого списку позиций.

Аби зекономити на дисковом просторі і прискорити пошук, зазвичай вдаються до двох прийомів. По-перше, подробиця самої позиції. Чим докладніше задана така позиції, наприклад, що стосується «Симофонией» це «книга+глава+стих», тим більше коштів місця знадобиться для зберігання інвертованого файла.

У наиподробнейшем варіанті в инвертированном файлі можна зберігати і номер слова усунення в байтах з початку тексту, і колір і величину шрифту, так багато що ще. Найчастіше просто вказують лише номер документа, скажімо, книжку Біблії, і кількість вживань цього терміну у ньому. Саме таке спрощена структура вважається основний у «класичній теорії інформаційного пошуку — Information Retrieval (IR).

Другий (неможливо пов’язані з першим) спосіб стискування: впорядкувати позиції кожному за слова зі збільшення адрес для кожної позиції зберігати не повний її адресу, а різницю від попереднього. Ось як виглядатиме такий список нашій сторінки в припущенні, що ми запам’ятовуємо позицію до номери главы:

ЖІНКА: [Быт.1],[+11],[0],[+2],[+4],[+2],[+4],.

Додатково на разностный спосіб зберігання адрес накладають якийнибудь спосіб упаковки: навіщо відводити невеличкому цілому числу фіксований «величезне» кількість байт, адже можна відвести їй майже стільки байт, скільки воно заслуговує. Тут доречне згадати коди Голомба чи вмонтовану функцію популярного мови Perl: pack («w»).

У літературі трапляється важча система пакувальних алгоритмів найширшого спектра: арифметичний, Хафман, LZW, тощо. Прогрес в цій галузі йде безупинно. Насправді в пошукових системах вони використовуються рідко: виграш невеликий, а потужності процесора витрачаються неэффективно.

У всіх описаних хитрощів розмір інвертованого файла, зазвичай, становить від 7 до 30 відсотків від розміру вихідного тексту, в залежність від подробиці адресації. занесені в «Червону книгу».

Неодноразово пропонувалися інші, які від інвертованого і прямого пошуку алгоритми і структури даних. Це насамперед, суффиксные дерева, і навіть сигнатуры.

Перший функціонував й у інтернеті, будучи запатентованим алгоритмом пошукової системи OpenText.

Мені випадало зустріти суффиксные індекси у пошукових системах.

Другий — метод сигнатур — є перетворення документа до поблочным таблицям хеш-значений його слів — «сигнатуре «і послідовному перегляду «сигнатур «під час поиска.

Широкого поширення ці дві методу не получили.

МАТЕМАТИЧЕСКИЕ МОДЕЛИ.

Приблизно 3 з 5 пошукових систем і модулів функціонують без будь-яких математичних моделей. Їх розробники ставлять собі завдання реалізовувати абстрактну модель. Принцип тут: аби програма хоч щонибудь находила.

Щойно мова про підвищенні якості пошуку, про великий обсяг інформації, про потоці користувальних запитів, крім емпірично проставлених коефіцієнтів корисним виявляється оперувати якимось хоча й нескладним теоретичним апаратом. Модель пошуку — це спрощення реальності, виходячи з якого виходить формула (у нас собі нікому не потрібна), що дозволяє програмі прийняти зважене рішення: який документ вважати знайшли й як він ранжирувати. Після прийняття моделі коефіцієнти набувають фізичний зміст і стають понятней.

Усі розмаїття моделей традиційного інформаційного пошуку (IR) заведено поділяти втричі виду: теоретико-множинні (булевская, нечітких множин, розширена булевская), алгебраические[1][1] (векторна, узагальнена векторна, латентно-семантическая, нейросетевая) і вероятностные.

Булевское сімейство моделей найвідоміше, реалізують повнотекстовий пошук. Є слово — документ вважається знайденим, немає - не знайденим. Власне, класична булевская модель — це місток, зв’язуючий теорію інформаційного пошуку з теорією пошуку це й маніпулювання данными.

Критика булевской моделі, цілком справедлива, полягає у її крайньої жорсткості і непридатності для ранжирування. Тому ще 1957 року Joyce і Needham (Джойс і Нидхэм) запропонували враховувати частотні характеристики слів, щоб «…операція порівняння було б ставленням відстані між векторами…».

Векторна модель і було успішно реалізована 1968 року батькомзасновником науки про інформаційному пошуку Джерардом Солтоном (Gerard Salton)[2][2] в пошукової системі SMART (Salton «p.s Magical Automatic Retriever of Text). Ранжування у цій моделі грунтується природному статистичному спостереженні, чим більше локальна частота терміна в документі (TF) і більше «рідкість» (тобто. зворотна зустрічальність в документах) терміна в колекції (IDF), тим більша вагу даного документа по відношення до терміну. Позначення IDF запровадила Karen Sparck-Jones (Карен СпаркДжоунз) в 1972 у статті про различительную силу (term specificity). З цієї моменту позначення TF*IDF широко використовують як синонім векторної модели.

Нарешті, в 1977 року Robertson і Sparck-Jones (Робертсон і СпаркДжоунз) обгрунтували і реалізували імовірнісного модель (запропоновану ще 1960), також поклало початок цілому сімейству. Релевантность у цій моделі сприймається як можливість, що це документ може виявитися цікавим користувачеві. У цьому мається на увазі наявність вже існуючого початкового набору релевантних документів, вибраних користувачем чи отриманих автоматично при якомусь спрощеному припущенні. Можливість виявитися релевантним кожному за наступного документа розраховується виходячи з співвідношення народження термінів в релевантному наборі й у іншої, «нерелевантной» частини колекції. Хоча імовірнісні моделі мають деяким теоретичним перевагою, адже вони мають документи у порядку спаду «ймовірності виявитися релевантним », практично вони не отримали великого распространения.

Важливо зазначити, що у кожному з сімейств найпростіша модель виходить із припущення взаимонезависимости слів й володіє умовою фільтрації: документи, які містять слова запиту, будь-коли бувають знайденими. Просунуті («альтернативні») моделі кожного з сімейств не вважають слова запиту взаимонезависимыми, крім того, дозволяють знаходити документи, не містять жодного слова з запроса.

Пошук «по смыслу».

Здатність знаходити і ранжирувати документи, які містять слів з запиту, часто вважають ознакою штучного інтелекту чи пошуку по глузду і відносять апріорі до переваг модели.

Наприклад опишу лише один, найпопулярнішу модель, працює в галузі змісту. Теоретично інформаційного пошуку цю модель прийнято називати латентно-семантически индексированием (інакше кажучи, виявленням прихованих смислів). Ця алгебраїчна модель полягає в сингулярному розкладанні прямокутної матриці, ассоциирующей слова з документами. Елементом матриці є частотна характеристика, відбиває ступінь зв’язку слова документа, наприклад, TF*IDF. Замість вихідної миллионно-размерной матриці автори методу, запропонували використовувати 50−150 «прихованих смыслов"[3][3], відповідних першим головним компонентами її сингулярного разложения.

Доведено, що й залишити у відкритому розгляді перші k сингулярних чисел (інші прирівняти нулю), ми матимемо найближчу з усіх можливих апроксимацію вихідної матриці рангу k (у сенсі її «найближчу семантичну інтерпретацію рангу k»). Зменшуючи ранг, ми отфильтровываем нерелевантні деталі; збільшуючи, намагаємося відбити всі можливі нюанси структури реальних данных.

Операції пошуку чи знайдення схожих документів різко спрощуються, так як кожному слову і кожному документа порівнюється щодо короткий вектор з k смислів (рядки — і стовпчики відповідних матриць). Проте з причини малої чи свідомості «смислів», чи з який иной[4][4], але використання LSI прямо на допомогу пошуку не стало поширеним. Хоча у допоміжних цілях (автоматична фільтрація, класифікація, поділ колекцій, попереднє зниження розмірності й інших моделей) його, очевидно, застосовується.

Оценка качества.

Хоч би яка була модель, пошукова система нуждаетсяв «тюнинге» — оцінці якості пошуку миру і їх настроюванні параметрів. Оцінка якості - ідея, фундаментальна для теорії пошуку. Адже саме завдяки оцінці якості можна казати про застосовності або застосовності тій чи іншій моделі і навіть обговорюватимемо теоретичеcкие аспекты.

Зокрема, однією з природних обмежень якості пошуку служить спостереження, винесене в епіграф: думки двох «асессоров» (фахівців, виносять вердикт про релевантности) загалом не збігаються друг з одним в дуже великі ступеня! Звідси випливає природний верхня межа якості пошуку, адже якість вимірюється за підсумками порівняння з думкою асессора.

Обычно[5][5] з метою оцінки якості пошуку міряють два параметра:

. точність (precision) — частка релевантного матеріалу у відповідь пошукової системы.

. повнота (recall) — частка знайдених релевантних документів мають у загальній кількості релевантних документів коллекции.

Саме це параметри використовувалися й закони використовують на регулярної основі для вибору моделей та його параметрів у межах створеної Американським Интститутом Стандартів (NIST) конференції за оцінкою систем текстового пошуку (TREC — text retrival evaluation conference)[6][6]. Розпочата в 1992 року консорціумом з 24 груп, до 12-му року свого існування конференція нагромадила значний матеріал, у якому досі вигострюються пошукові системи. До кожного черговий конференції готується новий матеріал (т.зв. «доріжка») з кожного з цікавлять напрямів. «Доріжка» включає колекцію документів і майже запитів. Наведу примеры:

. Доріжка довільних запитів (ad hock) — бере участь у всіх конференциях.

. Багатомовний поиск.

. Маршрутизація і фильтрации.

. Високоточний пошук (з відповіддю, що здійснюється на время).

. Взаємодія з пользователем.

. Естестственно-языковая «дорожка».

. Відповіді на «вопросы».

. Пошук в «брудних» (хіба що отсканированных) текстах.

. Голосовий поиск.

. Пошук на вельми великому корпусі (20GB, 100GB і т.д.).

. WEB корпус (під час останніх конференціях він представлений вибіркою по домену .gov).

. Розподілений пошук і освоєння злиття результатів пошуку із різних систем Дополнительные можливості надані пошуковими машинами.

Як очевидно з «доріжок» TREC, до самого пошуку тісно примикає ряд завдань, або поділяючих з нею загальну ідеологію (класифікація, маршрутизація, фільтрація, анотування), або є невід'ємною частиною пошукового процесу (кластеризація результатів, розширення й звуження запитів, зворотний, «запросо-зависимое» анотування, пошуковий інтерфейс і мови запитів). Немає жодної пошукової системи, якої було вирішувати практично хоча б з цих задач.

Найчастіше наявність тієї чи іншої додаткового властивості є вирішальним доказом в конкурентної боротьби пошукових систем. Наприклад, стислі анотації які з інформативних цитат документа, якими деякі пошукові системи супроводжують результати соєю роботи, допомагають їм залишатися на полступеньки попереду конкурентов.

Про всіх завдання й засобах розв’язання розповісти неможливо. Для прикладу розглянемо «розширення запиту», який зазвичай виробляється через притягнення до пошуку асоційованих термінів. Виконання цього завдання можливо у двох видах — локальному (динамічному) і глобальному (статичному). Локальні техніки спираються на текст запиту і аналізують лише документи, знайдені у ній. А глобальні «розширення» можуть оперувати тезаурусами, як апріорними (лінґвістичними), і побудованими автоматично у всій колекції документів. По узвичаєної думки, глобальні модифікації запитів через тезауруси працюють неефективно, знижуючи точність пошуку. Більше успішний глобальний підхід грунтується на побудованих вручну статичних класифікаціях, наприклад, ВЕБ-директориях. Такий підхід широко использутся в интернет-поисковиках у бойових операціях звуження чи розширення запроса.

Нерідко реалізація додаткових можливостей полягає в тих самих або дуже схожих засадах і моделях, як і сам пошук. Порівняйте, наприклад, нейросетевую пошукову модель, у якій використовується ідея передачі затухали коливань від слів до документів і навпаки до слів (амплітуда першого коливання — той самий TF*IDF), з технікою локального розширення запиту. Остання основанна на зворотний зв’язок (relevance feedback), в якої беруться найбільш смыслоразличительные (контрастні) слова з документів, що належать верхівці списку знайденого. На жаль, локальні методи розширення запиту, попри ефектні технічні ідеї типу «Term Vector Database» і очевидну користь, досі залишаються вкрай дорогими.

Лингвистика.

Трохи осторонь статистичних моделей і структур даних стоїть клас алгоритмів, традиційно що відносяться до лінгвістичним. Точнісінько кордону між статистичним і лінґвістичними методами провести важко. Умовно вважатимуться лінґвістичними методи, які спираються на словники (морфологічні, синтаксичні, семантичні), створені людиною. Хоча вважається, що з деяких мов лінгвістичні алгоритми не вносять істотного приросту точності й діють повноти (наприклад, англійський), проте основна маса мов вимагає хоча б рівня лінгвістичної обробки. Наведу лише список завдань, розв’язати лінґвістичними чи окололингвистическими приемами:

. автоматичне визначення мови документа.

. токенизация (графематический аналіз): виділення слів, кордонів предложений.

. виняток неинформативных слів (стоп-слов).

. лемматизация (нормалізація, стемминг): приведення словоизменительных форм до «словникової». До того ж й у слів, не які входять у словник системы.

. поділ складних слів (компаундов) декому мов (наприклад, немецкого).

. дизамбигуация: повне чи часткове зняття омонимии.

. виділення іменних групп.

Ще рідше в дослідженнях на практиці можна зустріти алгоритми словообразовательного, синтаксичного і навіть семантичного аналізу. При цьому під семантичним аналізом частіше розуміють який-небудь статистичний алгоритм (LSI, нейронные мережі), і якщо толково-комбинаторные чи семантичні словники й закони використовують, то вкрай вузьких предметних областях.

Заключение

Насамперед, очевидно, що пошук у великому інформаційному масиві, не то, можливо скільки-небудь коректно виконано, будучи грунтується на аналізі самого тексту документа. Адже позатекстові (off-page) чинники грають де й великій ролі, ніж текст самої сторінки. Становище з сайту, відвідуваність, авторитетність джерела, частота відновлення, цитованість сторінки і його авторів — всі ці фактори відіграють істотну роль.

Cтав є основним джерелом отримання довідкової інформації в людини, пошукові системи стали є основним джерелом трафіку для інтернетсайтів. Як наслідок, вони негайно зазнали «атакам» несумлінних авторів, бажаючих приєднатися до сторінках результатів пошуку. Штучна генерація вхідних сторінок, насичених популярними словами, техніка клоакинга, «сліпого тексту» і ще прийоми, призначені для обману пошукових систем.

Крім проблеми коректного ранжирування, творцям пошукових систем довелося розв’язувати завдання відновлення і синхронізації колосальної за величиною колекції з гетерогенными форматами, способами доставки, мовами, кодуваннями, масою беззмістовні і дублирующихся текстів. Необхідно підтримувати базу може максимальної свіжості, то, можливо враховувати індивідуальні і колективні переваги користувачів. Чимало з цих завдань ніколи раніше розглядали в традицонной науці інформаційного поиска.

1. Ашманов І. З. Національні особливості пошукових систем // Журнал.

" Комп’ютер у шкільництві «, № 01, 2000 рік // Видавництво «Відкриті системи «.

(internet.

2. Антонов А. В., Мєшков В.С. Аналітичні проблеми пошукових систем и.

«лінгвістичні аналізатори» // НТИ.Сер.1. 2000. № 6.-С.1−5.

3. Войскунский В. Г. Оцінка функціональної ефективності документального пошуку: і розмиті шкали оцінка пертинентности // НТІ. Сер. 2. 1992.;

№ 5.-С.19−27.

4. Кноп До. Пошук з Інтернету як хронічне захворювання // Світ Internet.

— 2002. — N 10. — З. 33−35.

5. Конжаев А. Стратегія інформаційного пошуку // internet.

6. Попов З. Пошук інформації та ухвалення рішення // НТІ. Сер.2.-2001.-№ 1.;

С.1−4.

7. Степанов В. К Російськомовні пошукові механізми до Інтернету //.

ComputerWorld Россия.-1997.-N11.-C.37−40.

8. Сегалович І. Як працюють пошукові системи // Світ Internet. — 2002. ;

N 10. — З. 24−32.

Глоссарий:

++ асесор (assesor, експерт) — фахівець у предметної області, виносить висновок про релевантности документа, знайденого пошукової системой.

++ булевская модель (boolean, булева, булевая, двоичная) — модель пошуку, яка спирається операції перетину, об'єднання і вирахування множеств.

++ векторна модель — модель інформаційного пошуку, розглядає документи і запити як вектори у просторі слів, а релевантность як відстань між ними.

++ імовірнісна модель — модель інформаційного пошуку, розглядає релевантность як ймовірність відповідності даного документа запиту виходячи з ймовірностей відповідності слів даного документа ідеальному ответу.

++ позатекстові критерії (off-page, вне-страничные) — критерії ранжирування документів мають у пошукових системах, учитыващие чинники, не які у тексті самого документи й не добувані звідти ніяким образом.

++ вхідні сторінки (doorways, hallways) — сторінки, створені для штучного підвищення рангу в пошукових системах (пошукового спаму). При потраплянні ними користувача перенаправляют на цільову страницу.

++ дизамбигуация (tagging, part of speech disambiguation, таггинг) — вибір однієї з кількох омонімів з допомогою контексту; щодо англійської мові часто зводиться до автоматичному призначенню граматичної категорії «частина речи».

++ дублікати (duplicates) — різні документи з ідентичним, з місця зору користувача, змістом; приблизні дублікати (near duplicates, почти-дубликаты), на відміну точних дублікатів, містять незначні отличия.

++ ілюзія свіжості - ефект здавалося б свіжості, який досягається пошуковими системами в інтернеті з допомогою більш регулярного обходу тих документів, які частіше перебувають пользователями.

++ инвертированный файл (inverted file, інверсний файл, инвертированный індекс, инвертированный список) — індекс пошукової системи, у якому перераховані слова колекції документів, а кожного слова перераховані все місця, у яких вона встретилось.

++ індекс (index, покажчик) — див. индексирование.

++ індекс цитування (citation index) — число згадувань (цитувань) наукової статті, у традиційній бібліографічною науці розраховується за проміжок часу, наприклад, за год.

++ індексування (indexing, індексація) — процес складання чи приписування покажчика (індексу) — службової структури даних, необхідної на подальше поиска.

++ інформаційний пошук (Information Retrieval, IR) — пошук неструктурованою інформації, единицой уявлення якої є документ довільних форматів. Предметом пошуку виступає інформаційна потреба користувача, неформально котре виражається у пошуковому запиті. І критерій пошуку, і результати недетермированы. Цими ознаками інформаційний пошук відрізняється від «пошуку даних», який оперує набором формально заданих предикатів, має справу зі структурованої інформацією і чий результат завжди детермінований. Теорія інформаційного пошуку вивчає всі складові процесу пошуку, саме, попередню обробку тексту (індексування), обробку та виконання запиту, ранжування, користувальницький інтерфейс і зворотний связь.

++ клоакинг (cloaking) — техніка пошукового спаму, яка полягає у розпізнанні авторами документів робота (индексирующего агента) пошукової системи та генерації йому спеціального змісту, принципово яка від змісту, що його видають пользователю.

++ контрастність терміна — див. различительная сила.

++ латентно-семантическое індексування — запатентований алгоритм пошуку за змістом, ідентичний факторному аналізу. Заснований на сингулярному розкладанні матриці зв’язку слів з документами.

++ лемматизация (lemmatization, нормалізація) — приведення форми слова до словниковому виду, тобто лемме.

++ накрутка пошукових систем — див. спам пошукових систем.

++ непотизм — вид спаму пошукових систем, установка авторами документів взаємних посилань з метою підняти свій ранг в результатах поиска.

++ зворотна зустрічальність в документах (inverted document frequency, IDF, зворотна частота в документах, зворотна документная частота) — показник пошукової цінності слова (його различительной сили); зворотна кажуть, тому що за обчисленні цього у знаменнику дробу зазвичай стоїть число документів, містять дане слово.

++ зворотний — відгук користувачів на результат пошуку, їх судження про релевантности знайдених документів, зафіксовані пошукової системою та які використовуються, наприклад, для итеративной модифікації запиту. Слід відрізняти від псевдо-обратной зв’язку — техніки модифікації запиту, в якої кілька перших знайдених документів автоматично вважаються релевантными.

++ омонімія — див. полисемия.

++ основа — частина слова, загальна для набору його словотвірними і словоизменительных (частіше) форм.

++ пошук за змістом — алгоритм інформаційного пошуку, здатний знаходити документи, які містять слів запроса.

++ пошук схожих документів (similar document search) — завдання інформаційного пошуку, у якій як запиту виступає сам документ і потрібно знайти документи, максимально схожі на данный.

++ пошукова система (search engine, SE, інформаційно-пошукова система, ИПС, пошукова машина, машина пошуку, «розвідувач», «искалка») — програма, призначена на допомогу пошуку інформації, зазвичай текстових документов.

++ пошукове розпорядження (query, запит) — зазвичай рядок текста.

++ полісемія (polysemy, homography, багатозначності, омография, омонімія) — наявність кількох значень в однієї й того слова.

++ повнота (recall, охоплення) — частка релевантного матеріалу, укладеного у відповідь пошукової системи, стосовно до всього релевантному матеріалу в коллекции.

++ почти-дубликаты (near-duplicates, приблизні дублікати) — див. дубликаты.

++ прюнинг (pruning) — відсікання явно нерелевантных документів при пошуку з прискорення виконання запроса.

++ прямий пошук — пошук безпосередньо за текстом документів, без попередньої обробки (без индексирования).

++ псевдо-обратная зв’язок — див. зворотна связь.

++ различительная сила слова (term specificity, term discriminating power, контрастність, различительная сила) — ступінь ширини чи вузькості слова. Занадто широкі терміни у пошуках приносять занадто багато інформації, при це значна частину їх некорисна. Занадто вузькі терміни допомагають знайти замало документів, хоч і більш точных.

++ регулярне вираз (regualr expression, pattern, «шаблон», рідше «трафарет», «маска») — спосіб записи пошукового розпорядження, дозволяє визначати побажання до згаданої слову, його можливі написання, помилки і т.д. У широкому значенні - мову, дозволяє ставити запити необмеженої сложности.

++ релевантность (relevance, relevancy) — відповідність документа запросу.

++ сигнатура (signature, підпис) — безліч хеш-значений слів деякого блоку тексту. Під час пошуку методом сигнатур все сигнатури всіх блоків колекції проглядаються послідовний у пошуках збігів з хешзначеннями слів запроса.

++ словозміна (inflection) — освіту форми певного грамматического значення, зазвичай обов’язкового у цьому граматичному контексті, що належить до фіксованому набору форм (парадигмі), властивого слів такого типу. На відміну від словотвори ніколи не призводить до зміні типу, і породжує передбачуваний значення. Словозміна імен називають схилянням (declension), а дієслів — дієвідміною (conjugation).

++ словотвір (derivation) — освіту слова чи основи з іншого слова чи основи. Частіше призводить до зміні типу, і до утворення слів, мають идеосинкразическое значение.

++ смыслоразличительный — див. различительная сила.

++ спам пошукових систем (spam, спамдексинг, накрутка пошукових систем) — спроба впливати на результат інформаційного пошуку із боку авторів документов.

++ статична популярність — див. PageRank.

++ стемминг — поцесс виділення основи слова.

++ стоп-слова (stop-words) — ті союзи, приводи та інші частотні слова, які дана пошукова система виключив із процесу індексування й пошуку підвищення своєї продуктивності і/або точності поиска.

++ суффиксные дерева, суффиксные масиви (suffix trees, suffix arrays, PAT-arrays) — індекс, заснований виставі всіх значимих суфіксів тексту у структурі даних, відомої як бір (trie). Суфіксом у тому індексі називаю будь-яку «подстроку», що починається із певною позиції тексту (текст сприймається як одна безперервна рядок) і триваючу до його кінця. У реальних додатках довжина суфіксів обмежена, а індексуються лише значимі позиції - наприклад, початку слів. Цей індекс дозволяє виконувати складніші запити, ніж індекс, побудований на инвертированных файлах.

++ токенизация (tokenization, lexical analysis, графематический аналіз, лексичний аналіз) — виділення з тексту слів, чисел, та інших токенов, у цьому числі, наприклад, перебування кордонів предложений.

++ точність (precision) — частка релевантного матеріалу у відповідь пошукової системы.

++ хеш-значение (hash-value) — значення хеш-функции (hash-function), перетворюючої дані довільній довжини (зазвичай, рядок) до фіксованого порядка.

++ частота (слова) в документах (document frequency, зустрічальність в документах, документная частота) — число документів мають у колекції, містять дане слово.

++ частота терміна (term frequency, TF) — частота вживань слова в документе.

++ шингл — (shingle) — хеш-значение безупинної послідовності слів тексту фіксованою длины.

++ PageRank — алгоритм розрахунку статичної (глобальної) популярності сторінки в інтернеті, названий на честь однієї з авторів — Лоуренса Пейджа. Відповідає ймовірності влучення користувача на сторінку в моделі випадкового блуждания.

++ TF*IDF — чисельна міра відповідності слова документа в векторної моделі; тим більше коштів, ніж щодо частіше слово трапилося у документі і щодо рідше в коллекции.

———————————- [1] У виконанні вітчизняної літературі алгебраїчні моделі часто називають лінійними [2] Gerard Salton (Sahlman) 1927;1995. Він також Селтон, він також Залтон і навіть Залман, він також Жерар, Герард, Жерард і навіть Джеральд залежно від смаку перекладача і допущених помилок internet.

internet.

[3] для великих колекцій число «смислів» збільшують до 300 [4] Після наших експериментів із LSI вийшло, що «сенс номер 1» в Рунеті - все англомовні документи, «сенс номер 3» — все форуми тощо. [5] але — є держава й «альтернативні» метрики! [6] матеріали конференції публічно доступні за адресою trec.nist.gov/pubs.html.

———————————;

[pic].

Показати весь текст

Заповнити форму поточною роботою