Допомога у написанні освітніх робіт...
Допоможемо швидко та з гарантією якості!

Дослідження засобів контролю присутності запозичень у текстових документах та створення програмного забезпечення для електронних бібліотек регіональних нав

Магістерська роботаДопомога в написанніДізнатися вартістьмоєї роботи

Однією з основних і очевидних причин, по якій не варто займатися порушенням авторських прав є те, що плагіат це — порушення закону. Але цьому залежно від обставин і масштабів порушення в КК України плагіат — привласнення авторства. може наступити як адміністративне і цивільно-правове, так і кримінальне покарання. У багатьох університетах світу досить щільно займаються проблемою плагіату… Читати ще >

Дослідження засобів контролю присутності запозичень у текстових документах та створення програмного забезпечення для електронних бібліотек регіональних нав (реферат, курсова, диплом, контрольна)

СХІДНОУКРАЇНСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

імені Володимира Даля МІЖНАРОДНИЙ ФАКУЛЬТЕТ КАФЕДРА КОМП’ЮТЕРНИХ НАУК

Пояснювальна записка

до дипломної роботи

(освітньо-кваліфікаційний рівень) на тему: Дослідження засобів контролю присутності запозичень у текстових документах та створення програмного забезпечення для електронних бібліотек регіональних навчальних закладів Луганськ — 2013 року

Реферат

Кількість сторінок — _____

Таблиць — 1

Ілюстрацій — 11

Бібліографічних джерел — 17

Ключові слова: авторське право, запозичення, система, алгоритм, шингл, мегашингл, супершингл.

З кожним роком все більше видань переводиться в електронну форму. Одні з них публікуються на компакт-дисках, інші - в глобальній мережі Інтернет. При цьому практично будь-яке електронне видання, в тому числі і опубліковане в мережі Інтернет, є об'єктом авторського права.

В даний час у світі існує значна кількість систем, що дозволяють здійснювати пошук запозичень (огляд систем представлений в четвертому розділі першої глави дисертаційної роботи), проте в Україні розробки в даному напрямку ведуться не так давно. Актуальність дослідження полягає в необхідності створення методів та автоматизованого інструментарію, що дозволяють здійснювати ефективний і адекватний пошук запозичень в текстових документах, розміщених в електронній бібліотеці регіональних навчальних закладах.

Зміст

  • Реферат
  • Перелік скорочень
  • Вступ
  • Розділ 1. Аналіз стану питання і постановка задач дослідження
  • 1.1 Витоки авторського права і відповідальності за його порушення
  • 1.2 Види порушення авторських прав
  • 1.3 Проблема порушення авторських прав
  • 1.4 Дії щодо припинення порушення авторських прав
  • 1.5 Огляд систем і сервісів пошуку плагіату
  • 1.6 Способи захисту електронних видань від плагіату в Інтернеті
  • 1.6.1 Електронне видання
  • 1.6.2 Види текстової інформації
  • 1.6.3 Способи захисту
  • 1.7 Автоматизація обробки текстової інформації
  • 1.8 Постановка завдання
  • Розділ 2. Методи і алгоритми аналізу, подання і порівняння текстової інформації
  • 2.1 Методи аналізу текстової інформації
  • 2.2 Методи захисту від копіювання текстової інформації в Інтернеті
  • 2.3 Алгоритми пошуку точного збігу
  • 2.4 Алгоритми пошуку спільних підпослідовностей
  • 2.6 Алгоритми обчислення відстані між рядками
  • 2.7 Алгоритми нечіткого пошуку
  • Розділ 3. Вибір методу пошуку текстових документів з запозиченнями
  • 3.1 Локальні методи
  • 3.1.1 LongSent
  • 3.1.2 Методи на основі заходи TF
  • 3.1.3 Методи, які використовують поняття шинглів
  • 3.1.4 MinHash метод
  • 3.1.5 Методи, які використовують семантичні мережі
  • 3.2 Глобальні методи
  • 3.2.1 Методи на основі з TF-IDF
  • 3.2.2 I-Match метод
  • 3.2.3 Метод опорних слів
  • 3.3 Порівняння методів знаходження нечітких дублікатів
  • Розділ 4. Розробка програмного забезпечення
  • 4.1 Етап роботи алгоритму шинглів для веб-документів
  • 4.1 Обгрунтування вибору засобів розробки
  • 4.3 Реалізація алгоритму шинглів
  • 4.4 Інтерфейс взаємодії з користувачем
  • Розділ 5. Охорона праці та безпека в надзвичайних ситуаціях
  • Висновки
  • Список літератури
  • Додатки

Перелік скорочень

АРМ — автоматизоване робоче місце

АОТ — автоматизована обробка текстів

ЕВ — електронне видання

ІПС — інформаційно-пошукова система

ЛА — лінгвістичний автомат

МП — машинний переклад

ПЗ — програмне забезпечення

Вступ

Актуальність теми дослідження

Проблемою дослідження текстових творів займаються багато століття, але лише в 1851 році англійський логік Серпень де Морган вперше запропонував використовувати математичний апарат для вирішення завдання встановлення авторства. Тим самим Морган породив безперервну дискусію про застосовність математичних методів для задач аналізу текстової інформації.

Актуальність автоматизації пошуку запозичень в електронних виданнях обумовлена проблемою порушення авторських прав. В даний час нелегальне розповсюдження творів, що є об'єктом авторського права — явище буденне. Однак Інтернет дозволив максимально спростити саму процедуру порушення до буквально двох-трьох натискань клавіш. Одні й ті ж матеріали багаторазово копіюються на різних сайтах, що неможливо без порушення норм авторського права. Крім того, проблема незаконного запозичення текстових матеріалів зачіпає і систему вищої освіти. Завдяки тому, що в глобальній мережі Інтернет опубліковані, в деяких випадках незаконно, багато електронні видання, а також в силу незнання чинного законодавства в галузі авторського права, багато хто вважає можливим копіювати фрагменти опублікованих у мережі Інтернет електронних видань, з подальшим присвоєнням авторства. За даними, опублікованими Education Week (http://www.plagiarism.org/plagiarismstats.html), заснованим на національному дослідженні (USA) випливає, що 54% студентів незаконно використовують у своїх роботах матеріали, опубліковані в мережі Інтернет. Варто також відзначити, що 47% студентів вважають, що їхні викладачі часто ігнорують випадки плагіату в студентських роботах. Центр Академічної Чесності (The Center for Academic Integrity) виявив, що 80% студентів визнаються в плагіаті, скоєному хоча б одного разу.

плагіат інтернет текстовий документ З кожним роком все більше видань переводиться в електронну форму. Одні з них публікуються на компакт-дисках, інші - в глобальній мережі Інтернет. При цьому практично будь-яке електронне видання, в тому числі і опубліковане в мережі Інтернет, є об'єктом авторського права.

В даний час, багато хто помилково вважає, що матеріали, опубліковані в глобальній мережі Інтернет можна копіювати, не піклуючись про виняткові права автора.

В даний час у світі існує значна кількість систем, що дозволяють здійснювати пошук запозичень (огляд систем представлений в четвертому розділі першої глави дисертаційної роботи), проте в Україні розробки в даному напрямку ведуться не так давно. Актуальність дослідження полягає в необхідності створення методів та автоматизованого інструментарію, що дозволяють здійснювати ефективний і адекватний пошук запозичень в текстових документах, розміщених в електронній бібліотеці регіональних навчальних закладах.

Мета і завдання дослідження

Метою магістерської роботи є створення автоматизованої системи, а також розробка методів і алгоритмів, що дозволяють проводити пошук запозичень в текстовій інформації, розміщених в електронній бібліотеці регіональних навчальних закладах. Для досягнення мети були вирішені наступні завдання:

огляд програмних систем, що дозволяють проводити пошук запозичень в мережі Інтернет;

аналіз методів і способів, що дозволяють захищати електронні документи від несанкціонованого копіювання;

розробка методів і алгоритмів, що дозволяють здійснювати пошук запозичень в ЕВ;

програмна реалізація розроблених і запропонованих методів і алгоритмів пошуку запозичень в ЕВ;

Предмет і об'єкт дослідження. Об'єктом дослідження є системи, що дозволяють проводити пошук запозичень у текстовому матеріалі, опублікованому в глобальній мережі Інтернет. Предметом дослідження та розробки є безліч методів і алгоритмів, що дозволяють здійснювати пошук запозичень у текстовому матеріалі, а також алгоритмічне забезпечення систем пошуку запозичень в текстовій інформації.

Методи дослідження. У представленій роботі були використані: теорія множин, теорія фільтрів, теоретико-ймовірнісні методи і методи концептуального аналізу, а також позалінгвістичного контент-аналіз у поєднанні з елементами нечіткого порівняння, лексичного та синтаксичного аналізу.

При створенні програмного комплексу, а також при дослідженні алгоритмів порівняння текстової інформації застосовувалися методи об'єктно-орієнтованого програмування (ООП), об'єктно-компонентного програмування (ОКП), динамічного програмування, структурного і модульного програмування.

Оцінка теоретичної значущості результатів роботи. Отримані методи і алгоритми є теоретичною основою для створення автоматизованої системи пошуку запозичень в електронних виданнях, опублікованих в глобальній мережі Інтернет. Запропоновані методи дозволяють здійснювати порівняння текстового матеріалу, спираючись відразу на два ортогональних методу (позалінгвістичного і лінгвістичний). Комбінація позалінгвістичного контент-аналізу в поєднанні з елементами лексичного і синтаксичного аналізу дозволяє по-новому підійти до проблеми порівняння текстових фрагментів для виявлення запозичень.

Практична значущість роботи

Практична цінність магістерської роботи полягає в розроблених методах, які пройшли, в ході тестових випробувань, дослідження на швидкість і ефективність. Розроблені методи розв’язання задачі пошуку запозичень дозволяють значно скоротити час, що витрачається на ручний аналіз документів в електронній бібліотеці, для визначення текстових документів із запозиченнями.

Наукова новизна і значимість роботи

У магістерській роботі вирішена науково-практична задача автоматизації пошуку запозичень в ЕВ, розміщених у базі даних електронної бібліотеки регіональних навчальних закла дів. Розроблено та програмно реалізовано методи і алгоритми, що позволяють проводити пошук запозичень у текстовому матеріалі: розроблена архітектура і програмно реалізована автоматизована система пошуку запозичень в електронних виданнях, що дозволяє здійснювати пошук плагіату в електронних документах, розташованих на локальних носіях інформації.

Апробація результатів роботи

Основні положення та результати роботи докладалися на студентській науково-технічній конференції кафедри комп’ютерних наук Східноукраїнського національного університету імені Владимира Даля у квітні 2013 року.

Розділ 1. Аналіз стану питання і постановка задач дослідження

1.1 Витоки авторського права і відповідальності за його порушення

Авторське право в сучасному сенсі було встановлено лише підчасів епохи Просвітництва, Батьківщиною першого авторського і патентного законодавства вважається Великобританія, де в 1710 році з’явився перший авторський закон, відомий як «Статус королеви Анни» і містив один з найважливіших принципів авторського права — «копірайт». Заборона тиру-жирування опублікованого твору без згоди автора. Основною метою такого правового регулювання був захист інтересів видавця, але здійснювалася вона за допомогою законодавчої конструкції, що спиралася на волевиявлення учасника, якому надавалося монопольне право на публікацію твору протягом 14 років з моменту його створення, а також можливість продовження цього терміну ще на 14 років при життя автора. Характерно, що на автора покладалася «зустрічна обов’язок» — надавати в публічно доступні бібліотеки кілька примірників своїх творів.

Професор Shifra Barachson-Arbib і Eti Yaari у своїй статті «Printed Versus Internet Plagiarism: A Study of Students 'Perception» відзначають, що термін «плагіат» походить від латинського кореня «Plagiarius», що означає «викрадач». Вперше даний термін використав римський поет Martial, в першому столітті нашої ери. Починаючи з 18 століття термін «плагіат» застосовується виключно до літературного злодійства.

Традиційно літературне злодійство було порівняно з крадіжкою дітей або рабів, підкреслюючи тим самим сильну зв’язок між артистичними і біологічними створіннями. Авторське право розглядалося не з майновою боку, а як продовження і відображення особистості самого автора, у зв’язку з чим останній набував чинності «природною справедливості» права на охорону свого твору у якості частини своєї особистості.

Однак і в Англії і в Франції авторські права розглядалися, по суті, як права власності, що забезпечують авторам, їх спадкоємцям або іншим правонаступникам можливість отримання майнової вигоди від використання охоронюваного твору.

Такий підхід надав великий вплив на розвиток авторського права в континентальній Європі і сприяв розвитку driot moral («моральних» або особистих немайнових прав автора). У результаті в континентальній правовій системі авторські права виявилися не тільки наділені рисами, властивими праву власності а й поряд з майновим змістом включали додаткові правомочності, що захищають нематеріальні інтереси автора. В даний час Кримінальний кодекс України визначення плагіату не містить, звертаємося до статті 50 Закону України «Щодо авторське право та суміжні права»: плагіат — оприлюднення (опублікування), повністю або частково, чужого твору під іменем особи, яка не є автором цього добутку. Отже, привласнення авторства — це протизаконна дія, внаслідок вчинення якого суб'єкт, що не приймає творчої участі у створенні твору, видає себе за учасника.

Окремо слід відзначити, що законом про авторське право і суміжних правах захищаються образи і мова твору. При цьому такі елементи твори як: тема, сюжет, ідейний зміст — юридично байдужі.

Юридична тонкість полягає в тому, що якщо людина буде видавати себе за учасника чужого твору, але при цьому він не буде вживати ніяких дій, то ця людина не буде вважатися порушником закону. Тільки у випадку відтворення, розповсюдження чужого твору під своїм ім'ям, людина стає порушником. Стаття 50 КК України передбачає такі види покарання за незаконне використання об'єктів авторського права: якщо плагіатом завдано шкоди у значному розмірі (на даний момент — близько 9600 грн)., То застосовується покарання у вигляді штрафу від двохсот до тисячі неоподатковуваних доходів громадян (1 НДГ = 17 грн.) або виправні роботи на строк до двох років, або позбавлення волі на той самий строк, з конфіскацією та знищенням всіх примірників творів, матеріальних носіїв комп’ютерних програм, баз даних, виконань, фонограм, відеограм, програм мовлення та пристосувань і матеріалів, які спеціально використовувалися для їх виготовлення (частина перша статті 176 КК України). Саме більше в Україні за плагіат можна отримати до п’яти років позбавлення волі.

1.2 Види порушення авторських прав

Відразу після створення твору автору належать права двох видів: приватні немайнові права і майнові права. При цьому слід зазначити, що авторське право на твір науки, літератури і мистецтва виникає в силу факту його створення. Для виникнення і шляхи виконання авторського права не потрібно реєстрації твору, іншого спеціального оформлення твору або дотримання будь-яких формальностей.

Особисті немайнові права (право визнаватися автором; право оприлюднити або дозволяти оприлюднити твір; право на захист твору) належать автору незалежно від його майнових прав і зберігаються за ним у разі поступки виключних прав на використання твору. До майнових прав, що належить автору, відносяться винятково права на використання твору в будь-якій формі та в будь способом. При цьому майнові права можуть бути передані третім особам за авторським договором.

Таким чином, порушення авторських прав в глобальній мережі Інтернет можна розділити на дві категорії:

Порушення особистих немайнових прав — привласнення авторства на розміщені в Інтернеті твори, тобто плагіат

Порушення майнових прав — розміщення творів у мережі та надання до них доступу без дозволу правовласника.

В даний час в судовій практиці прийнято розрізняти такі види плагіату:

випуск в повному обсязі або частини чужого твору під своїм ім'ям;

випуск твору під своїм ім'ям, створеного у співавторстві з іншими особами без зазначення їх прізвищ;

використання у творі фрагментів творів інших авторів без оформлення цитат або вказівки заслань на першоджерело;

дії з примусу до співавторства, а також до відмови від авторства.

Однією з основних і очевидних причин, по якій не варто займатися порушенням авторських прав є те, що плагіат це — порушення закону. Але цьому залежно від обставин і масштабів порушення в КК України плагіат — привласнення авторства. може наступити як адміністративне і цивільно-правове, так і кримінальне покарання. У багатьох університетах світу досить щільно займаються проблемою плагіату в студентських роботах. У багатьох університетах у статуті прописані санкції, що застосовуються до учнів, у разі виявлення випадків плагіату в здаються роботах. У більшості випадків, при неодноразовому виявленні значного плагіату в роботі учня, статут навчального закладу дозволяє дисциплінарної комісії здійснити процедуру відрахування без права поновлення. Але слід також звернути увагу на те, що окрім порушення закону є ще ряд причин, по яких вкрай не бажано займатися плагіатом:

не вказавши посилання на реального автора висловлювання (ідеї), плагіатор позбавляє можливості читача ознайомитися з позицією та іншими роботами реального автора;

робота, у якій є значна кількість фактів і даних і не міститься посилань на інші документи, може вважатися читачем як менш приваблива з наукового погляду, так як немає можливості перевірити істинність фактів;

Плагіатор може видати за свою роботу помилкові результати, сумнівні, не мають наукової цінності дані. Усього цього можна уникнути при використанні правил цитування та наведення виносок на першоджерело інформації. Таким чином, при дотриманні правил цитування відбувається перекладання відповідальності за факти і вислови на реального автора.

1.3 Проблема порушення авторських прав

Не всі країни поспішають впроваджувати на національному рівні проекти з запобігання розповсюдження плагіату. Так за словами авторів програми з автоматичного пошуку плагіату в мережі Інтернет, Анатолія Шевченка та Олександра Литвиненка: у Міністерстві освіти і науки України знають про «ноу-хау» і дали добро на його впровадження. Але не всі вузи зацікавлені в цьому. Зокрема, це пов’язано і з тим, що сьогодні дипломно-курсовим бізнесом займаються не тільки студенти і лаборанти, а й викладачі.

На диво мало справ, пов’язаних з порушенням авторських прав і плагіатом, розглядають дисциплінарні комісії в багатьох країнах. За2003 рік у Швеції було залучено до стягнення усього 112 учнів. При цьому відомо, що близько 10% квартир, що здаються робіт були з плагіатом. За приведеним у статті «Hidden Statistics» даними, реально до відповідальності притягується лише 0,2% порушників серед учнів у Швеції.

1.4 Дії щодо припинення порушення авторських прав

Одним з найбільш поширених і дієвих способів щодо припинення порушення авторських прав в глобальній мережі Інтернет є письмове попередження адміністратора сайту і власників хостингу. У більшості випадків, після отримання аргументованого листа про порушення авторських прав, власники сайту (адміністратори) приносять вибачення і припиняють порушення. Однак, якщо порушення авторських прав триває, то можливе звернення до власників хостингу, з проханням припинити доступ до ресурсу, що порушує законодавство України. При цьому необхідно детально описати, чиї права були порушені, ким і коли, яким законодавством це порушення переслідується, яка відповідальність загрожує власникам сайту-порушника.

Варто відзначити, що лист власникам хостингу в такому вигляді може допомогти лише в тому випадку, якщо мова йде про хостинг на території України. Якщо хостинг належить іноземної організації, то при мотивуванні порушення необхідно посилатися на норми міжнародних конвенцій з авторського права та інтелектуальної власності:

Бернська конвенція про охорону літературних і художніх творів 1886 року (у редакції, підписаної в Парижі 24.07.71 р.)

Всесвітня (Женевська) конвенція про авторське право 1952 переглянута в Парижі 24.07.71 р.

Міжнародна конвенція про охорону інтересів артистів виконавців, виробників фонограм і організацій мовлення (Рим, 26 жовтня 1961 р.)

Договір Всесвітньої організації інтелектуальної власності (ВОІВ) з авторського права (Женева, 20.12.96 р.)

Статут Міжнародної конфедерації товариств авторів та композиторів-рів (CISAC) На основі розгляду нових закордонних законодавчих актів встановлюється наступна тенденція у вирішенні проблеми відповідальності і обов’язків провайдерів доступу: провайдер доступу не зобов’язаний здійснювати контроль за змістом інформаційних ресурсів, але якщо він попереджений про те, що їх зміст незаконно (зокрема порушує авторські права), то провайдер доступу зобов’язаний вжити заходів для припинення доступу до такого інформаційного ресурсу.

При цьому, якщо порушник авторських прав не визнає факту порушення, а провайдер доступу готовий підкоритися винятково судовим рішенням, необхідно зібрати достатню кількість доказів правопорушення. Доказами у справі є отримані в передбаченому законом порядку відомості про факти, на основі яких суд загальної юрисдикції або арбітражний суд встановлює наявність або відсутність обставин, що обгрунтовують вимоги і заперечення сторін, а також інших обставин, що мають значення для правильного розгляду і вирішення справи.

1.5 Огляд систем і сервісів пошуку плагіату

Essay Verification Engine (EVE2)

EVE2 — потужний інструмент, який дозволяє професорам і викладачам на всіх рівнях системи освіти визначати, чи використовувалися матеріали, опубліковані в глобальній мережі, при написанні перевіреній роботи. EVE2 приймає документи у текстовій форматі Microsoft Word, або форматі Corel Word Perfect і повертає посилання на web-сторінки, з яких студент, можливо, скопіював матеріали.

Починаючи з лютого 2000 року через систему EVE2 було вироблено

приблизно 87 мільйонів запитів. Ліцензія на використання системи EVE2коштує $ 29,99 при цьому використовується система оплати 10 днів money back.

Web: http://www.canexus.com/eve/index. shtml

PowerResearcher (The Research Process Automation Tool)

PowerResearcher — це система, що дозволяє проводити пошук плагіату для не дуже великих фрагментів текстового матеріалу. Варто відзначити, що PowerResearcher — це багатофункціональний програмний продукт, що поєднує властивості та можливості наступних систем: Word, Excel, Internet Explorer. При цьому PowerResearcher дозволяє автоматизувати процес оформлення цитат, при вставці текстових фрагментів з мережі Інтернет. Вартість системи PowerResearcher становить від $ 79.95 до $ 129.95 вЗалежно від комплекту поставки.

Web: http://www.powerresearcher.com

WCopyfind (Software to detect plagiarism) WCopyfind дозволяє проводити пошук документів, в яких деякі фрагменти є загальними. Отже, можна говорити про те, що знайдені документи потенційно порушують авторські права. Після проведення пошуку документів з плагіатом, створюється звіт в HTML форматі.

Система підтримує наступні формати для аналізу: txt, html і doc. Однак необхідно відзначити, що система не виробляє пошуку по глобальній мережі Інтернет. WCopyfind дозволяє проводити пошук плагіату тільки на локальних (мережевих) дисках. WCopyfind поставляється безкоштовно за ліцензієюGNU GPL з відкритим вихідним кодом.

Web: http://plagiarism. phys. virginia.edu/Wsoftware.html

Plagiarism Detection Service (The Joint Information Systems Committee)

Дана система дозволяє здійснювати пошук по більш ніж 80 мільйонам сайтів і документів, содержашій в базі даних, JISC Plagiarism Detection Service не говорить про те, що хтось займається плагіатом. Дана система лише надає користувачеві (або інший програмної системі) інформацію про те які фрагменти документа були використані раніше,

Web: http://www.jisc. ac. ukGlatt

Plagiarism ServicesРозробники даної системи стверджують, що це перша всебічна програмна система, орієнтована для пошуку плагіату. Процедура порівняння текстової інформації заснована на припущенні про те, що кожна людина має індивідуальний стиль письма, який унікальний також як і відбитки пальців. Вартість повного комплекту ПЗ Glatt Plagiarism Program становить $ 500. На сайті також представлена?? система, що дозволяє виконати самоперевірку (http://www.plagiarism.com/self. detect. htm). При цьому виконати перевірку можна тільки для безперервної прози не менше 100 слів (діаграми, формули, графи повинні бути заздалегідь виключені з аналізованого тексту).

Web: http://www.plagiarism.com

MyDropBox SuiteСистема MyDropBox, що складається 3 основних сервісів (SafeAssignment, Re: Mark, Peer Re: Mark), є однією з найбільших, в області пошуку плагіату. Їх клієнтами є багато видавництв, зі шкіл і університетів світу. Досить сказати, що послугами системи My-DropBox користується більше 500 навчальних закладів у 35 країнах. В даний час послугами Sciworth Inc користується приблизно 1 500 000 студентів і викладачів. На офіційному сайті http://www.mydropbox. coni/licensing/index. php представлена інформація про +4-х видах ліцензійної угоди:

індивідуальна ліцензія;

кафедральна ліцензія;

ліцензія університетського містечка;

ліцензія безлічі університетських містечок.

Слід зазначити, що будь-який з перелічених видів ліцензійної угоди дозволяє використовувати ресурси системи MyDropBox винятково для освітніх потреб. При необхідності укладення ліцензійної угоди для використання в неакадемічних цілях слід заповнити спеціальну форму, розташовану на офіційному сайті.

Web: http://www.mydropbox.com/Placens.com

(Search Engine for plagiarized texts) Compris Intelligence GmbH позиціонують свою розробку, як систему пошуку плагіату в глобальній мережі Інтернет. Дана розробка, на відміну від більшості існуючих сервісів, базується не на пошуку ключових слів, що дозволяє даній системі виявляти перефразовані матеріали. Пошуковий сервіс placens.com систематично аналізує текстовий матеріал на предмет плагіату в мережі Інтернет.

Використання нових технологій пошуку компанією Compris Intelligence GmbH дозволяє знайти, фактично, всі тексти порушують авторські права. Згідно з офіційно представленої інформації на сайтіwww.placens.com, навіть якщо було використані синоніми чи перефразування — це буде виявлено.

Web: http://www.placens.com/

Copyscape (Website Plagiarism Search) Інтернет сервіс Copyscape надає користувачам можливість перевірки своїх сайтів (Інтернет-сторінок) на предмет запозичень на інших сайтах. Залежно від типу ліцензійної угоди перевірки на наявність плагіату в мережі Інтернет можуть проводитися як раз на тиждень (Copysentry Standard), так і щодня (Copysentry Professional). Web: http://www.copyscape.com/UrkundСистема розроблена спеціально для пошуку плагіату в здаються студентами роботах. Після того, як студент посилає роботу на електронну адресу викладача, система Urkund робить перевірку в 3-х основних джерелах;

Інтернет;

опубліковані матеріали;

студентські матеріали.

Якщо автоматизована система виявляє фрагменти роботи, які вже є в одному з 3-ох джерел, то вони позначаються. Таким чином, на електронну пошту викладачеві приходять студентські роботи з поміченими місцями можливого плагіату.

Web: http://www.urkund. сom

Scriptum

При перевірці роботи система scriptum проводить пошук в глобальній мережі Інтернет, документів, що містять фрагменти оригінальної роботи.

При цьому, якщо було виявлено запозичення з інших робіт, то створюється звіт, що містить інформацію про запозичених фрагментах перевіряється документа. Слід зазначити, що звіт представляє із себе вихідний перевірявся документ, в якому у вигляді посилань оформлені ті фрагменти, які вже зустрічаються в мережі Інтернет. При переході по цих посиланнях відкриваються документи, на яких розташовані матеріали, використовувані в перевіряється документі.

Web: http://www.scriptum. ca/

Antiplagiat.ruПерший російський Інтернет сервіс, який реалізує перевірку текстових документів на наявність запозичень із загальнодоступних мережевих джерел, з’явився навесні 2005 року. В даний час сервіс є безкоштовним, проте ліцензійна угода, в рамках якого здійснюється співробітництво, передбачає можливість переведення сервісу на платну основу. З представлених на офіційному сайті компанії матеріалів, випливає, що система проводить порівняння вихідного текстового документа з раніше завантаженими системою з Інтернету даними. Використовувана архітектура спрямована на мінімізацію часу порівняння, що безпосередньо пов’язано зі зниженням якості проведеного порівняння.

Web: http://www.antiplagiat.ru

JPlag (Detecting Software Plagiarism)

Web-сервіс JPlag дозволяє зареєстрованим користувачам проводити пошук плагіату в програмному коді. Система JPlag не порівнювати окремі байти програмного коду, вона вміє розпізнавати синтаксис програми та її структуру. Такий підхід дозволяє системі виявляти навіть видозмінені тексти програм. В даний час система підтримує наступні мови програмування: С, C + +, С #, JAVA, Scheme, і текст написаний на природній мові. Варто відзначити, що JPlag не підтримує пошук плагіату в Інтернеті. Система призначена для пошуку схожих програмних кодів серед студентських рішень.

Web: http://www.jplag. de/

Moss (Measure Of Software Similarity)

Moss — це система, що дозволяє автоматично перевіряти схожість вихідних текстів програм. В даний час система може коректно аналізувати програмний код, написаний на наступних мовах: С, C + +, Java, С #, Python,

Visual Basic, Javascript, FORTRAN, ML, Haskell, Lisp, Scheme, Pascal, Modula2, Ada, Perl, TCL, Matlab, VHDL, Verilog, Spice, MIPS assembly, a8086 assembly. Розробка системи Moss була розпочата в 1994 році. В даний час Moss призначена тільки для некомерційного використання і поширюється безкоштовно. Однак є можливість оформити комерційну ліцензію через Similix Coфoration (http://www.similix.com/)

Web: http://www.cs. berkeley.edu/% 7

Eaiken/moss.htmlSID (Software Integrity Detection)

Дана система призначена для пошуку плагіату у вихідних текстах програм написаних на C + + і JAVA. На відміну від Moss, дана система має можливість приблизного порівняння {Approximate Matching) іWeb-інтерфейс.

Web: http://genome. math. uwaterloo. ca

1.6 Способи захисту електронних видань від плагіату в Інтернеті

Для формування списку можливих способів захисту електронних видань необхідно визначити поняття «електронне видання» .

1.6.1 Електронне видання

Спираючись на формулюваннях Гостів і міжнародних стандартів були сформульовані основні вимоги, які пред’являються до електронного видання:

читаєма форма;

рівноправність споживачів;

самостійність;

інформативність.

Одним з основних нормативних документів визначають термін електронне видання є ГОСТ 7.83−2001, в якому наведено систему класифікації типів електронних видань:

наявність друкованого оригіналу (електронний аналог і самостійне видання);

природа основної інформації (текстове, образотворче, звукове, програмне, мультимедійне електронне видання);

цільове призначення (офіційне, наукове, науково-популярне, виробничо-практичне, нормативне, навчальний, довідкове, для дозвілля, рекламне, художнє електронне видання);

технологія розповсюдження (локальне, мережеве, комбіноване електронне видання);

характер взаємодії з користувачем (детерміноване, інтерактивне електронне видання);

періодичність (неперіодичне, серіальне, періодичне, про-продовжували, оновлюється електронне видання);

структура (однотомне, багатотомне, серія).

Відповідно до наведеної класифікації, одним з основних обмежень для електронних видань розглядаються в даній роботі є текстова природа основної частини матеріалу. Враховуючи дане обмеження, необхідно визначити поняття «текстова інформація», а також види текстової інформації.

1.6.2 Види текстової інформації

Текст (від лат, Textus — тканина, сплетіння, структура; зв’язне переказ) — мовне твір необмеженої довжини, В даний час тексти є об'єктом вивчення для багатьох наук, серед яких: лінгвістика, літературознавство, семіотика, психологія, текстологія, палеографія, теологія, етнографія. Однак існують цілі класи систем, які одночасно використовують напрацювання з декількох, на перший погляд ніяк не пов’язаних, областей наукового знання. Яскравим прикладом систем такого роду є системи автоматизованої обробки текстів (АОТ), Згідно нідерландському лінгвістові Т, Ван Дейку можна виділити три рівні структури тексту [15]:

мікроструктуру — поділ на мінімальні складові; макроструктуру — узагальнений опис основного змісту тексту;

супер структуру — стандартна схема, за якою будуються тексти певного жанру.

У системах автоматизованої обробки текстової інформації найчастіше доцільно використання певних методів, алгоритмів, фільтрів і словників стосовно лише до декількох видів текстової інформації. Дане явище пов’язане з тим, що для різних видів текстів характерна різна структура пропозицій. Також істотно відрізняється набір часто використовуваних слів в текстах, що, безумовно, має бути враховано при розробці системи АОТ, В даний час, в різних джерелах згадуються такі види текстів:

літературно-художні;

науково-технічні;

науково-популярні;

юридичні;

дитячі;

релігійні;

навчальні;

нормативні;

рекламні;

довідкові;

словники;

енциклопедії;

приказки та прислів'я;

ноти;

вірші.

Враховуючи той факт, що багато видів текстової інформації надзвичайно сильно відрізняються від інших, було прийнято рішення про доцільність обмеження кількості досліджуваних видів текстової інформації при розробці методів порівняння текстових документів.

1.6.3 Способи захисту

До основних способів захисту електронних видань, можна віднести:

публікація статті на паперовому носії;

реєстрація дати створення статті у нотаріуса;

відправлення поштового листа (самому собі) на паперовому носії з роздрукуванням статті;

морально-психологічний вплив на порушників авторського права (публікація витягів з Кримінального кодексу і закону про Авторське право та суміжні права);

здійснення програмно-технічного захисту електронного документа від копіровапія;

здійснення програмно-технічного захисту електронного документа з використанням стеганографії;

1.7 Автоматизація обробки текстової інформації

У програмах АОТ однією з ланок аналізу є лексико-граматичний аналіз (Part-of-Speechtagging), який для російської мови, завдяки його розвиненою морфології, виконується практично зі стовідсотковою точністю. Крім цього, для поліпшення точності лексико-граматичного аналізу використовуються два типи алгоритмів: ймовірнісно-статистичні і основані на продукційних правилах.

Велика частина ймовірнісно-статистичних алгоритмів використовує два джерела інформації: словник словоформ мови та інформацію про зустрічальності всіх можливих послідовностей лексико граматичних класів.

У розвинених інформаційно-пошукових системах (ІПС) використовується багаторівневий аналіз текстів:

лексичний аналіз;

морфологічний аналіз;

синтаксичний аналіз;

семантичний аналіз.

При цьому, найчастіше, головною ланкою є останній етап отримання семантичної інформації про текст, в той час як перші три рівня є підготовчими. Таким чином, ІПС може оперувати інформацією про семантичної близькості між деякими документами, що дозволяє видавати користувачу найбільш релевантні документи.

Моделі ІПС діляться на три основні класи [10]: Теоретико-множинні моделі. Такі моделі використовують в якості каркаса математичного апарату теорію множин.

Імовірнісні моделі. Базуються на ймовірності віднесення користувачем документа до релевантним.

Алгебраїчні моделі. Дані моделі представляють документи і запити користувачів у вигляді векторів в багатовимірному просторі. Основою для алгебраїчних моделей є методи векторної алгебри.

Слід зазначити, що семантична близькість між двома документами абсолютно не означає наявності плагіату або однакових текстових фрагментів. Більше того, семантична близькість документів не відноситься ні до необхідного, ні до достатнього вимогу наявності однакових фрагментів тексту. Таким чином, моделі, найчастіше застосовуються в сучасних ІПС, не можуть ефективно справлятися з поставленою задачею. При цьому окремі алгоритми, використовувані в таких системах, дозволять більш ефективно організувати пошук однакових фрагментів тексту в документах.

В даний час системи АОТ представляють собою набір деяких конкретних програмних модулів, які можуть функціонувати як самостійно, так і в комплексі з іншими модулями. До основних модулів, використовуваним при машинній обробці текстової інформації, відносять: Впізнання мови. Модуль впізнання мови, на якому написаний аналізуемий текст, може реалізовуватися на основі заздалегідь певного списку мов, або на основі правил, що дозволяють проводити аналіз на нескінченній множині мов.

Розпізнавання тексту. У задачі розпізнавання підсистема лінгвістичного аналізу дозволяє справлятися з усуненням морфологічних і синтаксичних помилок, що виникають при некоректному розпізнаванні окремих символів, чи низки символів.

Індексування тексту. Модуль, що дозволяє створювати лексичний індекс з набору ключових слів. При цьому текст розбивається на окремі слова, які, проходячи через лінгвістичний автомат (ЛА), відносяться до певної тематичної області.

Інформаційний пошук. Основною метою функціонування модуля інформаційного пошуку є витяг релевантної інформації з заздалегідь сформованої бази даних за запитом користувача.

Реферування тексту. Завдання, що зводиться до стиснення вихідної текстів інформації відповідно до заздалегідь певним коефіцієнтом стиснення. Після стиснення в тексті залишаються пропозиції, які були віднесені системою, як найбільш інформативні.

Машинний переклад. Системи машинного перекладу (МП) можуть значно відрізнятися в своїх функціональних можливостях. Найпростіші системи МП дозволяють користувачеві отримати грубий, наближений переклад. Користувач може лише зрозуміти основну думку з перекладеного тексту, однак такі системи, як правило, не обмежуються певною предметною областю і дозволяють перекладати тексти з різних предметних областей. До найбільш складних систем МП відносять програмні комплекси в рамках АРМ перекладача. Такі системи дозволяють отримувати високоякісні переклади при жорсткому визначенні предметної галузі перекладу і типу документа, що перекладається.

При цьому користувач виступає, скоріше, як коректор, що виправляє незначні шорсткості перекладу.

Синтез мови. Модуль, що дозволяє програмної системі усний висновок інформації. Найбільш часто такі функціональні можливості затребувані в інформаційно-довідкових системах.

Автоматизоване створення словників. Дане завдання включає в себе побудову частотних і алфавітних словників, що дозволяють іншим модулям системи АОТ найбільш ефективно виконувати свої функції.

Автоматизоване створення документів. Завдання, що передбачає геперацію текстового документа з наперед визначеною структурою.

Релевантним називається знайдений документ, що має відношення до запиту. Англ. Relevant-відноситься до справи і змістом. В даний час, найчастіше, такі тексти створюються на формалізованій мові, яка максимально наближена до ЕВ.

Навчання рідної (іноземної) мови. Системи, які дозволяють людині підвищити рівень грамотності. При цьому такі програмні комплекси найчастіше містять підсистему тестування. Використання результатів проміжного тестування дозволяє коригувати курс навчання для кожного конкретного користувача.

1.8 Постановка завдання

В якості основного завдання магістерської роботи розглядається способи контролю присутності запозичень в електронних документах. Рішення основного завдання представленої роботи в першу чергу пов’язано з розробкою відповідного методологічного та алгоритмічного забезпечення. У вступі, а також у першому розділі було відзначено, що проблема магістерської роботи є актуальною. В даний час завдання пошуку запозичень в більшості випадків вирішується без використання автоматизованих систем.

Таким чином, автору деякого електронного видання, необхідно виконати наступні дії для виявлення запозичують текстові фрагменти з вихідного:

прочитати вихідне ЕВ для того, щоб мати достовірне уявлення про змістовну частину текстового матеріалу;

скласти список послідовностей слів, найбільш точно характеризують і відображають тематику і специфіку ЕВ;

по черзі завантажити в браузері документи, адреси яких були отримані на попередньому кроці;

прочитати кожний завантажений документ; порівняти кожний завантажений з мережі Інтернет документ з вихідним документом для прийняття рішення про наявність запозичень;

кількісно оцінити обсяг запозичень, а також їх законність у завантаженому документі для подальшого прийняття рішення про доцільності проведення заходів щодо запобігання порушення авторського права.

Автоматизація більшості описаних дій дозволить значно скоротити витрати часу для проведення пошуку запозичень. Слід окремо зазначити, що магістерська робота спрямована на розробку і створення автоматизованої, а

не автоматичної системи. Відповідно з джерелом під автоматизованою системою розуміється людино-машинна система, що забезпечує автоматизований збір і обробку інформації. У визначенні особливо слід виділити поняття «людино-машинна система». У автоматичних системах функції людини зводяться до розробці, налагодженні і контролю за роботою системи. Саме ж управління здійснюється без участі людини. В автоматизованих системах наявність людини (колективу людей) в контурі управління є принциповим. Людина є головним визначальним ланкою системи управління, оскільки людина приймає рішення і несе за них всю відповідальність.

Завдання розробки і реалізації ПЗ вирішується з використанням відповідного методологічного та алгоритмічного забезпечення. У розділі 2 представлено опис та аналіз застосовності існуючих методів подання, аналізу та порівняння текстової інформації. Слід зазначити, що більшість існуючих методів, незважаючи на їх високу ефективність в задачах класифікації та пошуку текстової інформації, не можуть бути основою для створення ПЗ. Дана обставина пов’язана в першу чергу з тим, що розробляється програмне забезпечення повинна мати можливість надання користувачеві вичерпної інформації не тільки про кількість запозичень і їх обсязі, але також і про місцезнаходження збіглися фрагментів текстового матеріалу.

Проведемо формалізацію постановки завдання з розробки системи пошуку запозичень в текстових документах, розміщених в електронній бібліотеці регіону.

Розділ 2. Методи і алгоритми аналізу, подання і порівняння текстової інформації

2.1 Методи аналізу текстової інформації

Дескрипторна метод. Існує кілька методів побудови дескрипторів текстового документа. Одним з найпростіших є метод, заснований на формуванні блоку слів і виразів з лексики предметної області документа. При цьому дескриптори можуть будуватися на основі, як змісту тексту, так і заголовка. Однак даний метод не дозволяє отримати достовірну інформацію про збіг фрагментів або підпослідовностей в порівнюваних документах. Таким чином, використання дескрипторного методу може бути обгрунтованим і ефективним у системах пошуку «за каталогом», або в системах автоматичної класифікації документів.

Векторна модель. В даний час методи, засновані на векторному поданні текстових документів, є одними з найпоширеніших. Основна ідея векторної моделі полягає в тому, що кожен текстовий документ може бути представлений у вигляді п-мірного вектора V = (к1, к2,., кn). При цьому ki, i = l, 2,., n — вага кожного з п вимірів. Згідно векторної моделі схожість двох документів x1 і х2 визначається як кореляція між векторами їх описів. Одним із способів визначення кореляції є обчислення скалярного добутку двох векторів, відповідних порівнюваним документам.

Слід зазначити, що існує безліч методів призначення весов кожному виміру вектора, а також методів оцінки міри схожості векторів. Проте всі методи, засновані на векторних моделях, мають значний недолік для вирішення поставленого завдання. Вони, втім, як і кластерні методи, дозволяють лише отримати певний коефіцієнт схожості, що не надаючи при цьому відомостей про конкретні збіглися фрагментах порівнюваних документів.

Аналоги Дублінського ядра. Незважаючи на те, що вперше Дублінський ядро (Dublin Core) було запропоновано в 1995 році на проведеному в Дубліні симпозіумі, організованому Online Computer Library Center (OCLC) і National Center for Supercomputing Applications (NCSA) для опису інформаційних ресурсів бібліотечних систем, воно стало широко використовувати в різних пошукових системах. ДЯ — це набір елементів метаданих, зміст яких зафіксовано в специфікації визначає його стандарту (http://dublincore.org/documents/dcmi-terms/). У термінах значень цих елементів можна описувати зміст різного роду текстових документів. Таким чином, методи, засновані на використанні інформації ДВ можуть використовуватися для порівняння текстових документів. Модель представлення текстового документа на основі ДЯ може бути представлена в наступному вигляді: D={ (N1, V1), (N2, V2),… (Nmax, Vmax) }

При цьому безліч пар D є поданням одного документа, Ni, i = 1,2,., max — імена елементів метаданих ДЯ, що описують зміст документа. Vi, i = l, 2,., max — значення елемента метаданих. Максимальна кількість елементів не є межею, тому деякі розробники вносять власні елементи метаданих. Так, наприклад, на офіційному сайті (http://dublincore.org/documents/dcmi-terms/) представлено опис 86 елементів метаданих. Однак, як і у випадку з дескрипторного методом, використання методів заснованих на ДВ є найбільш доцільно в системах каталогів.

Метод А. Т. Фоменко. Запропонований групою Фоменко метод математико-статистичного аналізу історичних текстів полягає у введенні заходи схожості (відстані) у формальному просторі, що описує можливі варіанти фрагментів історичних хронік. Тобто, в деякому математичному просторі лежать образи текстових документів.

При цьому кожен документ представляється не у вигляді однієї точки простору, а скоріше як хмара точок, сконцентроване в певному місці простору. А деякою функцією визначається міра близькості (схожості) розташованих в просторі хмар. Незважаючи на значну ресурсомісткість описаного методу, він є ефективним для вирішення завдання порівняння документів. Однак, як і більшість інших, метод А. Т, Фоменко дозволяє лише отримати певний коефіцієнт, що характеризує схожість порівнюваних документів. У той час як для розв’язуваної задачі одним з пріоритетних напрямків є візуалізація співпадаючих фрагментів, яку неможливо організувати при використанні описаного методу.

Семантичні мережі. Під семантичною мережею при цьому розуміється граф з вершинами, які відповідають деяким фактам, поняттям або атрибутам понять. Ребра графа відповідають відносинам. У роботі рас бачено наступна класифікація семантичних мереж: інформаційні мережі, що вказують тільки на взаємозв'язок деяких об'єктів, заданих, наприклад, їх іменами;

мовні мережі (наприклад, граматики, представлені графом мови — мережею);

мережі визначення понять, що показують на зв’язку об'єктів і деяких властивостей або характеристик цих об'єктів;

мережі фактів, які мають найпростіші тимчасові, логічні або технічні зв’язки між собою;

класифікуючи мережі, встановлюють підпорядкованість деякого сорту для розглянутих об'єктів;

функціональні мережі, що визначають операнди та операції, що впливають на операнди;

сценарії як сукупності послідовностей робіт.

Використання семантичної мережі для подання текстів дозволяє практично повністю усунути вплив природної мови, і тим самим акцентувати увагу на семантиці. Слід зазначити, що для побудови семантичної мережі необхідно провести крім семантичного, морфологічний і синтаксичний аналіз текстових даних. Таким чином, побудова семантичної мережі є надзвичайно ресурсоємним завданням. Що, у свою чергу, робить неефективним використання семантичної мережі для вирішення задачі порівняння великої кількості документів.

Статистичні методи. Аналіз даних будь-якої природи з використанням традиційних методів класичної статистики широко поширений. Грамотне застосування статистичних методів дозволяє виявляти приховані функціональні закономірності, будувати математичні моделі, інтерпретувати числові набори даних. Найбільш часто для таких цілей застосовуються методи факторного та дискримінантного аналізу, багатовимірного шкалювання, кластерного і множинного дисперсійного аналіз, множинної покрокової регресії. Також слід зазначити, що статистичні методи дозволяють здійснювати побудову багатовимірних розподілів і таблиць спряженості, кореляційний аналіз та аналіз часових рядів.

Латентно-семантичний аналіз. Латентно-семантичний аналіз (Latent Semantic Analysis — LSA) — один з найбільш ефективних ста-статистичних методів вилучення контекстно-залежних значень слів за допомогою статистичної обробки значних за розміром корпусів текстів. Найбільшого поширення даний метод отримав в області пошуку інформації, а також в задачах фільтрації та класифікації текстових документів.

Основна ідея латентно-семантичного аналізу полягає в тому, що сукупність всіх контекстів, в яких зустрічається і не зустрічається дане слово, задає безліч обопільних обмежень, які дозволяють визначити схожість смислових значень слів і множин слів між собою.

Нейронні мережі. За своєю сутністю вони є альтернативою традиційним статистичним методам аналізу. Нейронна мережа являє собою багатошарову мережну структуру, що складається з найпростіших елементів — нейронів. Кожен, з яких пов’язаний з одним або декількома іншими нейронами. Тим самим, утворюючи складну систему з'єднань, що має ваги кожного зв’язку, об'єднуючу кілька шарів мережі. На вхідний шар надходять вихідні дані, а на останньому шарі формуються видаються підсумкові значення змінних. У більшості випадків перед початком роботи нейронна мережа повинна пройти період навчання, коли їй пред’являється значна кількість спеціально підібраних навчальних прикладів. Слід зазначити, що приклади надходять в мережу за збільшенням ступеня складності. При виникненні ситуації, в якій мережа неправильно реагує на черговий приклад, ваги зв’язків внутрішньої структури мережі модифікуються так, щоб мінімізувати помилку. При правильному виборі структури мережі та навчанні на великій кількості добре підібраних прикладів імовірність помилкового висновку може бути знижена до кількох відсотків.

Контент-аналіз. Однією з узагальнених формулювань контент-аналізу є: дослідницький метод, який використовується для визначення присутності певних слів чи понять у тексті, або масивах текстів.

Даний метод є кількісним і позалінгвістичного, по-скільки не використовує синтаксичну і семантичну інформацію, з-тримати в тексті. Однак такий метод аналізу може виявитися найбільш ефективним з кількох причин:

Показати весь текст
Заповнити форму поточною роботою