Особливості використання системи Google Translator Toolkit сучасним перекладачем

ДипломнаДопомога в написанніДізнатися вартістьмоєї роботи

Особливості використання системи Google Translator Toolkit сучасним перекладачем (реферат, курсова, диплом, контрольна)

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ СХІДНОЄВРОПЕЙСЬКИЙ УНІВЕРСИТЕТ ІМЕНІ ЛЕСІ УКРАЇНКИ Кафедра прикладної лінгвістики ДИПЛОМНА РОБОТА ОСОБЛИВОСТІ ВИКОРИСТАННЯ СИСТЕМИ GOOGLE TRANSLATOR TOOLKIT СУЧАСНИМ ПЕРЕКЛАДАЧЕМ Виконав студент 55 групи

інституту іноземної філології

спеціальності «прикладна лінгвістика»

Кобак Микола Васильович ЛУЦЬК 2013

ЗМІСТ

ВСТУП
РОЗДІЛ I. РОЛЬ МАШИННОГО ПЕРЕКЛАДУ В СУЧАСНОМУ СВІТІ

1.1 Причини та історія виникнення машинного перекладу
1.2 Критерії класифікації систем машинного перекладу

РОЗДІЛ II. ОСНОВНІ ПІДХОДИ ДО АВТОМАТИЧНОГО ПЕРЕКЛАДУ

2.1 Системи прямого машинного перекладу
2.2 Системи з використанням трансферу (Tranfer-based MT)
2.3 Системи з використанням проміжної мета-мови (Interlingua)
2.4 Переклад на основі зразків (EBMT)
2.5 Статистичний машинний переклад (SMT)

РОЗДІЛ III. АВТОМАТИЗОВАНИЙ ПЕРЕКЛАД

3.1 Основні поняття, що стосуються автоматизованого перекладу
3.2 Системи на основі пам’яті перекладів

РОЗДІЛ IV. GOOGLE TRANSLATOR TOOLKIT ЯК ПОЄДНАННЯ СИСТЕМ ОБОХ ТИПІВ

4.1 Система Google Translate як компонент Google Translator Toolkit
4.2 Порівняння системи Google Translate з іншими онлайн-сервісами
4.3 Принцип роботи Google Translator Toolkit
4.4 Порівняння системи Google Translator Toolkit з його аналогами

ВИСНОВКИ
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
ДОДАТКИ
ВСТУП
Ця робота присвячена дослідженню систем автоматичного та автоматизованого перекладу, зокрема Google Translate та Google Translator Toolkit.

Однією з тенденцй розвитку сучасного суспільства є процес глобалізації, який призводить спрощення міжнародних зв’язків. Розвиток Інтернету забезпечує майже всі необідні умови для спілкування між людьми з різних держав. Однак мовний бар'єр дуже сповільнює його розвиток. За допомогою традиційного перекладу його подолати немождиво, тому що обсяг перекладів постійно зростає, і навіть збільшення кількості кваліфікованих фахівців не зможе вирішити проблему.

Системи машинного перекладу в певній мірі долають мовний бар'єр у спілкуванні. Хоча машинний переклад і не може замінити традиційний, він допомагає фахівцям справитися в великою кількістю перекладів.

Отже, актуальність дослідження полягає в необхідності виявлення особливостей роботи з програмами автоматичного та автоматизованого перекладу.

Об'єктом дослідження є онлайн-сервіси машинного перекладу: Google Translate, Google Translate Toolkit, Pragma Online, Wordfast Pro, OmegaT, Bing Translator та інші, а предметом — особливості використання системи Google Translator Toolkit.

Мета даного дослідження полягає у вивчені особливостей роботи з системою Google Translator Toolkit, проаналізувати її ефективність в порівнянні з іншими сервісами.

Мета дослідження передбачає необхідність вирішення конкретних завдань:

· розглянути підходи до реалізації перекладу у СМП;

· описати онлайн-сервіси перекладу, їх фунції, можливості, переваги та недоліки;

· порівняти систему Google Translate Toolkit з іншими системами машинного перекладу.

Матеріалом дослідження послужили переклади газетної статті за допомогою систем машинного перекладу.

Новизна дослідження зумовлена стрімким ростом потреби у перекладах, а також збільшенням кількості систем автоматичного та автоматизованого перекладу, тому необхідне дослідження особливості роботи та використання цих систем.

Для вирішення поставлених у роботі завдань використовувалися наступні методи: емпіричний, елементарно-теоретичний, метод системного аналізу та метод аналізу і порівняння.

Теоретична цінність роботи полягає у її частковому внеску в дослідження систем машинного перекладу і особливостей роботи з ними.

Практична цінність дослідження полягає у можливості його використання при написанні дипломних та курсових робіт. Вона також може слугувати як посібник при покупці перекладачем певного програмного продукту.

Обсяг та структура дослідження. Робота містить 53 сторінки, складається з вступу, чотирьох розділів і висновків. В кінці роботи поданий список додатків.

РОЗДІЛ I. РОЛЬ МАШИННОГО ПЕРЕКЛАДУ В СУЧАСНОМУ СВІТІ

1.1 Причини та історія виникнення машинного перекладу Переклад різноманітних видів документації з однієї мови на іншу є важливою частиною науково-технічного прогресу. Кількість перекладів, що виконуються у промислово розвинених країнах продовжує постійно зростати. В еру глобалізації першочерговим завданням постає переклад рiзноманiтної технічної та комерційної документації на мови країн-iмпортерiв продукції. Воно ускладнюється специфікою іноземних мов i жорсткими вимогами до якості такого перекладу, що має в цих випадках міжнародне значення.

Все ще залишаючись двомовною країною, Україна мусить вирішити декілька проблем у сфері перекладу iнформацiї: переклад з іноземних мов на українську та російську і навпаки, а також забезпечити якісний переклад між двома даними мовами.

Важко переоцінити актуальність i складність цих проблем. Одним із першочергових завдань є переклад державного патентного фонду України, який складається з мільйонів документів. Для виконання даної роботи потрібно створити термiнологiчнi стандарти українською мовою та двомовнi словники і зробити це потрібно якнайшвидше, інакше українська мова матиме статус державної на свiтовому iнформацiйному ринку, а це одна з причин, що ізолює нашу державу від світового співтовариства.

Одним з найуспішніших рішень подолання мовного бар'єру стало утворення сфери машинного перекладу — галузі комп’ютерної лiнгвiстики, що сформувалася з середини 50-х років у США i СРСР).

Машинний переклад (Machine Translation, MT) — це спосіб перекладу текстів з однієї мови на іншу, з використанням як апаратних, так і програмних комп’ютерних засобів.

Сфера машинного перекладу має такі ознаки:

· постійне збільшення кількості користувачів i виробників систем машинного перекладу (далі — СМП);

· великою кількістю способів організації СМП;

· використанням найновіших інформаційних засобів, в тому числі ПК, мережі Інтернет для реалiзацiї СМП.

Чарльз Беббідж, один із засновників комп’ютерних дисциплін, видатний математик XIX століття, намагався переконати британський уряд у необхідності фінансувати його дослідження щодо розробки «обчислювальної машини». За його задумом, колись ця машина зможе здійснювати переклад з однієї на іншу мову, проте його проект залишився нездійсненним.

Протягом XX століття відбувся інформаційний бум — стрімко зросла кількість науково-технічної інформації. На початку 50-х років XX ст. ідеї машинного перекладу (МП) чи автоматичного перекладу (АП), тобто з мінімальною участю людини чи без неї, стали об'єктом дослідження лінгвістики та прикладних математичних дисциплін, що було зумовлено практичними потребами обміну інформацією. Причинами такої зацікавленості була нестача кількості перекладачів для оперативного перекладу великої кількості науково-технічної літератури. Важливою сферою використання обчислювальної техніки МП так і не став, що було зумовлено її недостатнім розвитком, нестачею комп’ютерів, їх невеликою обчислювальною потужністю, складністю створення програм, малою кількістю кваліфікованих працівників, здатних ними послуговуватися та колективним використанням його ресурсів. Ці обставини не дозволяли проводити експериментальні дослідження та втрачалася оперативність перекладу. Важливою причиною було недостатнє вивчення формальних аспектів природних мов. Через це МП залишався в основному лише цікавою галуззю досліджень.

Формально 1949 рік прийнято вважають початком епохи машинного перекладу, коли відомий американський спеціаліст з дешифрування Уоррен Уївер, директор відділення природничих наук Рокфелерівської фундації написав листа Норберту Вінеру в березні того ж року і порівняв завдання перекладу з процесом дешифрування текстів. В результаті нетривалої наукової дискусії з’явився меморандум, який було розіслано двомстам спеціалістам у галузі лінгвістики, дешифрування та теорії програмування, в якому теоретично обґрунтувано принципову можливість створення систем машинного перекладу.

У 1954 р. відбувся «Джорджтаунський експеримент». Джорджтаунський університет спільно з IBM представили перший електронний перекладач — російсько-англійську систему IBM Mark II, яка містила словник з 250 одиниць і 6 граматичних правил. Хоча можливості цієї системи були обмежені, вона послужила стимулом для подальшого розвитку галузі [22, 4−8].

У 1966 році, приблизно через десять років після проведення Джорджтаунського експерименту відбулося засідання консультативного комітету з опрацювання природних мов (ALPAC) при Національній академії наук США. Згідно з її доповіддю, жодна із запропонованих СМП не давала якісного результату, не виправдовуючи тим самим затрат на їх розробку. «Природний» переклад у ті часи не вимагав таких колосальних витрат і був набагато якіснішим, тому, як наслідок, галузь машинного перекладу визнали неперспективною і через це різко зменшилось фінансування розробки СМП у США та Європі [ 6, 12].

У СРСР перші експерименти було проведено в 1955 в Інституті прикладної математики при АН СРСР під керівництвом О. С. Кулагіної та І. О. Мельчука. Було створено три системи АП — з французької на російську, з англійської на російську та з французької на російську (у новому варіанті).

Наприкінці 70-х років заняття МП поновилися разом зі зростанням інтересу з боку проектувальників і дослідників до лінгвістичним проблем штучного інтелекту та комп’ютерного пошуку інформації.

І тільки з початку 80-х років, коли комп’ютери стали потужнішими, дешевшими та доступнішими, машинний переклад нарешті став економічно вигідним. Хоча якість перекладу за допомогою СМП значно покращилася, існують певні пробеми, які залишаються невирішеними і до сьогодні.

90-і роки можна вважати справжньою епохою відродження в розвитку МП, що пов’язано не лише з високим рівнем можливостей персональних комп’ютерів, появою сканерів і програм OCR, але і з поширенням глобальної мережі Інтернет, що зумовили реальний попит на CМП.

Він знову став привабливою областю вкладення капіталів як для приватних інвесторів, так і для державних структур.

Починаючи з кінця ХХ століття проводиться вдосконалення існуючих та розробка нових систем як автоматизованого так і машинного перекладу, проте дані системи почали все активніше використовувати Інтернет, а сьогодні найбільшою популярністю серед користувачів мають саме онлайн-сервіси [22, 4−12].

Наразі розроблено багато систем машинного перекладу, які класифікуються за різними принципами. Щоб краще розглянути СМП з точки зору здатності адекватності перекладу, потрібно поділити їх за особливостями їх побудови. Для цього розглянемо критерії класифікації СМП.

1.2. Критерії класифікації систем машинного перекладу Багатоаспектність проблеми машинного перекладу вимагає навести класифікацію СМП, для розуміння процесу перекладу, який здійснює машина.

Основними критеріями класифікації:

а) За обсягом роботи, яку виконує комп’ютер, системи поділяються на MAT (machine-aided translation) та MT (machine translation). В MAT системах людина є головним учасником перекладу, комп’ютер лише допомагає їй краще організувати процес, виконуючи такі функції як пошук слів, заміну, тощо [7, 12].

Натомість, в MT системах за процес перекладу відповідає саме машина, здійснюючи аналіз документів, пошук еквівалентів та генерацію кінцевого перекладу. В даному випадку людині просто відводиться роль керівника [19, 15−20].

б) Ще одним з критеріїв класифікації СМП є кількість мов, які вона підтримує. Відповідно до даного аспекту системи поділяються на двомовні та багатомовні.

До цього пунтку відноситься також така характеристика як оборотність, тобто здатність СМП перекладати у будь-якому напрямку, що складається з підтримуваних мовних пар.

в) Однією з важливих характеристик програм є також тематика документів, на переклад яких орієнтована система. Існують СМП, основна мета яких — переклад текстів з певних сфер, таких як техніка, наука, інформатика, тощо. Їх протилежністю є універсальні програми, однак при використанні спеціалізованих СМП якість перекладу дещо краща [9, 83−87].

г) Залежно від підходу, на основі якого створена СМП, вони поділяються на: статистичні (statistic) та системи, які працюють завдяки використанням правил (rule-based) [10, 42].

д) Лінгвістичний критерій, за яким СМП на основі правил поділяють на:

· системи, що реалiзують прямий переклад (direct translation);

· системи, якi базуються на трансферi (transfer approach);

· системи з мовою-посередником (interlingua approach).

У нашій роботі нас, перш за все, цікавитимуть автоматичні та автоматизовані системи МП, їх переваги та недоліки, способи покращення якості перекладу, тому в наступних розділах ми будемо детальніше розглядати програми з точки зору лінгвістичних моделей, а також системи пам’яті перекладів.

Висновки до розділу І

Зростання обсягів перкладів зумовило виникнення такої галузі комп’ютерної лінгвістики як машинний переклад. Хоча дисципліна є відносно новою, за час її розвитку було розроблено багато підходів та способів автоматизації перекладу. В наш час існує багато систем машинного перекладу, однак жодна з них не може забезпечити користувача якісним перекладом. Це пояснюється не поганою якістю програм, а складністю мови як системи. Різні мови мають свої правила і винятки, і тому дуже важко створити СМП, яка змогла б правильно перекладати між мовами, що належать до різних гілок. Однак машинний переклад забезпечує користувачів чорновим перекладом, він стає у нагоді при великій кількості однотипних документів, які потрібно перекласти на кілька мов. Зараз багато міжнародних організацій використовують СМП, тому що він допомагає заощаджувати час, зусилля та гроші.

РОЗДІЛ II. ОСНОВНІ ПІДХОДИ ДО АВТОМАТИЧНОГО ПЕРЕКЛАДУ

2.1 Системи прямого машинного перекладу Прямий машинний переклад є найдавнішим і найпримітивнішим методом. Він є послівним і для реалізації системи даного типу не потрібно створювати велику кількість правил. Переклад створюється на основі двомовних словників, при цьому аналіз тексту джерела є дуже поверхневим. Слова перекладаються окремо і в однаковій послідовності. Після цього порядок слів та закінчення пристосовуються до відповідної мови. Можливості таких систем визначалися доступними розмірами словників, які залежними від обсягу пам’яті комп’ютера. Переклад тексту здійснювався окремими реченнями, між якими нерідко втрачалися смислові зв’язки. Правила, які застосовувалися під час перекладу були дуже простими (якщо — то) і їх створення було громіздкою працею [6, 54]. Даний зразок демонструє правила для системи прямого перекладу з англійської на російську мову і описує умови перекладу слів much та many.

if preceding word is how return skol’ko

else if preceding word is as return stol’ko zhe

else if word is much

if preceding word is very return nil

else if following word is a noun retorn mnogo

else (word is many)

if preceding word is a preposition and following word is noun return mnogii

else return mnogo.

Оскільки написання правил для всіх нюансів мови — справа громіздка і невиправдана, науковці почали вдаватися до інших методів машинного перекладу.

2.2 Системи з використанням трансферу (Tranfer-based MT)

Для того, щоб зробити переклад, необхідно мати певне представлення, яке показує значення речення-оригіналу. У систем на основі методу Interlingua на цьому проміжному рівні знаходиться власна метамова, яка не має нічого спільного з мовами, що використовуються при перекладі, в той час як в системах на основі трансферу вона має певну залежність від мовної пари, що беруть участь при перекладі. Способи, з допомогою яких працюють transfer-based machine translation systems дещо відрізняються, однак використовують загальну схему: вони застосовують набори лінгвістичних правил, які визначаються як відповідність між структурою мови оригіналу та мови перекладу. Перший етап включає в себе аналіз тексту-джерела, його морфології і синтаксису (а іноді і семантики), щоб створити внутрішнє представлення. Переклад генерується з цього представлення за допомогою використання як двомовних словників так граматичних правил. Ця стратегія дає змогу отримувати досить високу якість перекладу з точністю в приблизно 90% (хоча даний показник дуже залежить від мови оригіналу та перекладу).

Система з використанням трансферу спочатку аналізує морфологію і синтаксис тексту-джерела для того, щоб отримати синтаксичне представлення. Його можна потім налаштувати, роблячи акцент на відповідні частини для перекладу та ігноруючи інші види інформації. Процес передачі потім перетворить це остаточне представлення (мовою оригіналу) до представлення того ж рівня абстракції в цільової мови. Ці два подання називають «проміжними» представленнями [16, 35].

Для отримання кінцевого результату можуть бути використані різні методи аналізу та трансформації. Обрані методи і вибір найважливішої інформації значній мірі залежать від побудови системи, тим не менше, більшість систем включають, щонайменше, наступні стадії:

Морфологічний аналіз. Поверхневі форми вхідного тексту, класифікуються як частини мови (наприклад, іменник, дієслово, і т.д.) і підкатегорії (кількість, стать, час, і т.д.).

Лексична категоризація. У будь-якому тексті деякі слова можуть мати більш ніж одне значення, що призводить до неоднозначності в аналізі. Лексична категоризація бере до уваги контекст слова, щоб спробувати вибрати правильне значення. Це може включати тегування за частинами мови (PoS tagging) та уникнення лексичної багатозначності (word sense disambiguation).

Лексичний трансфер. Це, в основному, переклад за допомогою словників; Слову мовою оригіналу шукається відповідник у двомовному словнику.

Структурний трансфер. У той час як попередні етапи мали справу зі словами, цей етап має справу з великими компонентами такі як фрази і уривки речень. На цій стадії узгоджуються роди і числа, змінюється порядок слів або фраз.

Морфологічне генерування. Це завершальний етап під час якого генерується власне перекладений текст [2, 54].

Однією з головних даного типу систем є фаза, що «передає» проміжне представлення тексту мовою оригіналу в проміжне представлення тексту цільової мови. Вона знаходиться в одному з двох рівнів лінгвістичного аналізу: Поверхневий трансфер (або синтаксичний). Цей рівень характеризується передачею синтаксичних структур між оригіналом і цільовою мовою. Підхід працює з мовами однієї сім'ї, наприклад, у романських мовах між іспанською, каталонською, французькою, італійською і т.д.

Глибинний трансфер (або семантичний). Цей рівень будує семантичне представлення, яке залежить від мови оригіналу. Таке подання може складатися з ряду структур, що репрезентують собою значення. Для повноцінного перекладу також потрібен і синтаксичний трансфер. Цей рівень використовується для перекладу між віддаленими мовними сім'ями (наприклад, іспанська — англійська) [12, 58].

2.3 Системи з використанням проміжної мета-мови (Interlingua)

Метод з використанням інтерлінгви є одним з класичних підходів у галузі машинного перекладу. При такому підході граматична інформація вихідного тексту спочатку виражається на нейтральній мові «інтерлінгва», з якої потім утворюється граматична інформація відповідної мови. Він має великі переваги над попередниками. Переваги в тому, що система вимагає меншої кількості компонентів для того, щоб пов’язати мовні пари, додати нову мовну при даному підході не є надто проблематично, система може перефразовувати вирази мови оригіналу, і підтримує мови, які сильно відрізняються один від одного (наприклад, англійська та арабська). Ідеальний сфера застосування даного типу систем — багатомовний переклад машини текстів окремої тематики [20, 76−82].

При машинному перекладі, заснованому на принципі Interlingua, переклад здійснюється через проміжну (семантичну) модель тексту оригіналу. Interlingua являє собою незалежну від конкретної мови модель, з якої може бути згенерований переклад на будь-яку мову. Принцип Interlingua допускає можливість трансформації тексту мовою оригіналу в модель, загальну для декількох мов. І вже з неї можуть бути зроблені тексти на інших мовах. Таким чином, процес перекладу проходить дві стадії: з вихідного мови в Interlingua і з Interlingua на цільову мову. Для здійснення принципу Interlingua потрібно аналізатор для кожного вихідного мови та генеруюча програма для кожної мови на виході. Для аналізу вихідного тексту необхідно проведення глибокого семантичного розбору, який передбачає широке знання лексики [21, 25−27].

2.4 Переклад на основі зразків (EBMT)

Переклад на основі зразків є методом машинного перекладу, що характеризується використанням двомовного корпусу текстів в якості основної бази знань, під час виконання. В основі методу EBMT полягає ідея перекладу за аналогією. Існує теорія, що люди не виконують лінгвістичний аналіз при перекладі, а просто розбивають речення на певні фрази, перекладають їх, а тоді формують із них речення на цільовій мові. Переклади фраз виконуються за аналогією з попередніми перекладами (емпірично).

Ядро системи EBMT — блок пам`яті перекладу, в якому зберігаються речення або фрази, які часто повторюються та їх переклад. Система статистично вираховує (за допомогою методів інформаційного пошуку), чи наявні перекладені записи схожі на відповідне речення вихідної мови. Генерування перекладу відбувається таким чином, що речення, які найбільше схожі одне на одне, перекладаються і в кінці комбінуються.

Наприклад, маємо два речення в двомовному корпусі:

1. I’m very busy now, call me later. — Зараз я дуже занятий, передзвони мені пізніше.

2. I can’t help you with your project. — Я не можу допомогти тобі з проектом.

Для того, щоб перекласти речення «Я не можу допомогти тобі, передзвони пізніше.» система знайде в українському варіанті корпусу частини речень, підбере їх англійські відповідники і складе їх разом — I can’t help you, call me later.

При аналізі введеного в систему речення для перекладу існує також таке поняття, як слова-винятки. Слова-винятки — це слова, які можна опустити в тексті оригіналу (на початку і в кінці знайдених блоків тексту) без втрати сенсу перекладу і для покращеної підстановки (наприклад для англійської - «a», «the») [23, 11].

2.5 Статистичний машинний переклад (SMT)

Статистичний машинний переклад (Statistical machine translation — SMT) — різновид машинного перекладу, де переклад генерується на основі статистичних моделей, параметри яких є похідними від аналізу двомовних корпусів тексту. Статистичний машинний переклад має властивість «навчання». Чим більше в розпорядженні є мовних пар і чим точніше вони відповідають одна одній, тим кращим буде результат статистичного машинного перекладу. Статистичний машинний переклад протиставляють системам машинного перекладу, заснованим на правилах (Rule-Based Machine Translation) і на прикладах (Example-Based MT). Перші ідеї статистичного машинного перекладу були опубліковані Уорреном Уівером, в 1949 році. «Друга хвиля» — початок 1990;х, IBM. «Третя хвиля» — Google, Microsoft, Language Weaver, Яндекс. Розробники систем машинного перекладу для покращення якості вводять певні правила, тим самим перетворюючи чисто статистичні системи в системи гібридного машинного перекладу. Таке додавання дещо покращує якість перекладів, особливо при недостатньому обсязі вхідних даних, що використовуються при побудові індексу машинного перекладача [3, 79].

Ідея статистичного машинного перекладу випливає з теорії інформації. Для систем статистичного перекладу характерне використання масивів текстів, представлених одночасно двома мовними версіями (так звані паралельні корпуси). Чим більший об'єм паралельного корпусу, а також чим якісніший переклад текстів, що містяться в ньому, тим краще перекладає статистична система. В якості теоретичної основи технології статистичного машинного перекладу використовується модель, що базується на теоремі Байеса. Дана модель надає можливості покращити переклад, використовуючи найбільш частотні вживання слів на різних мовах, враховуючи потім відповідні частоти при перекладі документа [4, 19].

Принцип роботи системи статистичного машинного перекладу полягає в наступному: перед перекладом програма аналізує великий корпус двомовних текстів. Цей процес забезпечує те, щоб слова і граматичні форми, знаходились разом на обох мовах, залежно від частоти використання та змістовної близькості. Таким чином, генерується словник та граматичні правила і тексти перекладаються на цій основі. Метод SMT широко розповсюджений, тому що він не ставить за передумову ніяких знань відповідної мови. SMT охоче використовується, наприклад, міністерством оборони Америки, коли йдеться про мови, які потрібно швидко перекласти за допомогою машинного перекладу і не має часу на опрацювання текстів людиною [8, 127−133].

Етапи створення систем статистичного машинного перекладу.

· створення корпусу паралельних документів;

· створення корпусу паралельних речень;

· створення масивів паралельних N-грам;

· створення індексних файлів системи перекладу, що базуються на N-грамах;

· безпосереднє створення модулів статистичного перекладача.

Якості джерела даних для створення статистичних перекладачів використовують паралельні текстові корпуси, що містять різні мовні версії однакових документів. При побудові паралельних корпусів документів для забезпечення більшої точності використовуються додаткові критерії, наприклад, підраховується кількість речень, цифр, імен власних, довжини фрагментів текстів і т.п. Вирівнювання документальних корпусів на рівні речень, тобто побудова паралельних корпусів речень, виконується на основі головного постулату систем статистичного перекладу — принципу монотонності. Цей принцип полягає в тому, що різні мовні версії одного і того ж документа містять речення, розміщені в одному і тому ж порядку, тобто друге речення знаходиться після першого, третє — після другого і т. д. Наступним етапом формування бази даних статистичного перекладача є формування масиву N-грам. N-грамою називається послідовність з N слів одного тексту, які слідують одне за одним. При побудові баз даних сучасних статистичних систем перекладу створюються масиви N-грам (найчастіше пентаграм). Для цих масивів у рамках технологій статистичного машинного перекладу використовуються паралельні двомовні корпусу речень. Для кожної пари речень будуються N-грами на одній мові, яким відповідають (за місцем у відповідному реченні) N-грами на іншій мові. Далі проводиться підрахунок кількості N-грам, які зустрічаються в паралельному корпусі речень. Якщо на одній мові N-грамі відповідає кілька N-грам на іншій мові, то вибирається найбільш частотна N-грама [23, 53−57].

Типова система статичного машинного перекладу складається з:

· одномовного корпусу;

· мовної моделі — набору n-грам (послідовностей словоформ довжини n) з корпусу текстів;

· паралельного корпусу;

· фразової таблиці — таблиці відповідностей фраз вихідного корпусу і корпусу перекладів з статистичними коефіцієнтами;

· статистичного декодеру, який серед усіх можливих варіантів перекладу, вибирає найбільш імовірний [35];

Головними перевагами SMT є швидка настройка, легкість при додаванні нових напрямків перекладу, недоліками — дефіцит паралельних корпусів, численні граматичні помилки, нестабільність перекладу.

Висновки до розділу ІІ

Існує багато критеріїв за якими класифікуються СМП, але одним з найголовніших є підхід до її створення, згідно якого програми поділяються на статистичні та ті, які працюють на основі правил (rule-based). Усі підходи систем машинного перекладу мають свої переваги та недоліки. Так, для статистичних систем характерна наявність двоабо багатомовного корпусу текстів, для створення якого потрібні колосальні зусилля, однак не має необхідності задавати системі велику кількість правил (як в системах rule-based). Однак програми на основі правил не вимагають корпусів, можуть бути встановлені на локальному комп’ютері та не використовують багато ресурсів. Найпершим та найпростішим підходом в галузі МП є прямий переклад, який створював «підрядник» тексту. Оскільки така якість не задовольняла нікого, вчені розробили складніші підходи — на основі трансферу та проміжної мета-мови Інтерлінгва. Однак найбільш перспективними системами є гібридні, тобто такі, що поєднують статистичні та СМП на основі правил. Гібридна система є гнучкою при додаванні мов, виборі еквівалентів, має здатність «навчатися», а також має точність СМП на основі правил.

РОЗДІЛ III. АВТОМАТИЗОВАНИЙ ПЕРЕКЛАД За останні 10−15 років характер роботи перекладача та вимоги до нього істотно змінилися. У першу чергу зміни торкнулися перекладу науково-технічної, та офіційно-ділової документації. Сьогодні вже недостатньо просто перекласти текст, користуючись комп’ютером як друкарською машинкою. Замовник очікує від перекладача, що оформлення готового документа буде відповідати зовнішньому вигляду оригіналу настільки точно, наскільки це можливо, при цьому задовольняти прийнятим у певній країні стандартам. Від перекладача потрібним є також уміння ефективно використовувати раніше виконані замовлення на ту ж тему, а роботодавець, у свою чергу, розраховує на помітну економію часу і коштів при перекладі повторюваних або схожих фрагментах тексту. Ці жорсткі умови можна дотримати лише в тому випадку, якщо перекладач не тільки досконало володіє рідною і іноземною мовою і глибоко вивчив обрану ним предметну область, але й упевнено орієнтується в сучасних комп’ютерних технологіях. Останнім часом стійко зростає обсяг перекладів, пов’язаних з інформаційними технологіями, причому перекладацьким і комп’ютерним компаніям доводиться мати справу не тільки з підготовкою документації, а й з локалізацією програмного забезпечення, тобто з перекладом ресурсів, що містяться в exe-і dll-файлах з подальшим тестуванням ПЗ.

3.1 Основні поняття, що стосуються автоматизованого перекладу Автоматизований переклад (АП, англ. Computer-Aided Translation (CAT)) — переклад текстів з використанням комп’ютерних технологій. Від машинного перекладу (МП) він відрізняється тим, що весь процес перекладу здійснюється людиною, комп’ютер лише допомагає їй створити готовий текст або за менший час, або з кращою якістю.

Ідея АП з’явилася з моменту появи комп’ютерів: перекладачі завжди виступали проти стандартної в ті роки концепції МП, на яку було спрямовано більшість досліджень в області комп’ютерної лінгвістики, але підтримували використання комп’ютерів для допомоги перекладачам. У 1960;і роки Європейське об'єднання вугілля та почало створювати термінологічні бази даних під загальною назвою Eurodicautom.

У сучасній формі ідея АП була розвинена у статті Мартіна Кея 1980 року, який висунув наступну тезу: «by taking over what is mechanical and routine, it (computer) frees human beings for what is essentially human» (комп'ютер бере на себе рутинні операції і звільняє людину для операцій, що вимагають людського мислення) [7, 287].

В даний час найпоширенішими способами використання комп’ютерів при письмовому перекладі є робота із словниками та глосаріями, окремими термінологічними базами, пам’яттю перекладів, що містить приклади раніше перекладених текстів, а також використання так званих корпусів — великих колекцій текстів однією або декількома мовами, що дає стислий опис того, як слова і вирази реально використовуються в мові в цілому або в конкретній сфері.

У вузьких сферах за великої кількості початкових текстів і сталої термінології перекладачі можуть використовувати і машинний переклад, який може забезпечити гарну якість перекладу термінології та стійких виразів у вузькій області. Перекладач у цьому випадку здійснює лише пост-редагування отриманого тексту. Більше половини текстів всередині Єврокомісії (головним чином юридичні тести та поточна кореспонденція) перекладаються з використанням МП.

Автоматизований переклад це широке поняття, що охоплює різні засоби та інструменти. Вони можуть включати:

· Програми для перевірки правопису, що вбудовуються у текстові редактори або окремі програми;

· Програми для перевірки розділових знаків, що також можуть бути вбудованими у текстові редактори або додаткові програми;

· Програми для управління термінологією, що дозволяють перекладачам управляти своєю власною термінологічною базою в електронній формі. Це може бути створена у текстовому редакторі звичайна таблиця, електронна таблиця, а також база даних, що збудована у програмі FileMaker Pro. Для більш трудомістких (та більш дорогих) рішень існує спеціальне програмне забезпечення: LogiTerm, MultiTerm, Termex та ін.;

· Словники на компакт-дисках, одномовні або багатомовні;

· Термінологічні бази даних, що зберігаються на компакт-дисках або підключаються через мережу Інтернет, наприклад The Open Terminology Forum або TERMIUM;

· Програми для повнотекстового пошуку (або індексатори), що дозволяють користувачу робити запити у раніше перекладених текстах або різних довідкових документах. Серед перекладачів найбільш відомими є такі індексатори як Naturel, ISYS Search Software, and dtSearch;

· Програми-конкорданси, що дозволяють знаходити приклади слів або висловів у поширеному контексті в одномовному, двомовному та багатомовному корпусах, як то бітекст або пам’ять перекладів;

· Бітекст, що не є дуже новим винаходом, являє собою наслідок злиття первинного тексту та його перекладу, що може бути пізніше проаналізованим програмами для повнотекстового пошуку або конкордансу;

· Програмне забезпечення для управління проектами, що дозволяє мовознавцям структурувати складні перекладацькі проекти, доручати різні завдання різним співробітникам, а потім наглядати за процесом їх виконання;

· Менеджери пам’яті перекладів (ТММ), що складаються з бази даних сегментів тексту на первинній мові та їх перекладів на одну та більше цільових мов;

· Майже повністю автоматичні системи, що нагадують машинний переклад, але дозволяють користувачу вносити поправки у сумнівних випадках. Іноді такі програми називають машинним перекладом за участю людини.

Таким чином, системи автоматизованого перекладу працюють на основі накопичення і збереження знань, які при потребі можуть бути використані повторно. Якщо текст для перекладу повторюється чи є дуже схожим із іншими, програма автоматизованого перекладу допомагає зберегти час і зусилля перекладача: наприклад, використання клавіатури може бути зменшено на 70% з деякими текстами. Електронні словники забезпечують користувачу швидкий доступ до лексичних даних, а словники термінів допомагають, без зусиль підібрати найпідходячий еквівалент для перекладу [13, 127−134].

Системи автоматизованого перекладу містять зазвичай додаткові модулі, які допомагають краще організувати роботу перекладача — об'єднання декількох документів в проекти, підключення багатьох баз даних пам’яті перекладів, інтеграція в текстові процесори, браузери, тощо.

3.2 Системи на основі пам’яті перекладів Починаючи з появи перших систем основі пам’яті перекладів на ринку, тисячі професіоналів освоїли дану технологію після розуміння переваг, які вона може принести в плані продуктивності, економії часу та зусиль і якісті перекладу. Сьогодні користувачам доступна велика різноманітність програм, з новими інструментами, що з’являються на ринку майже кожен місяць, посилюючи конкуренцію у сфері програм-перекладачів. Звичайно, кожна система має певні унікальні особливості, які відрізняють її від інших, і виконує певні завдання краще, ніж інші системи; тому потрібно вибирати програму під певні критерії.

Пам’ять перекладів — база даних, що містить набір перекладених раніше текстів. Один запис в такій базі даних відповідає «одиниці перекладу» (англ. translation unit), яка зазвичай відповідає одному реченню (рідше — частині складносурядного речення, або абзацу). Якщо одиниця перекладу початкового тексту точно збігається з реченням, що зберігається в базі (точна відповідність, англ. exact match), вона автоматично підставляється у переклад. Нова одиниця може трохи відрізнятися від тої, що зберігається у базі (неточна відповідність, англ. fuzzy match). Таке речення може бути також підставлене у переклад, але перекладач буде повинен внести необхідні зміни.

Крім прискорення процесу перекладу фрагментів та періодичних змін, внесених до вже перекладених текстів, системи ПП також забезпечують одноманітність перекладу термінології в однакових фрагментах, що особливо важливо при технічному перекладі [17, 57−62].

Зазвичай, програмним продуктам, що використовують бази ТМ, притаманні спільні функціональні можливості.

1. Імпорт — це перенесення текстового файлу до пам’яті перекладів.

2. Текстовий редактор, в якому власне і здійснюється переклад. Всі програми мають два вікна — для оригіналу та перекладу. Коли у вікно оригіналу вводиться текст, починається пошук аналогічного фрагменту в базі даних. Якщо в пам’яті знаходиться аналогічний фрагмент, він виводиться у вікно перекладу автоматично. Якщо точного збігу не знайдено, у вікно виводиться найбільш схожий фрагмент, вказується відсоток збігу. Можна встановлювати у процентах міру збігу між текстом для перекладу та текстом в базі. Чим більший відсоток схожості, тим більша вірогідність знаходження потрібного тексту. Встановлюючи менший відсоток, можна отримати матеріал, який буде корисним, хоча б для довідки .

Перекладач самостійно редагує запропонований фрагмент згідно з оригіналом, записує в пам’ять бази даних переклад та переходить до наступного фрагменту. Якщо база знаходиться в мережі, вона є доступною для усіх; поповнення бази здійснюється автоматично, кожним працівником/перекладачем/користувачем.

3. Текстовий розбір (англ. parsing) — синтаксичний аналіз тексту. Важливо розрізнити пунктуацію, щоб, наприклад, відрізнити кінець речення від абревіатури.

4. Лінгвістичний розбір — підготовка списків фразеологічних зворотів, термінів тощо.

5. Сегментація — вибір найбільш підходящих для перекладу сегментів тексту. Фрагменти, на які поділяються тексти, називають сегментами. Сегментом вважається одне чи декілька речень, частина речення чи словосполучення, лише в поодиноких випадках окреме слово.

6. Виділення термінології — скорочення обсягу ручного перекладу термінології.

7. Експорт — перенесення тексту з пам’яті перекладів до зовнішнього текстового файлу.

8. Точний збіг — введена одиниця перекладу повністю відповідає одиниці у базі. Під час перекладу речень це означає, що сегмент був перекладений раніше. Такий збіг називають «100% match».

9. Приблизний збіг. Якщо збіг був неточний, він часто позначається у процентному співвідношенні від 0% до 100%.

10. Конкорданс. Виділивши термін або ідіому, можна знайти всі сегменти минулих перекладів що їх містять.

11. Автоматичний переклад Системи ПП часто надають можливість повністю автоматизованого перекладу та заміни.

12. Робота в мережі передбачає співпрацю з іншими перекладачами.

13. Термінологічний словник — звичайні електронні словники, які можна імпортувати, поповнювати та редагувати.

14. Централізована ПП — збережена на центральному сервері ПП, яка співпрацює з кожною окремою ПП на кінцевих вузлах мережі. Збільшується вірогідність виявлення збігів на 30−60%.

Першу програму, що використовувала базу ПП, — Translation Manager — створила компанія IBM. Спочатку компанія використовувала її виключно у власних цілях — для локалізації (адаптації на іноземні мови) власних програмних продуктів. Потім програма була запропонована ринку і довго була монополістом у галузі. Вона була швидкою та простою у використанні і забезпечувала гарні можливості для індивідуальних налаштувань користувача.

Програма SDLX, розроблена англійською компанією SDL для своїх співробітників, мала недоліки пов’язані з незручностями етапів перекладу. Текст неможливо безпосередньо імпортувати в редактор — спочатку його потрібно видозмінити в SDL Edit — одній з 3 частин програми.

Програма Deja Vu користується у перекладачів в Європі популярністю завдяки своїй гнучкості та адаптивності. Окрім зручності, вона вирізняється співвідношенням ціна/якість. Відомо, що остання версія програми тестувалась також і російськими перекладачами. Їхні статті й відгуки були опубліковані в MultiLingual Computing & Technology.

Translator’s Workbench, або просто Trados, швидко отримав визнання в Україні й Росії, спочатку серед перекладацьких фірм, а потім й серед індивідуальних перекладачів. Великою перевагою є те, що він інтегрується в такі відомі програмні продукти як Word та інтернет-браузери. Trados є надзвичайно зручним для пересічного перекладача, що не знайомий з програмуванням, він зрозуміліший ніж інші програми типу. Всі елементи управління мають підказки. Цей продукт має всі корисні інструменти, які в інших продуктах є лише в частковій наявності.

В кінці 2008 року з’явилася перша вітчизняна система ПП AnyMem, розроблена київською компанією Advanced International Translations.

Завдяки накопиченим перекладам в базі ПП, перекладач може економити сили, час та гроші при перекладі нових текстів схожих тематик, так як не потрібно знову перекладати повторювані фрагменти й витрачати час на пошуки термінів, характерних для конкретної галузі чи компанії. Інструкції, попереджувальні повідомлення, об’яви і т.п. можуть бути перекладені один раз, а використані багаторазово.

За рахунок прискорення темпів виконання перекладу збільшується продуктивність, отже, з’являється можливість виконати більше замовлень. Також окрім швидкості перекладу, системи ПП надають точність перекладу термінів, що особливо важливо для спеціалізованих текстів.

Оскільки технологія ПП широко розповсюджена в Європі та США, де від перекладачів вимагають мати практичний досвід користування сисемами автоматизованого перекладу. В Україні ця технологія лише розвивається, але найбільші компанії вже прийняли використання ПП за норму.

Однак поряд з перевагами існують також і недоліки. Часто постає питання самої суті перекладу: донести основну думку тексту, а не надати сухий переклад речень. Також є потенціальний ризик відсутності смислових відношень окремого речення до сусідніх речень та тексту в цілому. Якщо у базі перекладу існує помилка, вона пошириться на весь проект.

При зміні працевлаштування може знадобитися опановувати новий програмний продукт.

Важливим також є фінансовий аспект. Розмаїття програм створює таку проблему, якк несумісність баз ПП різних виробників програмного забезпечення, форматів іпорту/експорту, кодування, тому деколи виникає необхідність покупки іншої системи, а коштують вони від 200 до 2,5 тис доларів. У кожній конкретній системі ПП дані зберігаються в своєму власному форматі (текстовий формат у Wordfast, база даних Access у Deja Vu), але існує міжнародний стандарт TMX (англ. Translation Memory eXchange format), заснований на XML, який можуть створювати практично усі системи ПП. Завдяки цьому результати роботи перекладачів можна обмінювати між додатками; тобто перекладач, що працює з OmegaT, може використовувати ПП, створену у Trados і навпаки.

До найпопулярніших систем відносяться:

· Deja Vu;

· OmegaT (безкоштовна система, поширювана за ліцензією GNU);

· SDLX;

· Trados (найпопулярніша програма, що довгий час була стандартом ПП);

· Star Transit;

· Wordfast (спочатку була реалізована як набір макросів для MS Word, згодом для неї створили власний інтерфейс);

· Lokalize (з відкритим кодом, працює на GNU/Linux, Windows, Mac OS X);

· Transolution;

· Open Language Tools;

· Інструменти перекладу Google;

У кінці 2008 року з’явилася перша вітчизняна система ПП AnyMem, розроблена київською компанією Advanced International Translations.

Хоча системи автоматизованого перекладу і не можуть забезпечити відразу якісний результат, однак при достатньо довгому періоді їх використання, наявності обширної бази даних перекладів, словників термінів, вони значно спрощують роботу професіонала, особливо при роботі з текстами, у яких наявне обов’язкове стандартне оформлення, стиль, певна лексика, тощо.

Висновки до розділу ІІІ

Програми автоматизованого перекладу забезпечують кращу організацію роботи професійного перекладача. Їх основною функцією є накопичення перекладених сегментів (фраз, речень, абзаців), які при можуть бути використані повторно (особливо при перекладі документів ділового стилю, де існує багато зворотів, кліше, тощо). Системи АП розбивають тексти на сегменти для кращого сприйняття тексту оригіналу людиною. Словники термінів полегшують роботу перекладача з термінологією, допомагають підібрати правильні еквіваленти. Багато програм автоматизованого перекладу мають функцію під'єднання до онлайн-сервісів МП, що можуть надати чорновий переклад, який при потребі можна редагувати. Хоча системи АП не звільняють перекладача від роботи, вони значно спрощують сам процес, при достатньо великій ПП переклад стає справою п’яти хвилин.

РОЗДІЛ IV. GOOGLE TRANSLATOR TOOLKIT ЯК ПОЄДНАННЯ СИСТЕМ ОБОХ ТИПІВ

4.1 Система Google Translate як компонент Google Translator Toolkit

Google Translator Toolkit нє є цілісною програмою, навпаки, даний веб-сервіс скаладається з багатьох компонентів і служб, які взаємодіють виконанні роботи. Однією з головних є Google Translate — система, яка виконує чорновий машинний переклад, а GTT надає можливість подальшого редагування, запису в пам’ять перекладів, надання доступу іншим користувачам, тощо.

Google Translate — безкоштовний онлайн-сервіс машинного перекладу, який дозволяє автоматично перекладати слова, тексти, електронні документи, веб-сторінки багатьма мовами світу. Для певних мов користувачам система пропонує варіанти перекладів, наприклад для термінів і багатозначних слів. Спочатку GT використовував перекладач SYSTRAN, яким і зараз користуються такі онлайн-сервіси як Babel Fish, AOL та Yahoo. Однак починаючи з жовтня 2007 року, Google запустила власне програмне забезпечення. Переклад здійснюється з використанням статистичного підходу до машинного перекладу, що дозволяє системі «навчатися» і самовдосконалюватися: коли Google Translate створює переклад, він шукає зразки в сотнях мільйонів документів, щоб надати найкращий переклад. Знайшовши зразки в текстах, перекладених іншими людьми, Google Translate може робити інтелектуальні припущення щодо правильного перекладу. Цей процес пошуку зразків у великих обсягах тексту і називається «статистичним машинним перекладом». Оскільки переклади генеруються машинами, не всі вони ідеальні. Чим більше текстів певною мовою перекладають люди, а Google Translate їх аналізує, тим кращою буде якість перекладу. Саме тому точність перекладу різними мовами іноді відрізняється.

Наразі система підтримує 71 мову, однак 19 з них є альфа-мовами, тобто знаходяться на стадії розробки і тестування. Для покращення якості роботи програми з цими мовами програмі необхідні корпуси паралельних текстів і колекції пам’яті перекладів. Google Перекладач може виконувати оборотний переклад у будь якій мовній парі, що підтримує система, але у більшості випадків реально виконує переклад через англійську. Більш того, для української та білоруської мов, як правило, використовується як проміжна ще й російська. Від цього дуже погіршується якість перекладу. Наприклад, це добре помітно при перекладі з польської на українську, що здійснюється через англійську та російську.

Google Translate успішно інтегрується в браузери, завдяки спеціальним розширенням, що встановлюються додатково. Для Mozilla Firefox існує дуже багато плагінів, щодо Google Chrome, то дані компоненти вже встановлені у нових версіях. Існує також спеціальний клієнт для ОС Windows, що реалізований у безплатній та комерційній версії, яка відрізняється кількома компонентами. Сервіс також працює з популярними зараз мобільними операційними системами, такими як Android та iOS. Для мобільних пристроїв була створена спеціальна функція голосового вводу, яка підтримує 15 мов (української, на жаль, немає), а система може «прочитати» переклад на 23 мовах за допомогою синтезу мовлення.

Google Translate — перспективна система для перекладу, тому що збільшення пам’яті перекладів і поповнення двомовних корпусів забезпечує кращу якість перекладів. Її перевагою є також те, що вона може самовдосконалюватися за рахунок збільшення баз даних. Однак статистичний метод не є ідеальним, тому система такого типу не зможе надати повноцінного перекладу.

4.2 Порівняння системи Google Translate з іншими онлайн-сервісами У даному розілі ми будемо порівнювати якість перекладу онлайн-сервісів, які підтримують напрямок «англійська — українська». Об'єктами оцінювання будуть відомі системи онлайн-перекладу, такі як Google Translate, Pragma Online, Перекладач Яндекс, Перекладач Мета, i.Ua Перекладач та Bing Translator. Критеріями для оцінки будуть наступні:

· адекватність перекладу (чи можна зрозуміти суть висловлювання);

· вживання правильних еквівалентів слів;

· узгодження закінчень;

· правильний порядок слів;

Для перекладу будемо використовувати 2 статті з інтернет-видання KyivPost, які налічують 1285 та 1444 знаків відповідно. Для того, щоб усі СМП мали рівні умови, ми не використовували ніяких додаткових фунцій онлайн-сервісів під час перекладу, таких як вибір альтернативних еквівалентів, тематики статті, тощо.

Аналізуючи переклади першої статті (додатки 1 — 6), почнемо з того, що чотири програми дали нам однаковий результат — Pragma Online, Перекладач Яндекс, Перекладач Мета та i.Ua Перекладач. Відрізняються вони лиш тим, що в Pragma Online та i.Ua Перекладачі існує обмеження на переклад тексту в 1000 символів. В аналогічних сервісах пошукових yandex.ua та meta.ua ці обмеження зняті. Оскільки на офіційному сайті компанії Trident Software вказано, що дані сервіси — клієнти Trident Software [34], можна припустити, що вони використовують програму Pragma у своїх сервісах.

Щодо власне перекладу, то жодна з програм не переклала правильно заголовок Yanukovych meets with Korean premier in Seoul, однак переклад загалом можна зрозуміти. Оскільки це просте речення, то порядок слів у перекладах правильний. Однак всі системи допустили помилки при узгодженні прикметника з іменником (Korean premier).

Також зрозумілим є і речення № 2, однак всі сервіси «помилилися» з вибором правильного еквіваленту до слова premier і переклали його як прем'єр, хоча в даному контексті воно вжито в значенні глава держави. Pragma Online та Bing Translator в даному випадку переклали не всі власні імена, а просто скопіювали оригінал. Це можна пояснити тим, що у них менший запас двомовних корпусів ніж в GT. Також у Pragma Online існують проблеми з перекладом дієслів. В даному випадку система розпізнала has met як модальне дієслово. В наступному реченні у всіх систем виникли проблеми з порядком слів, однак загальний зміст можна зрозуміти.

Показати весь текст

Заповнити форму поточною роботою