Робота з документами
Тепер отриманий 23-мегабайтный файл завантажуємо її у наші програми розпізнавання. Спочатку розбиваємо його за блоки автоматичним шляхом. Дивимося, що маємо вийшло: Fine Reader без особливих зусиль з маленькою недочетом (втратив одну букву) визначив все блоки, причому правильно, а Cuneiform 2000 знову знайшов неіснуючу таблицю, але загалом решта визначив непогано. Переходимо до другої стадії… Читати ще >
Робота з документами (реферат, курсова, диплом, контрольна)
Пятигорский Державний Технологічний Университет.
РЕФЕРАТ на тему:
«Автоматизація, обробка документів, розпізнавання документов».
Виконав: Перевірив: студент 1-го курсу Санкин А. В. юридичного факультету групи ЮП-011.
Пилипенків Александр
Пятигорск.
2001 год.
Нині найвідомішими програмами в обробці і розпізнавання текстів є відповідно Word і Fine Reader.
У цьому роботі хочу розглянути Word 97, як найнадійніший; і порівняти Fine Reader 5.0 і Cuneiform 2000, як конкуруючі програми. Розглянемо їх за порядку.
Загальні положения.
Програма Microsoft Word є багатофункціональної системою обробки текстів. Оскільки текстовий процесор Word працює у середовищі Windows то, на місці серед його достоїнств стоїть виняткова дружність пользователю.
Управління усіма пунктами меню і командами може виконуватися і з допомогою миші, і з допомогою гарячих клавіш (Short-Cuts), для економії часу користувача виконання певного набору операцій. Уявлення WYSIWYG (Wat You See Is What You Get) дозволяє переглянути на екрані готова до друку документ не витрачаючи час і папір на роздруківку пробних сторінок. Форматування символів, наприклад курсивное чи жирне має адекватне уявлення на екрані. І це справедливо для будь-яких гарнітур і кеглей.
Редактор Microsoft Word як і і Microsoft Wondows розроблено однієї корпорацією. Це дозволяє забезпечити максимальну узгодженість цих систем друг з одним, а також із іншими програмами сумісними з Microsoft Windows. Тексти і ілюстрації багатьох форматів може бути імпортовані в Word безпосередньо з деяких інших програм, тож вмонтовані до тексту документа. У результаті процедури вони стають частиною текстового файла WinWord чи продовжують у своїй існувати окремо завдяки механізму об'єктивного зв’язування і вбудовування (Objekt Linking And Embeding).
Також присутній ряд добре зарекомендували себе функцій, такі як не перериваючи роботи з документом роздрукувати деякі сторінки. І тут програма управління печаткою з буферизацией бере він спостереження печаткою на задньому плане.
Листи й факси, записки і звіти, публікації й web сторінки — ось лише невеликий перелік документів з з яких користувач має можливість використовуючи текстовий процесор Word.
Автоматизація виконання завдань й одержання помощи.
У Word 97 є неабиякий асортимент коштів автоматизації, спрощують виконання типових задач.
Автозамена.
Нижче перераховані деякі типи помилок, які можна виправлені автоматично при вводе:
Наслідки випадкового натискання клавіші CAPS LOCK (уперше з’явилася в Word 95). Наприклад, на початку пропозиції слово цЕЙ автоматично замінюється на Цей, а режим введення прописних літер (відповідний натиснутій клавіші CAPS LOCK) автоматично отключается.
Типові помилки в словосполученнях. Наприклад, слова почтовы йадрес автоматично замінюються словами поштовий адрес.
Граматично не сочетаемые пари слів. Наприклад, слова цей слово автоматично замінюються словами це слово.
Автоформат при вводе.
У Word передбачена можливість автоматичного форматування тексту при вводе.
Автоматичне створення нумерованих і маркованих списків (вперше з’явилося Word 95). Наприклад, якщо на початку першого елемента списку запровадити зірочку, буде створено маркірований список.
Автоматичне створення кордонів (вперше з’явилося Word 95). Наприклад, якщо запровадити три й більше число дефісів (-) чи знаків рівності (=) поспіль, та був натиснути клавішу ENTER, буде автоматично створена одинарна чи подвійна граница.
Автоматичне присвоєння тексту вбудованих стилів (вперше з’явилося Word 95). Наприклад, якщо завершити рядок тексту не знаком препинания, а подвійним натисканням клавіші ENTER, їй буде автоматично присвоєно стиль «Заголовок 1».
Автоматичне форматування порядкових номерів і дробів (вперше з’явилося Word 95; застосовна лише до англійської тексту). Наприклад, поєднання «1st» автоматично замінюється поєднанням, а дріб «¼» — символом ј.
Автоматичне оформлення мережевих колій та адрес Інтернету (наприклад, ReportsMayWeek1. doc і internet як гіперпосилань. При виборі гіперпосилання на адресу Інтернету автоматично запускається те що засіб перегляду Web і відкривається зазначена Web-сторінка. При виборі гіперпосилання на мережевий шлях автоматично запускається програма, необхідна відкриття файла призначення, і відкривається зазначений файл.
· Автоматичне застосування форматування, використовуваного для оформлення початку першого елемента списку, до початку наступних елементів цього. Например:
1. Word 97 виконає всю роботу за минулий вас.
2. Word 97 зробить ваші документи красивыми.
· Автоматичне зміна начерки символів. Наприклад, текст *Жирний* автоматично перетворюється на Жирний, а _Курсив_ — в Курсив.
· Автоматичне перетворення послідовності плюсів і дефісів (+— —+——+) в таблицю. Кожній парі плюсів (+) відповідає один столбец.
· Автоматична заміна прогалин на початку елемента маркованого чи нумерованного списку відповідним відступом слева.
Автозаполнение.
Автоматичне пропозицію повного варіанта слова чи фрази після введення кількох перших літер. Щоб прийняти запропонований варіант, натиснімо клавішу ENTER. Нижче перераховані деякі елементи, яких застосовно автозаполнение:
. · поточна дата;
. · дні недели;
. · назви месяцев;
. · ім'я автори і назва организации;
. · елементи списку автотекста.
Автореферат.
У Word 97 з’явилася можливість виконання статистичного і лінгвістичного аналізу документу з метою виділення його ключових положень. З цього аналізу складається реферат. Отже можна назвати ключових положень в електронний документ і переглядати його з різною мірою деталізації чи помістити автоматично складений реферат в окремий документ. Розмір реферату встановлюється користувачем і може варьироваться.
Під час упорядкування рефератів необхідно дотримуватись законів про авторському праві. Відповідальність за точність реферату покладається не так на програму, а до користувача. Автоматичне створення умов та попередній перегляд стилей.
Працюючи зі стилями в Word 97 використовуйте такі нові возможности:
. · Що стосується застосування нової форматування до тексту автоматично створюється новий стиль.
. · Що стосується зміни форматування тексту зміни автоматично вносять у визначення стиля.
. · Список стилів на панелі форматування містить зразки стилей.
Майстер писем.
Майстер листів дозволяє легко і швидко створити потрібне лист шляхом вибору готових елементів листи. З іншого боку, раз запроваджені відомостей про адресаті (ім'я, прізвище, адресу, посада і т. п.) автоматично зберігаються. Під час створення наступного листи цьому адресата достатньо вибрати його ім'я зі списку; й інші дані додасться автоматически.
Помощник.
Нове засіб Office 97 — помічник — використовує технологію IntelliSense. Його основне призначення — автоматичне надання рад і довідкових відомостей, що потенційно можуть знадобитися у процесі виконання завдання. Наприклад, якщо помічник вирішить, що ви маєте намір розпочати створення листи, то запропонує запустити майстра листів. Помічник є основним засобом отримання довідкових даних про роботі в Word 97, і навіть порад із підвищення ефективності роботи, наочних прикладів і пошаговых інструкцій з виконання конкретних задач.
Перевірка правописания.
Нижче перераховані кошти перевірки правопису і правки тексту, використовувані в Word 97.
1. Перевірка орфографії при вводе.
Перевірка на наявність орфографічних помилок у процесі введення тексту і виділення можливих помилок просто у документі (вперше з’явилося Word 95).
2. Перевірка граматики при вводе.
Перевірка на наявність граматичних помилок у процесі введення тексту і виділення можливих помилок просто у документі. І за автоматичної перевірці орфографії, під час перевірки граматики автоматично пропонуються можливі варіанти правильного написання. Для виведення списку варіантів слід клацнути виділений текст правої кнопкою мыши.
3. Пропуск певних елементів тексту під час перевірки правописания.
· За бажання користувача під час перевірки орфографії пропускаються слова, які з прописних літер і/або містять цифры.
· Пропуск імен файлів і адрес Интернета.
4. Перевірка грамматики.
Виділення помилок, і автоматичне пропозицію варіантів правильного написання дозволяє істотно скоротити час правки. У порівняні з попередніми версіями поліпшився синтаксичний аналіз, точнішими стали запропоновані варіанти правильного написання, і навіть розширено набір граматичних і стилістичних правил.
5. Спільна перевірка орфографії і грамматики.
У тексті одночасно виконується пошук і освоєння орфографічних, і граматичних помилок. Усі помилки усуваються за сеанс проверки.
Таблиці, межі і заливка.
У Word 97 з’явилися такі кошти, спрощують роботи з таблицями, межами і заливкой.
Таблицы.
1. Малювання таблиц.
Дозволяє створювати таблиці — стовпчики, рядки — і осередки, — малюючи його з допомогою миші, як олівцем. Тепер окремі осередки таблиці може мати будь-яку ширину і высоту.
2. Ластик.
Дозволяє легко видалити кордон будь-який осередки, рядки чи шпальти таблиці, що дозволяє той ефект, як і об'єднання осередків. У попередніх версіях Word можна було об'єднувати лише осередки, перебувають у однієї рядку. У Word 97 можна об'єднувати будь-які сусідні осередки — як у вертикалі, і по горизонтали.
3. Вирівнювання по вертикали.
Дозволяє швидко вирівняти вміст виділених осередків таблиці по верхньому чи нижньому краю або за середині осередки, використовуючи кнопки вирівнювання, розташовані на панелі інструментів. Якщо текст в осередках орієнтований вертикально, призначення цих кнопок змінюється автоматично: використовуйте їх задля вирівнювання по верхньому чи нижньому краю або за центру ячейки.
4. Вертикальна орієнтація текста.
Дозволяє розмістити вертикально (з поворотом на 90 градусів) текст в осередках таблиць, написах і рамках. Це засіб може дуже корисним під час створення наклейок, і навіть друкованих документів, містять відомостей про авторські права тощо. п., розташовані вертикально.
5. Зміна розміру рядки таблицы.
Дозволяє регулювати висоту будь-який рядки у таблиці у вигляді перетягування кордону рядки вгору чи вниз аналогічно, як можна змінити ширину шпальти. Якщо за перетаскуванні утримувати натиснутій клавішу ALT, на вертикальної лінійці буде показано фактична висота строки.
Границы.
1. Нові типи границ.
Для оформлення документів пропонується більш 150 різних типів кордонів, зокрема об'ємні межі і кордону, які з кількох ліній, що особливо популярні професійних документах.
2. Кордони страниц.
Дозволяє створити кордон навколо кожної сторінки. На додачу до 150 новим типам кордонів пропонуються більш 160 типів графічних кордонів сторінки. Існує також можливість настройки кордонів сторінок. Наприклад, можно:
· поставити свій тип кордону кожному за краю сторінки;
· помістити колонтитули всередину границы;
· оформити першу сторінку негаразд, як остальные.
3. Кордони текста.
Дозволяє застосувати кордону до окремим словами, і символів всередині абзацу. У цьому можна використовувати будь-які наявні типи кордонів. Наприклад, це суттєво спрощує створення кордонів навколо заголовков.
Заливка.
1. Заливання текста.
Дозволяє виділити найважливіші фрагменти документа, яких слід привернути увагу інших користувачів. У Word 97 заливання можна застосувати як до всього абзацу, до окремим словами, і символів всередині абзацу. У цьому можна використовувати будь-які наявні типи заливки.
Рисование.
У Word 97 пропонується новий набір графічних коштів, з допомогою яких можна легко прикрасити і малюнки шляхом додавання обсягу, тіні, текстурных і прозорих заливок, і навіть автофигур.
Графічний редактор Office Також надає велика кількість різноманітних інструментів малювання, розташованих на панелі інструментів Малювання. Для прикраси тексту і малюнків пропонуються 100 настраиваемых автофигур, 4 виду заливання (багатокольорова градиентная, візерункова, прозора і малюнком), а також додавання тіні й боротися обсягу. Графічний редактор Office має потужними і різноманітними можливостями, він замінив графічний редактор Word використовується переважають у всіх додатках Microsoft Office.
Рисунки.
Графічний редактор Office забезпечує всю гнучкість, необхідну успішної роботи з малюнками, наприклад:
· розміщення малюнків будь-де документа, зокрема убудовування в рядок тексту, шляхом звичайного перетягування;
· зміна відносного розташування тексту і малюнків, в тому числі створення підкладок і фонових малюнків з допомогою команди Помістити за текстом.
Надписи.
Написи використовуються замість рамок; до них застосовні всі можливості графічного редактора Office, зокрема додавання обсягу, заливання і фону, і навіть обертання, зміна ж розмірів та обрезка.
Пов’язані написи Для організації перетікання тексту між кількома позиціями у документі слід розмістити написи, та був встановити між ними зв’язку. При додаванні рядків пов’язану напис текст автоматично перетікає в таку напис. При видаленні рядків із написи у ній перетікає текст з такої написи. Документ може містити кілька складових ланцюжків написів. Зв’язки необов’язково повинні прагнути бути розставлено в прямому направлении.
Обтікання текстом будь-яких объектов.
Існує можливість обтікання текстом об'єктів будь-який форми і розмірів. Текст може обтікати об'єкт безпосередньо з його контуру.
Web і Internet.
У Word 97 є набір різноманітних коштів, виділені на роботи з Web і Интернетом.
Зв’язок із Web.
Ця функція, загальна всім програм Microsoft Office, служить для створення і перегляду гіпертекстових документів мають у мережі інтранет і Web.
1. Гиперссылки.
Установка через відкликання будь-яким файлом — файлом Microsoft Office, файлом в форматі HTML або іншими файлом, — розташованим будь-якою внутрішньому чи зовнішньому Web-узле чи файловом сервері. Для переходу доречно призначення, досить клацнути гіперпосилання. Word автоматично розпізнає мережні шляху, і навіть адреси електронної пошти й об'єднання Інтернету, і форматирует їх як гиперссылки.
2. Панель Web.
Служить до швидшого відкриття, пошуку миру і перегляду будь-яких документів, в тому числі Web-страниц. Панель дає можливість переходу від однієї документа чи вузла до іншого, переміщення уперед і тому за відкритим документам, і навіть приміщення важливих документів, виявлених у Web, в папку «Вибране», що дозволяє хутенько повернутися до ним.
3. Стиснення рисунков.
Автоматичне стиснення рисунків і ілюстрацій, вставлених до документа. Малюнки в форматі JPEG не перетворюються, проте растрові малюнки перетворюються на новий формат стиснутих зображень PNG.
Редагування Web-страниц.
1. Майстер Web-страниц.
Автоматизація створення Web-страниц. Майстер надає вже налаштовані шаблони Webсторінок, які можна легко змінити в відповідно до завдання. На вибір пропонуються різноманітні шаблони, відповідні найчастіше що використовуються видам Web-страниц, наприклад, зразки початкових сторінок. З іншого боку, для створюваних сторінок можна вибрати найбільш підходящі стилі оформлення, кожен із яких включає в себе кольору фону, маркери, горизонтальні лінії інші элементы.
2. Звукове оформление.
Розміщення файлів звукозапису на Web-страницах. І тому необхідно мати засіб перегляду Web, що передбачає обробку файлів звукозапису. У документі можна вказати місце розташування файла звукозапису, і навіть число повторень записи.
3. Видеозапись.
Розміщення файлів відеозапису на Web-страницах. При уставці до документа файла відеозапису слід зазначити потрібний файл, режим відтворення — «при відкритті» і/або «за умови встановлення покажчика» — як і й у звукозапису, число повторень записи. З цією коштів перегляду, які дозволяють переглядати файли відеозапису, до документа можна запровадити який заміняє її текст з иллюстрациями.
4. Рисунок.
Розміщення малюнків на Web-страницах, як у звичайному документі Word.
5. Та що біжить строка.
Розміщення біжучого рядка на Web-страницах. Запровадьте текст біжучому рядки, та був поставте потрібні параметри: ефект анімації, напрям і швидкість руху, колір фону і величину текста.
6. Маркеры.
Дозволяють урізноманітнити графічне оформлення Web-страниц. У Word є набір багатобарвних графічних зображень, які можна використовувати як маркерів на Web-страницах.
7. Горизонтальні линии.
Розміщення на Web-страницах різнобарвних графічних горизонтальних ліній, що поліпшують оформлення Web-страниц. Ці лінії є доповненням функцій вбудованих кордонів Шотландії й заливання в Word.
8. Форми HTML.
Створення однакових форм в документах Word і Web-страницах. HTML надає повний набір елементів управління Visual Basic, доповнений спеціальними елементами управління кодами HTML.
9. Коди HTML.
Спрощують створення Web-страниц. Word забезпечує точне відображення (в режимі WYSIWYG) найчастіше використовуваних кодів HTML (більш 80): таблиць, шрифтів, фонових звуків тощо. п.
Електронні средства.
На Web-узле Word є великий вибір різних коштів редагування Web-страниц в Word 97. Цей набір коштів регулярно оновлюється відповідно до останнім технологічним і стилістичним тенденциям.
1. ClipArt Collection Online.
Містить останні, найсвіжіші графічні елементи для Web-страниц. Clip Gallery Live, електронна колекція файлів для Word, включає різні легко загружаемые зразки елементів оформлення Web-страниц: тла, маркери, кнопки, значки, горизонтальні лінії, файли відеозапису й звуки.
2. Templates Online.
Містить нові шаблони Web-страниц зі звичайними для Web-страниц стилями оформления.
3. AutoUpdate Web Tools.
Містить найостаннішу версію коштів редагування Web-страниц в Word. Оновлення вашої системи може бути здійснене автоматично чи вручную.
Перегляд електронних документов.
У Word 97 є набір різноманітних коштів, спрощують перегляд електронних документам.
1. Режим електронного документа.
Оптимальний режим для перегляду електронних документів на екрані. Для зображення тексту документа використовується понад великий шрифт, а слова переносяться щодо кордону окна.
2. Схема документа.
Дозволяє миттєво одержати доступ будь-якій частині документа. Вікно документа поділяється на дві області: у частині відображається схема документа, а правій частині — текст документа. Схема документа представляє собою зображення структури документа, складеної по заголовкам. Вона дозволяє швидко переглянути структуру документа, можливість перейти до потрібної частини документа одним клацанням миші і побачити своє становище у документі. Поточне становище у документі виділено схемою документа контрастним цветом.
3. Гиперссылки.
Установка зв’язки й з будь-яким файлом — файлом Microsoft Office, файлом в форматі HTML або іншими файлом, — розташованим будь-якою внутрішньому чи зовнішньому Web-узле чи файловом сервері. Для переходу доречно призначення, досить клацнути гіперпосилання. Word автоматично розпізнає мережні шляху, і навіть адреси електронної пошти й об'єднання Інтернету, і форматирует їх як гиперссылки.
4. Перехресні гиперссылки.
Створення у документі, призначений для перегляду на екрані, «живих» перехресних посилань шляхом перетворення перехресних посилань в гіперпосилання. Для переходу до тексту, яку підказує гіперпосилання, непотрібно прокручувати весь документ. Тепер на те дуже клацнути перехресну заслання і переміщатися уперед і тому за пов’язаним абзацам з допомогою панелі Web.
5. Фон документа.
Аби зробити документи Word і Webсторінки привабливішими, використовуйте різні види фону, зокрема текстурную заливання. Фон, доданий з допомогою команди Фон (меню Формат), відображається лише у режимі електронного документи й не виводиться на печать.
6. Анімація текста.
Додавання ефектів анімації до тексту.
7. Перехід по объектам.
Переміщення з об'єктів, розміщеним у документі, з допомогою смуги прокручування. У цьому можна вибрати тип об'єктів, якими слід здійснювати переміщення: сторінки, розділи, примітки, звичайні і кінцеві зноски, поля, таблиці, малюнки, заголовки і виправлення. Наприклад, щоб переглянути все таблиці у документі, слід вибрати режим Перехід по таблицам.
8. Пристрій Microsoft IntelliMouse.
Microsoft IntelliMouse — цей прилад типу «миша», що дозволяє виконувати прокручування й зміна масштабу документа. З іншого боку, з його допомогою можна змінювати ступінь деталізації під час перегляду документа як структури чи автореферата.
Редагування повідомлень електронної почты.
Існує можливість вільно використовувати Word 97 до створення і редагування повідомлень електронної пошти в Exchange і Outlook.
1. Автоматичне створення гиперссылок.
Автоматичне форматування мережевих шляхів, і навіть адрес електронної пошти і дані Інтернету — наприклад, internet — як гіперпосилань при введення. Клацнувши гіперпосилання, можна можливість перейти до зазначеному місцеві призначення — у цьому прикладі, до основний Web-сторінці Microsoft.
2. Автори повідомлень на схемою документа.
Автоматичне виявлення довгих повідомлень, містять репліки кількох авторів, і вказівку імені автора кожній частині повідомлення на схемою документа. Клацнувши ім'я автора, можна миттєво можливість перейти до відповідної частини документа.
3. Доступ до даних адресної книжки, які належать до зазначеному у міжнародному сполученні имени.
Пошук в адресній книзі даних про будь-якому відправника чи получателе повідомлення під час читання чи написанні повідомлення. Клацніть ім'я правої кнопкою миші і виберіть команду Дані про адресі в контекстном меню.
4. Автоматичне форматування неформатированных повідомлень WordMail.
Автоматичне форматування неформатированных вхідних повідомлень електронної пошти з першого відкритті. Це спрощує наступний обмін повідомленнями: для оформлення заголовків використовуються певні стилі, до реплікам додаються відступи, повідомлення різних авторів виділяються різними та городніми т. п.
5. Шаблони WordMail.
Бистре складання повідомлення електронної пошти. Пропонується 10 шаблонів повідомлень з різними стилями оформлення. Наприклад, з допомогою шаблону термінового повідомлення можна скласти термінове повідомлення електронної почты.
Спільна робота кількох пользователей.
У Word 97 з’явилися нові можливості і кошти, що б продуктивність і ефективності роботи членів робочих групп.
1. Створення версий.
Ведення історії роботи над документом. Це дає можливість точно визначити час, характері і автора змін, внесених документ. Крім того, до кожної версії документа може бути додано довільні нотатки. Усі дані про версіях документа зберігаються у самому документі, що рятує від виробничої необхідності зберігати кілька копій документа. З іншого боку, можна встановити режим автоматичного збереження поточної версії документа в кінці кожного сеансу роботи з нею. Це дозволяє визначити автора будь-який версії документа.
2. Злиття документов.
Об'єднання всіх змін приміток, внесених кількома рецензентами, до одного документ з допомогою однієї простої операції. Кільком рецензентам можна надати для перевірки окремі копії документа, після чого все виправлені копії об'єднують у підсумковий документ. Або, наприклад, можна взяти додому копію документа, виправити там, та був повернути виправлену копію і автоматично об'єднати внесені з вихідним документом.
3. Примітки і спливають подсказки.
Швидкий перегляд на екрані приміток будь-яких рецензентів у документі без відкриття окремої області. Примітки легко знайти у документі — текст, обладнаний приміткою, виділяється жовтим кольором. При установці покажчика цей текст з нього з’являється спливаюча підказка, що містить текст примітки й ім'я рецензента.
4. Панель рецензирования.
Тепер усі звичайні кошти рецензування документа перебувають у однієї панелі інструментів: запис і перегляд змін, вставка і перегляд приміток, виділення тексту кольором, збереження версій і відправка документа електронній почте.
Многоязыковая поддержка.
У Word 95 було реалізовано автоматичне переключення шрифту й мови при переключенні клавіатури, що зробив можливим використання тексту на кількох мовами у документі та деяких менших діалогових вікнах. У Word 97 ще більш спростилися створення умов та перегляд документів, містять текст на різних європейських мовами. З іншого боку, передбачена можливість перегляду документів, створених із допомогою далекосхідних версій Word, в американської версії Word.
1. Перемикання клавиатуры.
Автоматичне переключення шрифтів у документі при переключенні клавіатури (набір використовуваних шрифтів визначається поточної розкладкою клавіатури). Перемикання клавіатури викликає також переключення мови та, отже, забезпечує перевірку тексту іншою мовою, наприклад, грецькому, засобами перевірки саме цього языка.
2. Підтримка текстів на кількох мовами в діалогових окнах.
Стали можливими редагування і перегляд тексту на кількох мовами в локалізованих версіях Word. Наприклад, умовою пошуку файлів в діалоговому вікні Пошук файлів можна вказати грецьке ім'я автора.
3. Відкриття документів з текстом на кількох мовами в локалізованої версії Word.
Правильне відображення тексту документа, створеного локалізованої версії Word, за наявності у системі відповідних шрифтів. Наприклад, документи, створені у японській версії Word, можна відкривати і переглядати ув американській версії Word. Слід зазначити, що ця можливість не поширюється мовами, у яких напрям листи не може змінюватися (іврит, арабську й т. п.).
4. Копіювання і вставка тексту в форматі Unicode.
Існує можливість копіювання тексту грецькою, чи російською чи будь-якій іншій європейській мові з американської версії Word і вставка їх у лист Microsoft Excel. З іншого боку, допускається копіювання і вставка тексту в форматі Unicode в поля деяких діалогових вікон (Знайти, Замінити тощо. п.).
5. Сортировка.
Існує можливість вказати язик, і, цим, порядок сортування, що йде використовувати при сортування тексту у документі. Наприклад, подвійні літери угорського мови, такі як «cz», правильно сортуються в американської версії Word, якщо за мови сортування зазначений венгерский.
6. Вставка символов.
Для отримання можливості вставки символів і літер, які у конкретній мові, досить вибрати відповідний набір символів шрифту Unicode в діалоговому вікні Символ (меню Вставка). Наприклад, щоб вставити в текст російські літери, слід вибрати набір «Кириллица».
Розглянувши Word, порівняймо програми для розпізнавання текста.
Останні кілька років дуже популярні програми розпізнавання тексту. Використовуються вони лише в офісах для перекладу документів мають у електронний вид, а й удома для розпізнавання різноманітних текстів для написання рефератів і курсових, що полегшує життя студентам і науковим співробітникам. Проблема вибору програмного продукту на вирішення будь-якої завдання завжди була перед користувачем. Щоб дозволити її, необхідно було порівняти хоча трохи програм одного призначення. При цьому витрачалися час і гроші, і часто вибір аж ніяк не оптимальним. На цей час усього дві програмних продукту — Fine Reader 5.0 і Cuneiform 2000 — пропонують розв’язання проблеми. Розглянемо їх. |[pic] | |[pic] | | | | Рис. 1. Fine Reader 5.0 після запуску. Якщо на кнопку Scan&Read, | |то автоматично запустится майстер сканування і розпізнавання. | | Рис. 2. Cuneiform 2000 готовий до роботи. Як і Fine Reader 5.0, перша | |велика кнопка викликає майстер сканування і розпізнавання. | | |.
Обидві програми пропонують кілька додаткових можливостей крім розпізнавання текста:
. перевірка орфографії щодо різноманітних языков;
. сканирование;
. збереження у різних форматах і передачі до інших програми розпізнаного документа;
. обробка картинок;
. пакетна обробка безлічі изображений;
. форматування тексту. Але нас цікавлять й не так запропоновані функції (вони однакові), скільки відмінності для користувача роботі цих програм. Для цього ми проведемо дослідження з пунктах, які є основними для пользователя.
Швидкість і качество Эти характеристики є одним із самих критичних при застосуванні даних програм, т. до. розпізнавання повинна заощаджувати час, витрачене на сторінку тексту, а складається він у результаті з швидкості і забезпечення якості. Швидкість — цей час, необхідне найбільш витратну програму на розпізнавання, як від якості залежить, доведеться вам виправляти отриманий і наскільки час виправлення менше набору того самого тексту. Як свідчить практика, якість безпосередньо залежить від вихідний матеріал, і навіть від рівня інтелекту програми розпізнавання. Спочатку ми подивимося, як програми будуть розпізнавати сторінку, не що містить нічого, крім звичайного тексту. Потім розглянемо кілька варіантів різної складності. І тому ми беремо лист формату А4 з текстом, распечатанным на лазерному принтері, сканируем їх у чорно-білому режимі з дозволом 300 точок на дюйм і зберігаємо в форматі TIFF (з тими параметрами будуть відсканованими і інші зразки, взяті для тестів). |[pic] | | | | Рис. 3. Отак виглядає узятий для перевірки текст. Тут немає жодних | |труднощів для розпізнавання, проте… | | |.
Нині ми відкриваємо це зображення у Fine Reader 5.0, виділяємо область для розпізнавання і натискаємо кнопку «Розпізнати ». Саме це процес у програми йдуть близько 4 з. Виконуємо таку операцію в Cuneiform 2000 навіть через 8 з отримуємо розпізнаний текст. Отже, Fine Reader 5.0 працює швидше, ніж Cuneiform 2000. Тепер якість: перша програма зробила тільки один помилку (рис. 4), ну, а друга помилилася лише поставивши непотрібний прогалину (рис. 5). |[pic] | |[pic] | | | | Рис. 4. Розпізнана сторінка у програмі Fine Reader 5.0. Тепер, натиснувши | |на кнопку «Перевірити», ви можете вручну виправити наявні помилки чи | |просто переглянути місця, які распознались «невпевнено». | | Рис. 5. Розпізнана сторінка у програмі Cuneiform 2000. Перш ніж | |переходити ось до чого зображенню, необхідно зберегти або в | |іншу програму отриманий текст. | | |.
Тепер погляньмо, яка картина буде, якщо взяти для розпізнавання розворот підручника з формулами. |[pic] | | | | Рис. 6. Приклад для розпізнавання підручника. Перш ніж розпізнавати, цю | |картинку довелося повертати. Таку операцію необов’язково проводити | |засобами Photoshop, із нею легко справляються наші програми. | | |.
Виконуємо розпізнавання і ми бачимо, що Fine Reader витратив близько 43 з, а Cuneiform — порядку 18 з. Цікаво: Fine Reader тут показав не найкращий результат швидкості, але з якості - в нього перевагу. Міркуйте самі: переважно помилки розпізнавання виявилися не лише в формулах, а Cuneiform примудрився зробити їх й у тексті. |[pic] | |[pic] | | | | Рис. 7. Це розпізнана сторінка підручника в Cuneiform. Так… доведеться | |ще постаратися у тому, щоб «довести до розуму» цей матеріал. | | Рис. 8. Типова картина після розпізнавання тексту. Знову ці формули | |писати… | | |.
Інший щонайменше цікавий тест на швидкість і якість — розпізнавання ксерокса підручника, причому йому взяти два варіанта: доброго та погану якість. При розпізнаванні хорошого ксерокса (рис. 9) Fine Reader знову з’явився попереду — 4 з, а Cuneiform — 5 з. |[pic] | | | | Рис. 9. Такий вигляд має зразок хорошого ксерокса. Щоб його отримати, треба | |або користуватися хорошою апаратурою, або налаштувати в потрібний | |контраст. | | |.
Подивившись на розпізнаний текст, можна сказати, що Fine Reader не так на багато, проте краще впорався зі завданням. Cuneiform не зміг розпізнати правильно букву «Ц », а цифру нуль вважала буквою «Про ». |[pic] | |[pic] | | | | Рис. 10. Варто виправити дві-три помилки, і текст готовий. Fine Reader 5.0 | |непогано попрацював. | | Рис. 11. Такого типу помилки, як тепер зробив Cuneiform 2000 Master, | |раніше були в Fine Reader 4.0. | | |.
Тепер погляньмо, які результати в нас вийдуть, якщо розпізнавати ксерокс погану якість. |[pic] | | | | Рис. 12. Такий вигляд має наш зразок поганого ксерокса. Маючи досить | |терпіння і, його було б поліпшити, використовуючи можливості | |Photoshop. | | |.
Fine Reader — 1 хв 48 з, а Cuneiform — близько тридцяти з. Тут явно програв Fine Reader. Подивимося, що саме вдалося розпізнати нашим учасникам. Картина явно змінюється: Cuneiform за 30 з з усією сторінки чи розпізнав правильно більше одного-двох десятків слів. З Fine Reader, попри погане якість вихідний матеріал, отримали якомога більше розпізнаного тексту, який, маючи оригінал, можна було б навести на нормальний вид. А користувачам Cuneiform довелося б набирати весь текст вручну. Тихо їдеш — далі будеш. |[pic] | |[pic] | | | | Рис. 13. Cuneiform не впорався зі завданням, і такий текст не вважається | |распознанным. | | Рис. 14. Порівняйте цей текст з текстом, здобутих у Cuneiform 2000, і це| |зрозумієте, наскільки краще Fine Reader впорався зі таким нелегким справою. | | |.
Отже, показник часу розпізнавання у програм цілком різний, і сказати, який із них швидше, дуже складно. Але не можна не помітити, що з Fine Reader 5.0 час розпізнавання безпосередньо залежить від якості оригіналу: намагається розпізнати максимально багато і тому витрачає більше часу на розпізнавання зображення погану якість. А у Cuneiform 2000 час розпізнавання так залежить від якості оригіналу, тому розпізнавання займає менше, але це страждає якість. Висновок: Fine Reader 5.0 найкраще використати при розпізнаванні як хорошого, і поганого вихідний матеріал. А Cuneiform 2000 у кращому світлі виглядає при розпізнаванні середнього та трохи вищий за середній якості оригіналів, т. до. цьому він марнує час на розпізнавання набагато менше, а якість лише трохи поступається переможцю даного тесту — Fine Reader.
Таблиці і формы На цьому етапі ми розглянемо, наскільки саме буде здійснюватися визначення таблиць і форм. Щоб провести його точно, ми візьмемо дві основні виду таблиць і тільки документ договору. |[pic] | | | | Рис. 15. Приклад простий таблиці. Такого типу таблиці часто-густо | |зустрічаються у економічній літератури і довідниках. | | |.
Для першого прикладу ми використовуємо невелику таблицю (рис. 15). |[pic] | |[pic] | | | | Рис. 16. Результат розпізнавання Fine Reader 5.0 — тут потрібно | |доопрацювання. | | Рис. 17. Результат розпізнавання Cuneiform 2000 найближчий до | |оригіналу. | | |.
Отже, ми маємо дві ідентичні таблиці (крім форматування), недоліки що у наших програмах такі: в Fine Reader 5.0 кожна осередок закінчується непотрібним введенням (рис. 16), а Cuneiform 2000 (рис. 17) зберігає розбивку на рядки з допомогою вставки символу «кінець рядки «(Shift+Enter в MS Word). Нині можна взяти складнішу таблицю (рис. 18). |[pic] | | | | Рис. 18. Складна таблиця — лінії у ній в повному обсязі явно задано. | | |.
При спробі розмітити її автоматично лише Fine Reader знайшла тут якето подобу таблиці, ну, а Cuneiform 2000 взагалі вирішив, що саме перебуває лише сам віршик. І потім того як вручну виділили табличний блок, програми вирішили розпізнавати таблицю. Результати розпізнавання бачимо на рис. 19, 20. Найточніше і близько до оригіналу ми виявився Fine Reader 5.0, проте ні там: начебто хотілося. Cuneiform 2000 взагалі вирішив, що у таблиці вся сітка мусить бути повністю видимої - після таких распознаваний доведеться ще повозитися з таблицею досить грунтовно. Тим паче Cuneiform 2000 ще зовсім точно розпізнав текст у самій таблиці. |[pic] | |[pic] | | | | Рис. 19. Cuneiform 2000 таблицю, звісно, розпізнав, а от тільки так| |уже й близько до оригіналу, як Fine Reader 5.0. | | Рис. 20. Досить близько до оригіналу, але попрацювати ще доведеться. | | |.
Щоб добре і найточніше распознавалась таблиця, можна самому відредагувати вертикальні і горизонтальні лінії таблиці до розпізнавання тексту. Це доступно на обох програмах. Провівши дослідження на розпізнавання таблиць, ми переходимо до форм. Що й казати ми тому випадку під ними розуміємо? Але смільчаків як досить легко: анкети, договору й інші документи, містять досить складна оформлення. Коли ви виникає запитання, навіщо таке дослідження проводити, тут ми дуже просто привести приклад зі життя. Вам треба міняти договору чи анкети наявної в вас зразка, а електронному вигляді її в вас немає. Час набір й обмежена, тож і мусять використовувати програму розпізнавання. Отже, покінчимо з лірикою і візьмемося у справі. Зразком до нашого тесту послужить стандартний договір найму. При автоматичної розміткою сторінки на блоки виникає майже така сама ситуація, як із визначенні складної таблиці, тому ми всю сторінку визначаємо єдиним текстовим блоком вручну. Це доводиться робити, що у Fine Reader сторінка поділяється втричі блоку, а Cuneiform 2000 — близько п’ятнадцяти. У Fine Reader через 50 з ми маємо вже готовий договір, ну, а в Cuneiform 2000 чекаємо всього 10 з, але документ внаслідок вимагає виправлень. Наприклад, деякі точки распознались комами, а замість символу номер (№) отримуємо кілька інших символів, і точність розпізнавання самого тексту трохи страждає. Проте саме форматування договору обох програмах збереглося досить точно. Результати: при розпізнаванні простий таблиці Cuneiform 2000 виявився краще, ніж Fine Reader 5.0. Працюючи зі складною таблицею довелося вручну визначати блок таблиці, т. до. при автоматичному визначенні блоків обидві програми її впізнали взагалі як таблицю. Коли це, нарешті, сталося, обидві отримані таблиці вимагали досить серйозній редакції, та все ж Fine Reader показав найкращий результат. |[pic] | | | | Рис. 21. Зразок стандартного договору. Відрізняється від зазвичайного тексту в | |основному лише тим, що є складніше форматування, певних норм | |складання. | | |.
При розпізнаванні договору (чи форми) він також посів місце, щоправда, у своїй витратив вп’ятеро більше часу, ніж Cuneiform 2000, зате розпізнав точніше, і ми менше треба було б правити (гідне застосування роботи цих программ).
Блоки Не останнє місце під час роботи з тими програмами розпізнавання займає автоматична розбивка на блоки. У автоматичному режимі на розбивку витрачається лічені секунди, а ручному — значно більше часу. Спочатку візьмемо зображення нашого договору. Як мовилося раніше, Cuneiform 2000 розбив цей єдиний документ силою-силенною блоків, а Fine Reader лише з 3 частини, і над ними не ввійшли лише останні точки у документі (їй за принципі довіряти). Для нормального розпізнавання в програмах таблиці з тексту (тим паче, якщо вона проста) найкраще її виділяти самостійно. Та якщо вона справляє враження перший зразок, можна спокійно не привертати до неї уваги, т. до. вона правильно визначиться обома програмами. Та все ж програма Fine Reader тут входить у місце: надійно точно визначає тип було розпізнати блоків і розподіляє їх також погано. Наприклад візьмемо розворот підручника з картинками й роззирнімося, як впораються наші програми з розбивкою на блоки. |[pic] | | | | Рис. 22. досить складний визначення і розпізнавання розворот | |підручника. Впораються з ним наші програми? | | |.
Cuneiform 2000 знайшов таблицю і майже 30 текстових блоків, причому, деякі виділяли область малюнків. Після цього ми очікували побачити приблизно ті ж самі і в Fine Reader 5.0, але не всі ілюстрації були розпізнані правильно (хоча й зовсім точні було визначено кордону), текстові блоки були виділено також коректно, ну, а міфічних таблиць цю програму не виявила, т. до. їх справді був. Так, щоб нормально розпізнати текст в Fine Reader, потрібно лише лише трохи поправити кордону блоків усунути непотрібні, а Cuneiform 2000 краще ставити їх вручну. Проведене випробування показало, іноді краще самому розставити і визначити блоки, т. до. програмі може бути зовсім зрозуміло якого типу відносити що вийшов блок. Наші програми у принципі непогано не впоралися із завданням, особливо Fine Reader, який зробив грубих помилок при розпізнаванні блоков.
Розпізнавання цвета Раньше програми розпізнавання вимагали лише чорно-білих (1-битовых) зображень дозволів, близьких до 300ґ300 dpi. Тепер програми фірм ABBYY і Cognitive Technologies Ltd., дозволяють розпізнавати сірі і кольорові зображення з дозволами від 200 до 600 dpi. Залишилося тільки перевірити, наскільки добре вони роблять. Для проведення цього тесту взяти першу сторінку кольорової газети, отсканируем їх у 24-битном режимі (16,5 млн квітів) та поступово будемо зменшувати кольоровість. У цьому тесті нас цікавитимуть результати часу розпізнавання і якість, і навіть їх залежність кількості квітів. |[pic] | | | | Рис. 23. Такий вигляд має перша сторінка газети в кольорі, залишився тільки її | |розпізнати. | | |.
Тепер отриманий 23-мегабайтный файл завантажуємо її у наші програми розпізнавання. Спочатку розбиваємо його за блоки автоматичним шляхом. Дивимося, що маємо вийшло: Fine Reader без особливих зусиль з маленькою недочетом (втратив одну букву) визначив все блоки, причому правильно, а Cuneiform 2000 знову знайшов неіснуючу таблицю, але загалом решта визначив непогано. Переходимо до другої стадії - розпізнаванню. Fine Reader — 34 з, Cuneiform — 52 з! Неймовірно, але факт. Fine Reader, крім високу швидкість, що й дуже якісно розпізнав цю сторінку (зробивши лише кілька помилок, розпізнавши навіть білий текст на чорному тлі), особливо з порівнянню з Cuneiform, який зміг розпізнати більшу частину тексту. З іншого боку, Fine Reader вирізав картинку без домішки тексту! Таких результатів від Fine Reader ми очікували. Тепер знижуємо кольоровість з 16,5 млн до 256 кольорів та дивимося, зміниться картина розпізнавання. Для Fine Reader ситуація з визначенням блоків не змінилася, тоді як в іншої тестируемой програми проблема — вона, схоже, не знайшла текст. Вважатимемо, що ваша програма Cuneiform 2000 провалила даний тест. Швидкість розпізнавання у Fine Reader змінилася за бік зниження: вийшло близько 27 з. Так, до речі, цього разу програма взагалі помилилася щодо блоків. І, нарешті, останнє розпізнавання цього ж зображення на режимі 256 градацій сірого. З Cuneiform 2000 знову той самий проблема — не знаходить текст, знову провал. І це Fine Reader не ударив у ролі організатора й розподілив блоки з тією ж точністю. Процес розпізнавання зайняв всього 24 з — чудовий результат! |[pic] | |[pic] | | | | Рис. 24. Подивіться, як розпізнав такий текст (оригінал видно знизу) | |Coneiform — продукт 2000 року! | | Рис. 25. А тепер порівняймо цей розпізнаний текст з отриманим на | |попередньої картинці. | | |.
А тепер можна підбити підсумки зробленого. Явний лідер нашого тесту виявився Fine Reader 5.0 Pro, що переміг майже переважають у всіх тестах програму Cuneiform 2000 Master. Якість розпізнавання у переможця безперечно вище, особливо в поганих оригіналах. Швидкість в нього теж не надто відстає, котрий іноді перевершує свого конкурента. Як засвідчили останні два тесту, у Fine Reader відмінна система розпізнавання блоків і кольорового зображення. Є, звісно, і пояснюються деякі незручності на обох програмах: треба перевіряти, а часом і виправляти розпізнані блоки, на великих обсягах сторінок. На загальному обидві програми досить конкурентоспроможними і ще довго будуть виборювати місце, але цьому етапі, як бачите, Fine Reader лучше.
Укладання. Нині дедалі більше людей використовують комп’ютери у повсякденній життя, навіть роботу з текстами проходить через машини. А програми до роботи з текстом поліпшуються очах. Написавши роботу, я доходжу висновку — що слід вибирати надійність і якість під час виборів ПО кожному за комп’ютера і у жодному разі не поспішати з цим делом.