Аналіз предметної області та відомих реалізацій програмної системи конвертації текстових файлів
Програма Acrobat Reader призначена для перегляду файлів формату Portable Document Format (.pdf), який широко розповсюджений у комп’ютерному світі і використовується в різних ОС і на різних платформах; Традиційні засоби UNIX для перегляду текстових файлів — це є команди перегляду файлів cat, more (для виводу рядками) або less; Редагування текстових файлів — одна з найбільш часто виконуваних робіт… Читати ще >
Аналіз предметної області та відомих реалізацій програмної системи конвертації текстових файлів (реферат, курсова, диплом, контрольна)
Аналіз предметної області «Обробка текстових документів»
Однією з найбільш розповсюджених функцій сучасного персонального комп’ютера є підготовка різноманітних текстових документів. Текстові документи зберігаються у файлах, які називаються — текстовими.
Текстові файли — найбільш наочна форма представлення алфавітно-цифрової, інформації, що дозволяє зберігати, редагувати, читати на екрані й друкувати будь-які текстові документи — листи, записи, довідки, об’яви, звіти, статті, вихідні тексти програм і багато іншого. Спосіб організації даних у файлі того чи іншого типу називається форматом файлу. Формати текстового файлу — найпростіший з усіх відомих способів організації даних. Уся інформація у такому файлі представлена просто символами кодової таблиці, які без усяких перетворень можна вводити з клавіатури, надсилати на екран чи принтер. Подібно до будь-якого документу на аркуші паперу, текстовий файл складається з набору рядків змінної довжини (наприклад, одна сторінка — 64 символи, інша — 15 символів і т.п.). Багато з текстових файлів передаються у вигляді простого тексту, який є не досить привабливим і такими, що легко прочитуються, через те що в ньому немає шрифтів різних накреслень, графіки, заголовків, підзаголовків та ін. Ці додаткові особливості носять назву розмітки тексту. Говорячи про розмітку тексту, виділяють поняття фізичної та логічної розмітки. При використанні фізичної розмітки тексту вказується точний вид кожного фрагменту. Наприклад, «відцентрований текст, 14-м кеглем, жирний, гарнітура Times». При логічній розмітці тексту вказується логічне значення даного фрагменту, наприклад «це заголовок глави». При обміні інформацією між різними машинами розмітка тексту може не зберігатися. Для зберігання розмітки документу при передачі інформації від машини до машини застосовуються різні способи. Текстові процесори та видавничі системи використовують спеціально розроблені формати файлів, що містять не тільки текст, але й інформацію про те, як він повинен бути оформлений. Основна проблема тут в несумісності таких форматів між програмами-конкурентами (наприклад, Word та StarWriter) [8].
Серед текстових файлів виділяють.
- — ASCII-файли — файли, в яких символи тексту та як вони повинні бути розташовані на сторінці кодуються різними значеннями байта чи послідовністю байтів. Прикладами таких файлів можуть бути файли, що створені редакторами типу вбудованого редактора програми Midnight Commander, файли, створювані програмою Notepad в Windows та vi в UNIX;
- — файли з розширеними можливостями форматування тексту; від попередніх відрізняються числом кодів, що використовуються як керуючі можливостями форматування тексту. Прикладами таких файлів є файли, що створюються за допомогою простих редакторів типу Лексикон, файли у форматі .html.
- — файли, що використовують власний формат для представлення тексту (в яких символи тексту також представлені спеціальними послідовностями). Це файли MS Word з розширенням .doc, файли OpenWriter з розширенням .sxw, файли Kword з розширенням .kvd та ін [8].
Файли, створенні різними редакторами, мають унікальні розширення, що дозволяє, не зазираючи до документу, здогадуватися про способи розмітки тексту. Так файли, створені редакторами підготовки простого тексту, часто мають розширення .txt, а підготовлені у процесорі Word .doc або .rtf). Документи, що місять команди розмітки мови HTML, мають розширення .html або .htm. Текстовий файл канонічного формату — це файл з розширенням .txt. Його можна підготувати і прочитати на будь-якому ПК, з будь якою ОС [8].
Програми для перегляду текстових файлів різних форматів:
- 1. традиційні засоби UNIX для перегляду текстових файлів — це є команди перегляду файлів cat, more (для виводу рядками) або less;
- 2. програма Acrobat Reader призначена для перегляду файлів формату Portable Document Format (.pdf), який широко розповсюджений у комп’ютерному світі і використовується в різних ОС і на різних платформах;
- 3. програма gv (або ghostview) призначена для перегляду файлів формату PostScript та PDF;
- 4. «Переглядач PS/PDF» та «Переглядач DVI» програми KDE для перегляду PS, PDF та DVI;
- 5. бібліотека wv призначена для отримання доступу до файлів форматів MS Word 2000, 97, 95 та 6 з операційних систем типу UNIX, а саме з Linux. З її допомогою файли перетворюються у файли формату HTML, PS, PDF, LaTex, DVI (формат видавничої системи TEX), ABW (формат текстового редактора AbiWord), Wml (формат, що використовується у персональних органайзерах PDA і устройствах типу Web-телефонів), ASCII-текст;
- 6. програми-перекодувальники кодових сторінок;
- 7. WordPad для перегляду файлів формату .rtf, .txt, старих документів MS Word.
- 8. Редагування текстових файлів — одна з найбільш часто виконуваних робіт на будь-якому комп’ютері і в будь-якій ОС [8].