Rambler's Top100 Service

  Radius Group
СКАЧАЙТЕ БЕСПЛАТНО

ПУТЕВОДИТЕЛЬ

по всем нашим сайтам. Уникальная программа


РАЗДЕЛЫ ПОРТАЛА
  Главная страница
Бесплатная документация
Форумы
ГОРЯЧАЯ НОВОСТЬ
 

23 Mar (00:01)
Поиск в Google
Простые рекомендации от SecurityFocus

Архив...
ЛАБОРАТОРИЯ
  Место где решаются Ваши проблемы

Сейчас в Лаборатории
Компаний: 1677
Экспертов: 700

Вход
для пользователей
для экспертов

Как работает Лаборатория?
НОВОСТИ КОМПАНИЙ
 

9 Feb (00:04)
Кто боится Liebert UPStation?


15 Dec (00:04)
Система Online-control.net - три года успешной работы!

26 May (18:12)
Семинар "Создание эффективных веб-сайтов"

29 Apr (00:08)
Интернет-сайт компании: удобное средство для заработка денег или дополнительные накладные расходы?

15 Apr (00:26)
Три источника, три составные части Intel Centrino

Архив...
СТАТЬИ И ОБЗОРЫ
 

Антишпионские и антивирусные средства Microsoft
Обзорная статья

Субъективный список хороших программ

Форматы документирования

Октябрьские исправления Microsoft влияют на браузер IE

Microsoft торопится с Longhorn и удаляет WinFS

Архив...
Назад НаверхВниз
Советуют профессионалы! Совет: Хорошее настроение - залог успеха

NEWS.ITUNION.RU НазадНаверхВниз

Форматы документирования


К сожалению, из-за частичного копирования этой статьи о форматах архивного хранения информации мы уже не можем привести ссылку на исходную публикацию и ее авторов. Однако нам показалась интересной та ее часть, где проведен обзор современных форматов:

Не так уж давно, обработка документов была проста как отвертка. Все документы были ксерокопированными и обрабатывались исключительно графическими программами DIP (document image processing), причем изображения были двух типов: "черное на белом" или "белое на черном". Сжатие выполнялось по алгоритмам ITU Group 3/4 (ранее CCITT Group 3 и CCITT Group 4), либо не выполнялось вовсе.

Однако цифровые сканеры и устройства зарядовой связи CCD (charge couple device) изменили ситуацию, а современные цифровые камеры уже почти превзошли пленочные. Повсеместное внедрение сжатия с потерями (lossy compression), основанного на одной из разновидностей фрактальных алгоритмов, приводит к не совсем точному сохранению изображения. Типичный пример: самолет сельскохозяйственной авиации над кукурузным полем - при сжатии фракталами поле остается, а самолет пропадает. Некоторые надежды вселяет так называемое зонное сжатие (zonal compression), в котором к разным элементам изображения (фотографии, текст, диаграммы и т.д.) применяются отличающиеся алгоритмы сжатия. Пока эта технология еще не вышла из исследовательских лабораторий, хотя имеет один пример практической реализации - формат DjVu.

Сегодня документация обычно хранится в нескольких форматах, кратко перечисленных ниже:

1. TIFF (Tagged Image File Format, формат файлов изображений с тегами)

Стандарт TIFF был создан в 1986 году группой компаний-разработчиков, включая Hewlett Packard и Microsoft, но ныне права на него принадлежат Adobe. Формат поддерживается повсеместно, например во всех версиях ОС Microsoft Windows.

Отличительные особенности TIFF - расширяемость (новые типы изображений могут встраиваться без какого-либо влияния на существующие форматы), а также - переносимость (portability): полная независимость от ПО и оборудования.

Графический объект в TIFF разделен на две части: заголовок и данные. В заголовке находятся теги (отсюда и tagged image в названии), определяющие такие атрибуты, как разрешение, ширина и высота или тип сжатия. Допускается вставка лицензированной информации отдельных компаний, например ключевые слова или иные метаданные, вместе с механизмами для обнаружения вторичного сканирования (скажем, сохранение общего количества пикселей, полученных при первом сканировании). В общем случае, лицензированные теги одной компании попросту игнорируют другие компании, но остальное описание изображения остается "законным и корректным". В самом начале распространения TIFF лицензированные теги создавали несовместимость, вплоть до воспроизведения в программе просмотра одной компании негативного изображения, созданного в программе другой компании (просто потому, что компания по-разному интерпретировали значение логического разряда в изображении). Сейчас такие несогласованности по большей части устранены, но в TIFF сохранилась поддержка нескольких моделей сжатия, причем на программном уровне некоторые приложения пытаются применить несколько разных схем сжатия, чтобы выбрать наилучший вариант.

В TIFF используются следующие методы сжатия: (1) Uncompressed - без сжатия, например для фотокопии плохого качества; (2) Group 3 (1d) - обычно для передачи по факсу; (3) Group 3 (1d) - модифицированный алгоритм Хаффмана (Huffman) также предназначен для факсов и является гибридной версией методов 1d и 2d; (4) Group 4 (2d) - наиболее распространенный метод сжатия сканированных монохромных бизнес-документов, обеспечивающий наилучший уровень сжатия для изображений с четкими контурами; (5) Packed bits - (упакованные разряды) для черно-белых изображений; (6) LZW - для цветных и полутоновых изображений, допускает потери и имеет меньший уровень сжатия по сравнению с JPEG; (7) JPEG - для полноцветных и 256-разрядных полутоновых изображений с потерями, но высоким уровнем сжатия.

Заметим, что в TIFF напрямую не поддерживаются аннотации для рисунков - их следует "врезать" в изображение, т.е. создать новый вариант (с обеспечением контроля версий и их отслеживания), либо формировать для аннотации отдельный объект, накладываемый на изображение при выводе на печать или на экран. Однако второй вариант приводит к потере переносимости, поскольку аннотации часто теряются при переносе на другую платформу.

На данный момент стандарт TIFF является наиболее надежным решением для долговременного хранения монохромных бизнес-документов. Универсальность TIFF обеспечена его статусом "стандарта де-факто": практически все ПК имеют встроенные средства для работы с TIFF, большая часть корпоративного ПО для сканирования поддерживает TIFF, обеспечена переносимость и расширяемость. Но необходимо внимательно отнестись к лицензированным тегам и аннотациям.

2. JPEG (Joint Photographic Experts Group, объединенная группа экспертов по фотографии)

Стандарт JPEG разработан группой специалистов из национальных комитетов по стандартизации и крупных компаний. Комитет был назван ISO/IEC JTC1 SC29 Working Group 1, а его задачей стало создание стандарта для кодирования непрерывно-полутоновых изображений (проще говоря - фотографий без четких контуров). Слово "объединенная" в названии стандарта обозначает участие ISO и ITU-T (ранее CCITT).

Один из разработанных этой группой стандартов был IS 10918-1 (ITU-T T.81), предназначенный для сжатия неподвижных изображений. Версия этого стандарта была предоставлена в общественное пользование (т.н. общественный домен - public domain) и, после повсеместного принятия, стала называться просто JPEG.

Стандарт JPEG используется не только в корпоративной области - миллионы домашних пользователей применяют его при пересылке фотографий по э-почте (сканирование цифровыми камерами или цветными сканерами класса SOHO - небольшой или домашний офис) или для публикации их на веб-сайтах. Широко распространены программы просмотра JPEG, встроенные в наиболее популярные веб-браузеры. Стандарт по умолчанию используется в цифровых камерах и различных графических редакторах.

Доверие к исходной версии JPEG вместе с переносимостью и универсальностью делают этот стандарт удачным решением для долговременного хранения неподвижных цветных изображений, например фотографий.

Однако не все изготовители реализовали согласованный вариант JPEG, поэтому может возникать несовместимость при передаче в другое приложение, после некоторого преобразования исходного изображения (например, при изменении ориентации листа с альбомной на книжную: landscape/portrait). Развитие цветных сканеров привело к созданию JPEG2000, заменяющего исходный вариант JPEG в области сжатия цветных изображений (и, кстати, с повышением производительности).

3. GIF (Graphics Interchange Format, формат обмена графикой)

GIF и JPEG представляют два наиболее распространенных файловых форматов для графических изображений в Интернете. В GIF используется алгоритм сжатия Лемпеля-Зива-Велча (Lempel-Ziv-Welch=LZW), лицензия на который принадлежит Unisys. Это сжатие без потерь в двух размерностях, поэтому сжатие больших документов приводит к значительным по размерам файлам. Один из вариантов GIF - 37 (GIF89a) - поддерживает короткие анимационные клипы и наложение (интерлейсинг), что полезно для фонового рисунка веб-страницы, на который наложен текст. Разработана беспатентная версия GIF - формат PNG (Portable Network Graphics, переносимая сетевая графика).

4. MPEG (Moving Pictures Expert Group, группа экспертов по движущимся изображениям)

Стандарт разработан комитетом ISO/IEC JTC1 SC29 (заметим, что рабочая группа Working Group 11 занималась MPEG, а рабочая группа Working Group 1 - JPEG, причем работы проводились абсолютно независимо друг от друга). Стандарт MPEG предназначен для сжатия цифровых аудио и видео, причем допускает применение лицензированных алгоритмов.

MPEG часто сравнивают с H.261, сходным телекоммуникационным стандартом. Оба они имеют налет лицензированности, поэтому в долговременной перспективе потребуется анализ всех доводов за и против перед выбором стандарта для архивирования движущихся изображений.

5. AVI (Audio Video Interleave, чередование аудио и видео)

Спецификация AVI разработана Microsoft, поэтому поддержка встроена во все системы Microsoft Windows. Это помогло широкому распространению AVI, ставшему стандартом "де-факто" для сохранения аудио/видеоданных. Стандарт часто используется для коротких анимационных и видеоклипов, например для вывода на экране Проводника Windows "перелета" файлов между папками или "сбрасывания" их в Корзину.

6. PDF (Portable Document Format, формат переносимых документов) компании Adobe

Повсеместность PDF связана с долгим присутствием в отрасли и широким распространение бесплатной программы чтения Acrobat Reader. Как и TIFF, этот перемещаемый и расширяемый стандарт, широко используемый для электронного распространения документов по всему миру.

В стандарте сохраняются шрифты, форматирование, графика и цвета исходного документа вне зависимости от программы и платформы, на которой документ воспроизводится. Основное достоинство PDF - точная репродукция исходного документа на экране и при выводе на печать. Компания Adobe раскрыла формат PDF для сторонних разработчиков.

Сжатые монохромные копии TIFF и цветные LZW можно преобразовать в PDF разными способами: сохранить в графическом виде, распознать текстовую часть в программе OCR, либо формировать гибридный вариант с сохранением в графическом виде любой части документа (включая полностью текстовую). Последний вариант особенно популярен для архивного хранения документов, ведь исходную версию можно дополнить истинно текстовыми атрибутами (например, описанием или подписями), для которых сохраняется возможность текстового поиска.

7. RTF (Rich Text Format, расширенный текстовый формат)

RTF определяет метод кодирования форматированного текста и графики для переноса в другое приложение. Поддерживается в разных устройствах вывода, операционных средах и системах.

В RTF использована кодировка (набор символов) American National Standards Institute (ANSI), PC-8, Macintosh или IBM PC, которая также определяет форматирование за счет специальных символов.

8. HTML (HyperText Markup Language, язык разметки гипертекста)

Спецификация HTML определена комитетом ISO/IEC JTC 1 как подмножество стандартного обобщенного языка разметки SGML (Standard Generalised Markup Language), специфицированного в стандарте ISO 8879. Язык описания HTML широко используется в веб-приложениях, формируя каркас для переноса документов независимо от приложений и платформ.

9. XML (Extensible Markup Language, расширяемый язык разметки)

XML призван стать "чрезвычайно простым подмножеством SGML, разработанным для легкого обеспечения совместимости SGML и HTML". Основная цель заявлена так: "отвечать требованиям крупных поставщиков веб-содержимого в части промышленной спецификации для языка разметки, независимого от изготовителей обмена данными, независимых от носителя публикаций, прямого маркетинга, управления рабочими потоками и обработки веб-документов интеллектуальными клиентами (W3C XML)".

Хотя HTML определяет структуру и характеристики показа документа, язык XML специфицирует содержимое (контент) и структуру данных в документе. XML не зависит от платформы, а простота этого языка обеспечивает невысокие начальные затраты при обмене данными в сравнении с другим языком обмена документами - Electronic Data Interchange (EDI).

XML обеспечивает создание описаний типов документов DTD (document type definition). Участники обмена информацией, согласовывают индивидуальную общую схему DTD, либо используют отраслевые спецификации для таких схем.

Полная лента новостей NEWS.ITUNION.RU

Вы можете подписаться на ежедневную
бесплатную рассылку IT-новостей:
Email
 

....
  Site DESIGN by MIRRON (C) 2000-2001 Rambler's TOP100