DjVu - формат для создания радиолюбительских электронных библиотек
|
1.
Предисловие
За последние пять лет Интернет стал общепризнанным каналом распространения разнообразной текстовой и графической информации. Электронные газеты и журналы стали столь же обычными как и традиционные. Многие издания выходят в электронном виде раньше, чем на бумаге. Этому способствует повсеместное внедрение верстки на компьютере и использование формата PDF фирмы Adobe, ставшего стандартом "де-факто" для распространения электронных публикаций, в том числе и радиолюбительских - радиосхем, справочных таблиц и т.п.
Архивация графических файлов с возможностью последующей их пересылки по Сети используется как альтернатива PDF формату. Однако любая закачка архивных файлов графики, особенно технических - это кот в мешке. Прежде, чем этот файл можно просмотреть - его необходимо скачать! До разархивации файла нельзя наверняка сказать - это то, что было необходимо, или же это совершенно другой файл. Может не устроить качество изображения или полнота материала, не говоря уже об объеме и потраченном времени на скачивание.
Каждый, кому часто приходилось сканировать черно-белые схемы и пересылать их через Интернет, наверное, обращал внимание на относительно низкий коэффициент сжатия информации для файлов с подобными изображениями. И вот, наконец-таки эта проблема решена.
Новый графический формат DjVu (произносится "Дежавю"), разработанный фирмой AT&T, в первую очередь предназначен для размещения в Интернет отсканированных изображений. Это могут быть справочные книги, рукописи, принципиальные схемы телевизоров, радиоприемников, усилителей и других устройств.
Технологию DjVu обеспечивает для файлов с черно-белыми монохромными изображениями сжатие порядка 500:1. Выигрыш в размере файла по сравнению с форматом GIF составляет в среднем 20 раз. Суть технологии DjVu заключается в автоматическом разбиении изображения на несколько участков (например, текст, логотип фирмы и растровая фотография), для каждого из которых выбирается оптимальный для данного графического образа алгоритм сжатия. Право на коммерческое использование технологии DjVu продано компании LizardTech.
Новая технология сжатия позволит решить проблему публикации в Интернете радиосхем, чертежей, графиков, которые раньше имели слишком большое время загрузки. Для того чтобы иметь возможность просматривать радиосхемы в новом формате, необходимо установить специальный plug-in, который имеет размер немногим меньше девятисот килобайт. При этом сделан он очень интересно. Дело в том, что, в отличие от обычных программ-просмотрщиков, DjVu не расшифровывает сжатый файл полностью, а только ту его часть, которую в данный момент демонстрирует. Это позволяет просматривать файлы огромного размера и разрешения даже на очень слабых компьютерах.
Демонстрировать эти схемы plug-in может постепенно - по мере скачивания: в течение пары секунд можно полностью увидеть макет страницы, еще через пару секунд можно прочитать текст, а подождав еще чуть-чуть - появляются картинки.
Конечно, web-сервер и так имеет то же самое - сначала текст, потом постепенно картинки, но то, что мы увидим с помощью DjVu - это полностью графика, а не комбинация распознанного текста и картинок!
Формат DjVu позволяет быстро просмотреть материал в открытом виде, и уже потом решить, стоит ли его сохранять. Сразу можно оценить содержание материала, ограничившись просто его просмотром, не сохраняя файл на своем компьютере. Если учесть, что страница черно-белой графики с текстом формата А4 занимает в формате DjVu около 30 кб, а в цвете около 60 кб, то становится ясной экономия времени и денег.
Если же сравнить DjVu с популярным PDF форматом, то и здесь есть преимущества - обычно у пользователей установлен только Acrobat Reader. Загрузка файла для в Reader возможна только для просмотра, без его сохранения. Имеется возможность "сохранить объект как...", но просмотреть файл можно только после полного скачивания, что не очень удобно. В DjVu это совмещено - при использовании бесплатного plag-in'а (его размер -1.810 кБ) к броузеру http://www.lizardtech.com/ можно сначала посмотреть файл, а уже потом, щелкнув правой кнопкой мыши, сохранить его при надобности. Использование формата DjVu - это экономия при достаточном качестве.
Для примера приводим схему изменений в радиоле "Мир" по сравнению с радиоприемником "Мир" в формате DjVu. Статистика такова:
Экранный вариант этой схемы (150 dpi gray) - 32 кб;
Принтерный вариант этой схемы (600 dpi b/w) - 43 кб;
Схема в формате DjVu (300 dpi b/w) - 9 кб.
Достаточно объективная оценка качества по сравнению с уже известными форматами показывает, что незначительное ухудшение качества на цветных изображениях полностью окупается степенью сжатия, а на черно-белых изображениях вообще не заметно.
Возможные конкуренты в виде tiff, gif, jpg сильно проигрывают в объеме. Думается, что в ближайшие годы этот способ займет достойное место в Интернет. Радиолюбители могут смело его применять для пересылки схем, фотографий и всего прочего, при существенной экономии времени и денег.
Желающие скачать plag-in и другие программы для использования DjVu могут найти их по таким адресам:
http://dejavu.research/ - бесплатный plag-in - npdjv206.exe - 656 кб, бесплатный кодер/декодер под DOS - DJVU_SDK.exe 1,863 Мб;
http://www.feith.com/ - программа DjVuer PRO 1.6 (Win9x, есть и под другие платформы) - 2,371 Мб.
http://www.lizardtech.com/ -
бесплатный редактор-конвертор - DjVuSolo3.1-noncom.exe (Win9x),
бесплатный plag-in - DjVuWebBrowserPlugin_EN.exe (Win9x, поддерживает IE
6,0).
2. Электронная печать и традиционная полиграфия - AT&T DjVu
Корпорация AT&T продвигает идею "электронной бумаги" и разработала собственный формат хранения виртуальных документов - DjVu. В отличие от PDF, DjVu - формат чисто растровый, такой же, как и хорошо известные GIF и JPEG.
Как и JPEG, DjVu упаковывает графические данные с некоторой потерей информации, однако качество изображения при этом снижается не столь значительно, а показатель сжатия может составлять до 300:1. Компрессор DjVu отделяет текстовые области от полутоновой графики и применяет в первом случае алгоритм BZ2, ориентированный на двухуровневый сигнал, во втором - волновое преобразование (wavelet transform), хорошо подходящее для фотоизображений. Таким образом, DjVu перекрывает по показателям не только старый добрый JPEG, но и значительно более продвинутый формат WIF, разработанный фирмой Compression Engines.
В общем и целом DjVu - это великолепная технология хранения больших отсканированных изображений. Для создания архива или хранилища схем лучше DjVu, пожалуй, ничего и придумать нельзя. Правда, только в том случае, когда к сканируемому тексту невозможно или нецелесообразно применять алгоритмы распознавания. Впрочем, используя соответствующий софт из DjVu можно получать полноценное графическое изображение в формате, например, BMP и потом уже его распознать.
DjVu позиционируется как конкурент PDF и пропагандируется, к примеру, для публикации научных статей на WEB. В данном контексте технология DjVu работает гораздо хуже: невозможность скопировать хотя бы малый фрагмент текста сильно связывает руки читателю. Кроме того, качество отрисовки букв в DjVu заметно ниже, чем в PDF, а это быстро и сильно утомляет зрение и вновь вынуждает прибегать к печати.
Однако и это положение довольно спорное! Перекачав по Сети сравнительно небольшой файл в формате DjVu, его можно преобразовать в BMP, GIF, JPEG и нарезать из них, например в ADOBE PHOTOSHOP, столько графических фрагментов с текстом, сколько потребуется! Что же касается радиосхем, то, как правило, этого вообще не требуется. Схема рабдиолюбителю нужна целиком. Возможность просмотра в броузере на локальном диске (в том числе и на CD) вообще делает этот формат незаменимым для создания электронной библиотеки!
Теоретическая основа формата просто поражает. Чего стоит один метод вейвлетовых преобразований для сжатия графики или разделение картинок на слои для уменьшения размеров файла. Из-за прогрессивных возможностей сжатия данных и онлайнового декодирования содержимого многие аналитики прогнозируют, что в будущем данная технология заменит HTML (пока он лишь plag-in, надстройка). Теоретически сайт на базе Djvu будет намного меньше сегодняшних аналогов, даже если те используют только форматированный текст, лишенный графики.
Данный формат незаменим для публикации огромных пакетов документации в Интернете или хранения информации на домашнем винчестере. Он является также прекрасным решением для публикации Интернет-журналов. Особенно хорош этот формат для радиолюбителей!
3. Архиватор
Интернет
Идея переноса документов из книг и журналов на просторы Сети не так уж нова. Но задумайтесь, сколько занимает отсканированный документ, сохраненный в формате TIFF (этот формат не искажает графические данные и передает их с достоверной точностью). В среднем файл с качеством порядка 300 dpi может занимать до 25-30 Мб. Если сканировать с меньшим качеством, т.е. примерно в 100 dpi, то теряется наглядность. Так что TIFF отпадает, как носитель информации он неэкономичен.
Поэтому самым распространенным форматом сохранения растровых данных в Интернете стал JPEG. Этот формат позволяет достаточно прогрессивно сжимать данные. Сравните: 25 Мб у TIFF и 600 кб JPEG. Такой размер более или менее подходит для транспортировки по Сети в условиях хорошего и стабильного коннекта. Единственная проблема: удерживание приемлемого качества изображения - система компрессии данных приводит к потере информации, которую считает "лишней". Мы видим ужасные искажения, резкие цветовые переходы размыты, о первоначальном качестве можно забыть - JPEG отпадает как формат для сохранения документации в Сети.
Многие пророчили большое будущее детищу Adobe под названием PDF. В настоящее время большинство компаний выкладывает документацию о своих продуктах именно в этом формате. Успеху способствует использование объектов ActiveX, позволяющих запускать Acrobat Reader прямо в окне Internet Explorer. К сожалению, PDF также излишне прожорлив: средний размер файла зачастую превышает 100 кб.
Менее признанным, а значит, менее популярным
является формат сжатия данных для факсимильных аппаратов. Он позволяет неплохо
сжимать данные, хотя и с заметными потерями в качестве. Правда, от факсов
никогда не требовалось идеального совпадения с оригиналом.
Исходя из
вышеперечисленных факторов, компания AT&T решила создать нечто новое,
способное произвести революцию на ниве публикации в Интернете. Так, был создан
формат DjVu, сжимающий информацию в восемь раз эффективнее, чем JPEG. Качество
же картинки почти не изменяется. Цветная страница из журнала, отсканированная
при 300 dpi, имеет размер всего 20-79 кб. Черно-белое изображение может вообще
опуститься до планки в 10 кб. Безусловно, на настоящий момент DjVu является
самым совершенным компрессионным форматом.
Основная идея формата, вокруг которой и нарастали остальные возможности, зиждется на том понятии, что текст и картинки не являются равнозначными составляющими документа. Для текста существует большое количество компрессионных методов, причем процент сжатия информация довольно велик. Но, к сожалению, данные методы не могут архивировать графику.
В DjVu применяется специальная технология, отделяющая от сканированного образа весь текст и сжимающая его, сохраняя первоначальное качество. Картинки же переводятся в 100 dpi и подвергаются сжатию по технике вейвлетов (очень популярный ныне метод, использующийся для он-лайновой декомпрессии данных). Дополнительно происходит обработка фоновых частей образа - так удается исключить из конечного файла фрагменты изображения, которые просто не видны (к примеру, стоят за картинками или за текстом).
Каждая картинка поддается некоторым преобразованиям, призванным сократить размер файла. Прежде всего, она разделяется на несколько слоев, из которых можно затем ее реконструировать. А чаще всего деление происходит на подложку, маску и передний план. Для этого используется довольно простой алгоритм: растровый файл просматривается пиксель за пикселем. Все светлые точки автоматически причисляются к фону, темные - к маске или переднему плану. Все пиксели, выводимые на экран, получают цвет на базе логических вычислений, построенных на значениях соответствующих цветов из всех слоев. Такое разделение помогает наиболее эффективно сжимать графику. Маска, имеющая обычно всего один цвет, архивируется по методу сжатия документов факсимильных аппаратов, называемому JB2. Идея такого разделения не нова, впервые ее предложила корпорация Xerox, использующая подобный подход при создании формата XIFF.
Уникальной особенностью формата DjVu является чрезвычайная компактность при хранении изображений в высоком разрешении (300 dpi и выше). На одной дискете можно разместить до двадцати страниц пригодных для распечатывания на лазерном принтере. Кроме того, этот формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать еще до завершения скачивания. Таким образом DjVu является уникальным инструментом для открытия Интернет-доступа к радиолюбительским материалам, в первую очередь радиосхемам и справочникам.
Отдельно следует упомянуть законность публикации на сайте отсканированного текста. Скорее всего, юридическое решение проблемы еще является делом будущего.
4. DjVu - основные
достоинства
В основе формата DjVu лежат несколько технологий разработанных в AT&T Labs. Это: алгоритм отделения текста от фона на отсканированном изображении, вейвлетный алгоритм сжатия фона IW44, мощный алгоритм сжатия черно-белых изображений JB2, эффективный универсальный алгоритм сжатия ZP, алгоритм распаковки "по запросу", алгоритм "маскировки" изображений. Первые четыре алгоритма обеспечивают чрезвычайно высокую степень сжатия. Типичным является преобразование TIFF файла размером 25 Мб (формат А4 отсканированный на цветном сканере 300 dpi) в DjVu файл размером 80 кб, без видимой на глаз потери качества. Для черно-белого изображения, размер DjVu файла может получиться еще меньше - примерно 30 кб. Возможно дальнейшее повышение коэффициента сжатия, вплоть до отношения 1000:1, правда потеря качества становится довольно заметной. Таким образом, на стандартную дискету 1,44 Мб можно разместить 15-20 изображений высокого качества. Дополнительно заметим, что искажения вносимые вейвлетным сжатием существенно менее заметны по сравнению с искажениями в JPEG файлах.
Алгоритмы распаковки позволяют показать часть изображения, не разворачивая всю картинку в оперативной памяти, а также легко масштабировать изображение. Это позволяет быстро просмотреть файл даже на относительно слабой машине - компьютер с процессором 486 и 16 Мб ОЗУ. Еще одной интересной особенностью алгоритмов распаковки является инкрементальное восстановление изображения. При просмотре через Интернет вначале выводится только текст, затем фон в низком разрешении и только потом фон в высоком разрешении. Это позволяет быстро оценить документ, не скачивая его полностью.
Отделение текста от фона чрезвычайно повышает его разборчивость, особенно, если текст напечатан на цветной бумаге или расположен поверх рисунка. Возможен и отдельный просмотр фона, причем алгоритм "маскировки" восстанавливает те части фона, которые были закрыты текстом.
Изображения не содержащие текста могут быть преобразованы в формат IW4, который соответствует части формата DjVu ответственной за хранение фона.
В начале 1999 года фирма AT&T объявила о дальнейшем развитии формата - DjVu 2.0. В новой версии предусмотрено объединение нескольких изображений в один файл, с возможностью "перелистывания" страниц, а также нанесения на изображение так называемых "горячих точек", участков изображения служащих гиперссылками.
Тем, кого пока не удовлетворяет формат DjVu как таковой, можно порекомендовать набраться терпения и "скачивать" оригинальное изображение, хотя вряд ли это целесообразно. Но из уважения к приверженцам традиционных методов, на нашем сайте будут присутствовать материалы в двух форматах (GIF и DjVu), за исключением тех случаев, когда исходный файл уже был в формате DjVu. При наличии соответствующего софта всегда имеется возможность "разжать" DjVu в стандартные графические форматы (BMP, например), однако, полученные файлы будут занимать объем до 30-40 Мб.
5. DjVu -
использование
Следует помнить, что алгоритмы заложенные в DjVu оптимизированы для изображений отсканированных с высоким разрешением. Если у вас есть картинка 320x200 или 800x600 то вас вполне удовлетворит JPEG или GIF. Оптимальными для сжатия DjVu являются картинки отсканированные на 300 dpi и выше. Для рисунков отсканированных на 100-200 dpi предусмотрен режим предварительного растягивания со сглаживанием для повышения качества результирующего изображения. Также необходимо заметить, что процесс сжатия, в противоположность к воспроизведению, достаточно критичен к свободной оперативной памяти. 32 Мб ОЗУ это минимум необходимый для работы. Фирменные руководства рекомендуют 64 Мб.
6. DjVu - доступность
программ
Для того, чтобы воспользоваться преимуществами нового формата необходимо иметь две вещи: утилиту сжатия для издателя и утилиту просмотра для читателя.
Как принято в последние годы, утилиты просмотра DjVu распространяются совершенно бесплатно. Для тех, кто использует Windows 95/98/NT, предлагается два продукта:
Plag-in для веб-броузеров распространяемый фирмой AT&T. Данный plag-in совместим с Microsoft IE вер. 4.0 и выше, Netscape Navigator вер. 4.0 и выше и Opera вер. 3.26 и выше. Инсталляционный файл называется npdjvu.exe и имеет размер примерно 600 кб.
Программа DjVuer для работы с DjVu файлами от фирмы Feith Systems and Software Inc. Инсталляционный файл называется DjVuerin.exe и имеет размер примерно 2.5 Мб.
7. DjVu - инсталляция
программы просмотра в Windows-95/98
Для инсталляции DjVu plag-in для веб броузера в Windows-95/98/NT необходимо скачать и запустить файл npdjvu.exe Программа инсталлятор проводит поиск известных ей броузеров по всем дискам компьютера. После завершения поиска выдается список всех обнаруженных броузеров и предлагается выбрать к каким из них нужно доустановить DjVu plag-in. Перед завершением инсталляции необходимо закрыть выбранные броузеры для гарантии корректной установки. Надо перезагрузиться. По завершении установки можно сходить на http://djvu.att.com/ и посмотреть небольшую электронную библиотеку в формате DjVu.
После загрузки Djvu-сайта стартует plag-in.
Внешне он очень похож на Acrobat Reader, сходство касается даже рисунков на
кнопках. В самом начале панели находятся меню выбора типа вывода - можно
выводить текст только черно-белым или только фон; следующее меню отвечает за
размер документа на экране. Рядом расположены кнопки Zoom In, Zoom Out, затем -
панель контроллера, управляющего переключением между страницами и перемоткой
взад и вперед (т.е. от корешка до корешка).
Скроллинг осуществляется
"ладошкой". При этом страница не мигает - двигаться по документу легко и удобно.
При увеличении картинки качество почти не страдает, особенно если дело касается
текста. Графические изображения внутри документа могут быть довольно большими,
но благодаря системам сжатия занимают относительно мало места. Правда, качество
может заметно страдать.
В целом впечатления от нового формата самые хорошие, особенно, учитывая быстроту загрузки. К сожалению, функции сохранения текста из документа нет, возможна лишь одна операция - чтение. Не существует и функции копирования в буфер обмена. Зато можно сохранить картинку в файл и распознать ее программой для распознавания символов (OCR), чтобы затем прочесть текст в Word.
Возможно, это один из немногих недостатков формата DjVu, который, однако, не умаляет его достоинств.
Plag-in управляется и настраивается через контекстное меню. Первые пункты отвечают исключительно за вывод изображения и за навигацию по документу. Save as сохраняет файл на диске (он имеет расширение djv или djvu). Print - печатает. Page Information выводит окошко с ключевыми параметрами файла: размер фона, маски, верхних слоев, а также текста, последнее значение таблицы указывает величину диапазона сжатия данных. Основные опции программы настраиваются через пункт Preferences. Правда, параметров достаточно мало, среди них яркость картинки, горячая клавиша для вывода гиперссылок, размер буфера декодирования (полезен для слабых машин).
Мы хотим отметить огромный вклад в
популяризацию этого формата Николая Сухова - главного редактора журнала
"Радиохобби" (http://radiohobby.da.ru/),
с легкой руки которого файлы формата DjVu стали разлетаться по русскоязычному
Интернету, а также Игоря (UN7GM) un7gm@qsl.net, чьи "Комментарии к
формату DjVu" мы использовали при подготовке этого материала.
С разрешения администрации "СКР" мы публикуем статью:
Что такое DJVU и как с ним бороться :-)?
С оригиналом можно ознакомиться по адресу - http://www.cqham.ru/djvu_print.htm
Что такое DJVU и как с ним бороться :-)?
Вторая редакция - январь 2003 г.
Поскольку с
момента написания первого варианта многое изменилось, по просьбам пользователей
статья адаптируется под настоящий момент. К тому же, отдельные вебмастера,
считающие, что все, находящееся в Интернете или размещенное на пиратских CD,
может быть использовано на их вебсайтах без всякого зазрения совести, начали
размещать эту статью не ставя об этом в известность ни вебмастера СКР, ни меня
самого. Не стоит так делать, никто не собирается ложиться животом на материалы
СКР и кричать "Не дам!", но элементарная порядочность говорит о необходимости
хотя бы спросить формальное разрешение на публикацию у автора или просто сделать
ссылку на СКР, без перетаскивания материалов к себе на сайт.
Дежавю,
применительно к компьютерам, представляет собой новый графический формат, весьма
экономичный. Как и что в нем устроено, вы можете подробно ознакомиться в
нескольких статьях, размещенных на странице Ликбез по DjVu. Там же
можно понять, почему djvu активно используют на сайте СКР, в первую очередь
из-за небольшого объема и хорошего качества файлов. В мою задачу не входит его
реклама или критика, а критика, желательно аргументированная и не переходящая на
персоны, будет от вас самих, что уже было, но крайне редко, а в настоящее время
уже не встречается.
Аргументом критиков служит приблизительно такое
утверждение: "Мои знакомые попробовали и сказали что это SUXX, лучше бы вы
пользовались более привычными форматами, вот ... это RULEZZ!". Особенно упирают
на популярный jpg, в этом случае можно сказать только одно - авторы этих писем
никогда не занимались созданием черно-белых графических файлов, куда девать
"артефакты" после такой операции с jpg? Я мог бы привести таблицу размеров
различных форматов файлов для одного и того же изображения, но в этом нет
большой необходимости, жизнь уже взяла свое и djvu стал использоваться шире, чем
несколько лет назад. Многие сайты, не имеющие отношения к радио и графике,
начали публиковать статьи по djvu и выкладывать материалы в этом
формате.
Если интересно, то наберите в Google или другом поисковике одно
слово "djvu" и читайте только ссылки на русскоязычные ресурсы Интернета, станет
ясным растущая популярность этого формата..
Никто никогда не утверждал,
что djvu - это альтернатива всем существующим графическим форматам, отнюдь! Но в
области создания и хранения черно-белой, полутоновой и отчасти цветной
документации, пока ему нет равных. В первую очередь это касается отсканированных
бумажных документов или как модно говорить, носителей. Системы OCR, то есть
распознавания текста, конечно, замечательные вещи, но пока они еще не настолько
интеллектуальны, чтобы суметь распознать много страниц без единой ошибки,
различить, где рисунки, где текст, а где надписи на рисунках. Я сам достаточно
много работаю с FineReader 6, как одной из самых лучших программ для этой цели и
хорошо знаю его достоинства и недостатки. Поверьте мне - чем тратить уйму
времени на правку распознанного текста, во многих случаях проще отсканировать
эту же страницу с хорошим качеством, не ниже 300 dpi и сохранить ее как файл
djvu. Результат будет один и тот же, если не иметь в виду редактирование текста
и изображений, но затраты времени будут неизмеримо меньше, при сопоставимом
объеме файлов. Под результатом имеется в виду получение информации о том, что
напечатано на бумаге, ведь это главная цель при такой задаче.
Давайте
рассмотрим имеющиеся на сегодняшний день программы, при помощи которых можно
смотреть, создавать и конвертировать файлы djvu.
Первые программы от
творца этого формата, всемирно известной фирмы AT&T, были консольные, что
отнюдь не вдохновляло, поскольку работать было попросту неудобно. Но это было
несколько лет назад, с тех пор утекло много воды, а права на коммерческое
использование djvu были проданы Lizard Tech. Нельзя сказать, чтобы после покупки
прав на djvu, появились небывало удобные и быстрые кодировщики и конвертеры, но
по крайней мере, работа в этом направлении идет, хотя исчезновение DjVu Solo 3.1
с сайта Лизарда непонятно, взамен ничего не появилось. Либо они обрадуют мир
кое-чем новеньким, желательно бесплатным, либо…? Ладно, не будем гадать, поживем
- увидим.
Чтобы не лишать народ бесплатного кодера djvu и для создания
многостраничных файлов, мой знакомый программист быстренько слепил на скорую
руку GUI для djvu кодера и для многостраничника, работать стало намного удобнее,
качество файлов, несмотря на то, что исходная программа была написана несколько
лет назад, весьма хорошее, нужно только правильно прописать параметры в
командной строке интерфейса.
Проблемы, связанные с истекшей лицензией
устранены, за это большое спасибо никогда не отказывающему в помощи AmaTeuR-у.
В пользу популярности djvu можно привести пример известных вьюеров, типа
ACDSee (3,4,5), XNView, IrfanView и других, к которым имеются djvu плагины. Для
первых двух софтов они несколько кривоватые, имеется в виду, что изображение при
просмотре выглядит как отсканированное с очень низким разрешением, хотя на самом
деле это не так, djvu плагин к Ирфану был доработан и смотрится несравненно
быстрее и приличнее. Мало того, в последней версии IrfanView 3.80 есть
возможность смотреть многостраничные файлы djvu, правда, только первую страницу,
но тоже прогресс. При переписке с автором, то есть, самим Ирфаном, я посетовал
на отсутствие поддержки многостраничности и невозможности создавать файлы djvu,
на что автор ответил, что подумает на эту тему.
Появился новый
бесплатный вьюер SlowView (http://www.slowview.at/), в котором есть
плагин кодера и декодера djvu, но увы, многостраничные файлы он тоже не
поддерживает, а кодер, скорее, способен дискредитировать саму идею, ибо файл
получается больше оригинала, надо бы попробовать пообщаться с ним на эту тему.
Русификация ко всем указанным выше вьюерам есть.
Основным инструментом
для просмотра djvu можно считать плагин к Internet Explorer-у, лежащему на сайте
самого Лизарда - http://www.lizardtech.com/. Работает он
прекрасно, поддерживает многостраничные файлы, чего никто из упомянутых выше
софтов не может. Существенно то, что плагин может разделить многостраничный файл
на составные части, это бывает нужно при конвертации в другие форматы, например
для распознавания текста и его перевода на другой язык. После загрузки
многостраничного файла нужно щелкнуть мышкой на "Save" и при сохранении выбрать
"Indirect". Конвертировать djvu файлы можно только в bmp, но этого более, чем
достаточно в большинстве случаев. Есть два варианта по установке плагина -
скачать дистрибутив или установить плагин прямо в онлайне. Об этом я расскажу в
самом конце статьи.
Имеются плагины к другим браузерам и под другие ОС,
но поскольку я пользуюсь только Win98/IE6SR1, то ничего про них сказать не могу.
Из программ, которые могут создавать и просматривать djvu, следует упомянуть
DjVuer (несколько версий) от фирмы Feith - http://www.feith.com/. Он работает лучше всех
остальных, но имеющиеся версии не поддерживают многостраничные файлы, что не
может не вызвать удивления, причем это же неумение сохранилось и по сей день!.
Последняя, опробованная мной версия - DjVuer PRO 2.04, хотя на сайте указана
1.7. Второй недостаток этого софта - неумение работать с большими файлами, при
размере в десятки мегабайт DjVuer долго шуршит винтом, а потом, не говоря худого
слова, прекращает работу. Если же исходные файлы имеют умеренный размер, то
проблем не возникает. В плюс можно поставить возможность групповой или пакетной
(batch) конвертации, что позволяет обработать сразу много файлов, но бывают и
вылеты при очень большом (несколько сотен) количестве файлов.
Занятный
факт - когда я опробовал GUI для старого AT&T кодера, то выяснилось, что
кодер работает быстрее и безглючнее всех остальных, куда более новых программ,
вроде бы они должны базироваться именно на этом кодере, но разница заметная,
особенно на DjVu Solo. Файл с полноцветным bmp при 600 dpi, размером в 200 Мб
был сконверчен в djvu размером 700 кил с хвостом за 6 минут на не самом
современном компе.
В защиту DjVuer-а можно сказать, что вторая по счету
разработка самой LizardTech под названием DjVu Solo не может и этого, большие
файлы ей явно противопоказаны, но зато она может создавать многостраничные файлы
и делать гиперссылки, что безусловно удобно, учтите только, что добавлять
страницы в пакет нужно с ПОСЛЕДНЕЙ, это уже ляп разработчиков, впрочем запомнить
эту особенность нетрудно. Судя по консольному многостраничнику, для которого
тоже есть GUI, ляп был заложен в незапамятные времена, поскольку эта особенность
присутствует и в консоли. Работает DjVu Solo в остальном неплохо, остается
надеяться, что ее создатели устранят имеющиеся недостатки в этой бесплатной
программе, хотя, судя по исчезновению ее с сайта Лизарда, как уже указано выше,
вряд ли ее будут дорабатывать. Коммерческая версия позволяет использовать
распознавание графического текста, но это не есть проблема и без ее покупки,
поскольку для такой задачи хорошо подходит IrfanView, которым можно отконвертить
djvu файлы, кроме многостраничных, в любой другой формат для OCR, например tiff
или bmp. Поскольку преимущества djvu сказываются именно на графических файлах,
созданных с большим разрешением, то есть 300-600 dpi, то проблемы при
распознавании конвертированного файла не возникает, по крайней мере у меня все
проходит гладко и ошибок из-за конвертации практически нет.
Для
конвертации pdf в djvu подходит пакет GhostScript + GhostView - http://www.cs.wisc.edu/, который позволяет
преобразовать pdf в самые различные форматы, например в bmp с разрешением 600
dpi. Файл djvu после такой операции получается прекрасного качества, но раз в
пять меньше оригинала. Кстати, для работы с pdf упомянутый пакет очень удобен и
полезен, поскольку другие софты сложны и объемны. Но последний Акробат
5(полный), несмотря на свою объемность, очень хорошо конвертит pdf в tif и
работает лучше, чем предыдущая версия.
Вторая возможность конвертации, и
не только для pdf, это FinePrint - http://www.fineprint.com/, при просмотре
страницы перед печатью достаточно щелкнуть правой мышкой, появляется меню с
экспортом изображения в bmp через клипборд. Очень хорошо для этого подходит
IrfanView, штатный Paint страшно тормозит, а PhotoShop выдавал вообще непонятную
картину, впрочем, возможно, я не разобрался до конца в этой операции. Есть еще
несколько виртуальных принтеров, ознакомиться с советами по сканированию и
созданию графических файлов можно на сайте СКР.
Советы по подготовке материалов в электронном и бумажном виде.
Теперь об установке плагина для IE. У меня
стоит Windows 98PE, оказалось, что после инсталляции плагина, которая проходит
несколько странно - не выдается окно настройки, файлы djvu отказываются
открываться, хотя в типах файлов все прописано верно, при Windows 98SE такого
вроде не было. После некоторых мучений было принято решение установить плагин в
онлайне, прямо с сайта Лизарда и тогда все пошло как по маслу. Разница оказалась
в разных папках размещения плагина после инсталляции, с чем это связано, сказать
трудно, может быть старая версия Виндов, может быть еще что то. При неверной
инсталляции, папка плагина размещалась в папке самого IE, а при правильной - в
отдельной папке LizardTech - DjVuControl.
Итак, подведем некоторые итоги
djvu-шного софта:
Просмотр любых файлов djvu:
- плагин к IE, DjVu
Solo.
Просмотр одностраничных файлов:
- IrfanView, DjVuer(Feith) -
хорошее качество;
- XN View, ACDSee - неважное качество;
- SlowView -
свои огромные djvu медленно, остальные - плохо.
Распаковка
многостраничных файлов;
- плагин к IE, DjVu Solo.
Создание
одностраничных файлов djvu:
- DjVuer (Feith), DjVu Solo, кодер от
AT&T;
- SlowView - пока пародия на создание, djvu файл больше
исходника.
Создание многостраничных файлов:
- DjVu Solo с
гиперссылками;
- многостраничник от AT&T , только конвертация, без
гиперссылок;
Конвертация djvu в другие форматы:
- плагин к IE (только
bmp);
- IrfanView;
- DjVuer от Feith (bmp, jpg, pnm);
- DjVu Solo
(только bmp);
- виртуальные принтеры FinePrint, SuperPrint, ePrint,
pdfFactory и другие.
Восстановление текста для перевода после
конвертации djvu в bmp, tif etc:
- FineReader - http://www.abbyy.ru/
- CuneiForm - http://www.cuneiform.ru/ и
другие.
Распечатка в большом масштабе после конвертации djvu:
-
Teulat, поддерживаются файлы ps, tif, jpg - http://www.femfum.com/
- плагин к Акробату
5 (полному) CrackerJack 4.1, поддерживается pdf - http://www.lantanarips.com/
Печать djvu - категорически и настоятельно рекомендую применять
FinePrint - http://www.fineprint.com/,
особенно для многостраничных файлов, это поможет избежать многих ошибок при
печати и сэкономит вам время и бумагу.
Если были найдены другие
программы для работы с файлами djvu, сообщите, пожалуйста, об этом вебмастеру,
мы будем признательны за информацию.
В настоящей статье не рассматривается
применение DjVuJoin, поскольку надобности в нем пока не возникало. На сайтах,
посвященных djvu есть упоминания о новых коммерческих программах, но увы, они не
доступны для скачивания и тестирования.
В конце концов, если вам этот
формат настолько не по сердцу и вас начинает бить нервная дрожь при одном только
упоминании djvu - нет проблем! Я даже не буду советовать искать аналогичные не
djvu-шные материалы на "более других" сайтах, а предложу компромиссное решение,
сохраняющее овец при насыщении волков. Считайте djvu не графикой, а новым
архивным форматом с возможностью предварительного просмотра. Никто вам не мешает
после закачки файла djvu отконвертить его в услаждающий ваше сердце, родной с
детства и радующий глаз bmp, jpg, tif, gif, pdf или другой, вам еще более милый,
формат. Если исходный файл был с разрешением 300-600 dpi и был правильно
отсканирован и сконверчен в djvu, то никаких неудобств вы не испытаете, чего
нельзя сказать о черно-белых файлах, изувеченных jpg-ом или цветным
gif-ом.
Программы для создания многостраничных файлов djvu:
DjVu Solo 3.1 (1.9mb) Создание многостраничных файлов с гиперссылками
1. Скопировать файл DJVU.ini в папку
WINDOWS
2. Создать папку C:/DJVU, скопировать в нее остальные файлы.
3.
Запустить TASKER.exe и указать путь к файлу DjVuEncode.exe
4. Прописать в
командной строке необходимые параметры, например: -b -d300 -1 -l -q100, можно
сохранить их в файл xxx.par для дальнейшего использования при смене параметров
конвертации файлов - черно-белые, полутона, цветные.
5. Указать расширение
выходных файлов djvu
6. Нажать Start и выделить файлы для конвертирования,
которые ДОЛЖНЫ быть в папке C:/DJVU, нажать Открыть. Видимость задачи можно не
задействовать. В нижней строке таскера будет виден процесс конвертирования,
когда Осталось будет равно 0, то процесс закончен. Если возникли проблемы, то
скачайте новый файл DjvuEncode.exe и
замените имеющийся.
Выяснилось, что ACDsee 4.0.2 создает какие то странные tif-ы, они не конвертируются в djvu, после открытия Ирфаном и сохранения в тот же формат повторная операция проходит без проблем.
1. Создать папку C:/DJVU_BUN, скопировать в нее
остальные файлы.
2. Запустить TASKER.exe и указать путь к файлу
DjVuBundle.exe
3. Прописать в командной строке необходимые параметры, только
если это нужно, обычно ничего не указывается.
4. Указать имя и расширение
выходного файла, например 123.djvu
5. Нажать Start и выделить файлы для
конвертирования, начиная с ПОСЛЕДНЕГО, тогда он будет ПЕРВЫМ в многостраничном
файле. Файлы для конвертации ДОЛЖНЫ быть в папке C:/DJVU_BUN.
6. Нажать
Открыть. Видимость задачи можно задействовать для индикации, когда окно
закроется, то процесс закончен.
Советы по подготовке материалов в электронном и бумажном виде.
Как распечатать большой графический файл.
Про эту проблему знают все, а вот ее решение
известно, увы, немногим. Сам много раз просил совета у разных людей, но ничего
внятного и практически пригодного для работы не подсказали. Советы были такие -
использовать Эксел. Сказано - сделано, действительно Эксел вроде может такую
штуку, за дело взялся человек, очень прилично знающий эту программу. Файл был
загружен в Эксел, поделен на листы и отправлен на печать. Эксел проделал все
операции с радостой улыбкой идиота, постоянно кивая головой и... выдал только
первый лист с изображением, остальные были пустые, как голова с похмелья. Все
попытки уговорить его на этот подвиг в полном объеме успеха не имели, кому
удалось - делитесь, это еще Христос велел :-), но при дележке распишите
последовательность действий, чтобы понял даже не очень сведущий человек, уровень
подготовки посетителей СКР самый разный.
Второй совет был уже покруче -
использовать Короля дров, то бишь Corel Draw достаточно высокой версии. Оный
софт был установлен (к счастью не не моей машине!), но его объем и сложность
освоения совершенно ненужной мне для других целей программы, свели на нет все
усилия, а искомый результат так и не был достигнут, может руки кривые, а может
еще что...
Надеюсь, что предложение использовать для подобной цели разного
рода грабилки экрана, может рассматриваться только как проявление юмора. Для
маленькой схемы это еще туда-сюда, а для большой будет оцениваться только как
разновидность мазохизма.
Но это все присказка, а сказка вот какая. Печатать
увеличенное изображение в растре вряд ли целесообразно по понятным причинам, из
векторных наибольшую популярность имеет pdf, он стал практически стандартом для
разного рода документации, поэтому именно ему и было уделено внимание в первую
очередь. Были просмотрены почти все возможные программы и плагины для Акробата,
кстати, рекомендую переходить на 5-ю версию, она значительно лучше и
возможностей больше, чем у предшественников.
Выбор остановился на двух
софтах - плагин с забавным названием CrackerJack от Lantana --
http://www.lantanarips.com, для его работы нужен полный Акробат (не Ридер!), а
при его установке не забудьте поставить Акробат Дистиллер из пакета полного
Акробата, иначе ничего не получится. Для длительной и бесперебойной работы
плагина нужно сами знаете что и сами знаете где :-), а кто не догадался где,
обращайтесь мылом. Все достаточно просто - не забудьте только поставить крыжик
на печать в файл в меню Target, иначе можете испортить кучу бумаги. Самое нужно
находится в меню Media - выбрать формат А4(если только у вас не более
навороченный принтер А3, не говоря о больших форматах, тогда зачем вам эта
метода?), подобрать нужную ориентацию листа при печати для более удобного
расположения изображения, поставить крыжик на Tile Output, это и есть то самое
деление всего изображения на куски выбранного формата, ну и не забыть про
Overlap, то есть запас на нахлест при склейке, 10мм обычно хватает за глаза. В
меню Options выбирается масштаб, это уже по ситуации, а меню Marks позволяет
напечатать ориентиры на каждом листе. В новой, 4-й версии есть неплохой
предпросмотр файла, поэтому можно поиграть масштабом, чтобы на искомом
количестве листов получилось максимально большое изображение. Смена дюймов на
миллиметры сидит в Акробате - Edit - Preferences - CrackerJack 4.
Мой
настоятельный совет - не торопиться, иначе будет изведено без толку масса
бумаги, а на мою голову обрушатся проклятия за идиотские советы читателям.
Поэтому после создания pdf файла нажмите Page Setup в Акробате и убедитесь, что
выбрана нужная ориентация листа и его формат. Если была выбрана книжная
ориентация листа в Теулате или CrackerJack-е, то и на печать отправляйте такую
же, а при альбомной - альбомную, иначе сломаете голову при попытке состыковать
лист с листом.
Не пожалейте времени, не отправляйте файл сразу на
принтер, а сначала пропустите его через
FinePrint - http://www.fineprint.com/, это поможет
избежать расхода бумаги, тонера и сэкономит ресурс принтера. И только после
того, как убедитесь что все именно так как нужно, можно нажимать кнопку Print.
Вторая софтина, уже автономная, не плагин, но тоже нуждающаяся в
Дистиллере, была найдена на сайте по pdf софтам от других производителей,
называется она Tеулат и позволяет работать с файлами ps, jpg и tif, что довольно
удобно. Триальная версия будет лепить лэйбаки "Демо" на каждом листе, но
ограничений по времени использования не имеет. Лежит эта полезность на http://www.femfum.com/bin/iteulat.zip,
недостатки - небольшая сырость в плане эргономики и полное отсутствие хелпа,
хотя там есть некоторые неясные моменты, разберемся со временем и надеюсь, вашей
помощью. После инсталла нужно прописать пути к Акробату и Дистиллеру в
конфигурации, больше никаких проблем с установкой нет, если при запуске Теулата
выскочит ошибка с текстом на непонятном языке, то не паникуйте, а перегрузите
комп. Х2Y2 - это размеры самого файла, что такое X1Y1 и почему они бывают с
минусом, я пока не понял, кто дойдет - поделитесь. Формат выходного файла
выбирается Teulat, для чего нужен PPD, я тоже не знаю. Overlap - то же самое,
что и описано выше, то есть запас на нахлест, после определения масштаба нужно
нажать кнопку Calculate, после этого софт выдаст результат о необходимом
количестве листов выбранного формата. Вот только не всегда выбирается их
минимально необходимое количество, бывает, что целый ряд, а то и два, пустые,
это легко исправляется в Акробате при просмотре перед печатью, просто удалите
пустые листы. На каждом листе печается его ряд и колонка, чтобы легче
ориентироваться при склейке большого количества листов, первый лист с общим
видом раскладки печатать не стоит. Рекомендации по поводу применения ФайнПринта
остаются в силе. Остальное особых комментариев не требует, софт достаточно
простой и безальтернативный, разве что вы сами подскажете лучший вариант, ну а
пока обойдемся и тем, что есть. "Лекарство" уже имеется, за что большущая
благодарность AmaTeuR-у, если понадобится - пишите мылом.
Теперь самый
больной вопрос - а что делать со столь любимыми мной файлами djvu? Ответ простой
- теперь можно их печатать в любом масштабе при помощи Теулата после конвертации
в tif или pdf через pdfFactory (http://www.fineprint.com/) и CrackerJack, а
также через другие виртуальные принтеры, eРrint (http://www.leadtools.com/) имеет 140
выходных форматов!
P.S. Все вышеописанное было проверено мной лично и
особых проблем не вызвало, за исключением непонятных файлов pdf, созданных в
последнее время сынами Страны восходящего солнца, то есть японцами. Что они с
ними делали - вопрос всех времен и народов, но эти файлы открываются только в
Акробате, а GhostScript выдает ошибку, хотя на всех других pdf файлах работает
как часы. То ли японских фонтов насовали, то ли еще что, но пришлось повозиться
для достижения искомого результата, который тем не менее, был достигнут. Так что
и это не есть проблема, было бы желание...
С уважением, Игорь (UN7GM).
un7gm@qsl.net
Дополнительные сведения о DjVu формате
Информация с сайта "Библиотеки DjVu"
DjVu - графический формат, оптимизированный для хранения отсканированных документов. В частности он идеально подходит для создания электронных книг. Существует два традиционных способа хранения отсканированной книги: для энтузиастов это распознование (OCR) с последующей подготовкой полноценного текстового электронного документа, менее терпеливые люди выкладывают непосредственно "сканы" - отсканированные картинки, часто собранные в pdf документ. В первом случае требуется чертова прорва работы, во втором получаются файлы размером в десятки и даже сотни мегабайт.
Отныне существует компромисный вариант - перевод отсканированных картинок в формат DjVu (дежа-вю). При этом текст и контрастные рисунки сохраняются с разрешением 300dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читаемости. Размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что вполне приемлемо.
Особое значение этот формат приобретает для переноса в сеть математической и вообще технической литератуы, где обилие схем и формул делает распознавание и перевод в текстовый формат практически невыполнимым. В настоящее время DjVu становится фактическим стандартом для электронных библиотек технической и научной литературы. Файлы с расширением DjVu, я надеюсь, скоро перестанут быть экзотикой на просторах сети.
Программы для работы с форматом DjVu
Немаловажным обстоятельством для популяризации формата является доступность програмного обеспечения для работы с ним.
DjVu Browser plugin 4.1 [4.14Mb] - Разработанный фирмой LizardTech, свободно распространяемый плагин для просмотра файлов формата djvu. После установки DjVu файлы открываются в окне браузера (подойдет любой - IE, Netscape, Opera). Можете скачать его также здесь (rar-архив 3.83Mb).
DjVu Solo 3.1 [2.12Mb] - Программа для создания DjVu файлов. В DjVu можно преобразовать графические файлы большинства популярных форматов (bmp, gif, jpeg, tiff и др.) или непосредственно получить картинку со сканера. Последнее не очень удобно, так как отсутствуют даже простые средства работы с графикой, позволяющие хотя бы обрезать черные края отсканированной картинки, повернуть ее и т.д.
DjVu.dll [90Kb] - плагин для программы IrfanView. К сожалению не позволяет просматривать многостраничные DjVu файлы. Для установки достаточно скопировать файл djvu.dll в директорию /IrfanView/Plugins.
Any2djvu - веб-сервис, осуществляющий преобразование практически любого графического формата в DjVu. Особенно полезно преобразование в DjVu форматов pdf, ps и ps.gz. Документы для преобразования можно не только закачивать с вашего компьютера, но и указывать url интересующего вас документа в сети.
Естественно-научные библиотеки
1. Библиотека физико-математической литературы
Содержит несколько сотен отсканированных книг по математике, физике, неорганической химии на русском и английском языках. Есть несколько книг в pdf, но основной формат DjVu.
2. ChemPhysLib books
Достаточно большое собрание доступных для скачивания книг по химии и химической физике. Также имеются книги по физике, математике и программированию.
3. Djvu Library - Математическая библиотека
Книги DjVu по направлениям: математика, информатика (Theoretical Computer Science), кибернетика и искусственный интеллект, алгебра, геометрия, теория вероятности и статистика, радиоэлектроника, теория сигналов и шумов, теория информации и кодирования. В планах создание разделов Физика и Химия. Это ожидается - пока книг не очень много.
4. Серия "Популярные лекции по математике"
Брошуры из этой серии в DjVu и TIFF форматах.
Электронные технические библиотеки
Так уж вышло, что наибольшую на данный момент популярность формат DjVu завоевал среди радиолюбителей. Масса литературы по радиотехнике и электронике была отсканирована и сейчас доступна вашему вниманию.
5. Техническая библиотека Дмитрия Побегайлова
Книги по радиотехнике, электронной аппаратуре, автомобилям и пр. В общем, электронная техническая библиотека.
Книги по радиоэлектронике. В основном, в DjVu формате.
7. Audio... Some DIY projects, books, etc...
Радио, электронные приборы.
8. Конструирование и технология РЭА от Александра Лушникова
Книги по электронике и технологии производства радиоэлектронной аппаратуры.
9. Библиотека радиолюбителя
10. Научно-техническая библиотека Алексея Рябухина
Литература по электронике и технике СВЧ. Собственно всего три книжки.
Прочие библиотеки
11. Электронные книги – учебники по педагогике
Пока-что три книжки:
Педагогика. под ред. проф. П.И. Пидкасистого
История Педагогики. под ред. акад. А.И. Пискунова (в 2 томах)
Педагогика. Новый курс: учебник для пед. вузов. И.П. Подласый (в 2 томах)
12. Уральская историко-геммологическая библиотека
Геммология - наука о драгоценных камнях.
13. Электронная библиотека военной кафедры
Хотите почитать об устройстве и эксплуатации бронетранспортера БТР-80?
Почитать о DjVu формате и создании электронных библиотек вы можете в следующих статьях:
Некоторые рекомендации по
работе с DjVu Solo 3.1, а также сканирование, обработка изображений и печать
файлов djvu
DjVu - все уже было
Новые форматы
изображений: требование времени