ScanKromsator СканКромсатор (Часть 2) - [25] :: Программы

shch_vg

Цитата:

Именно из-за JPXDecode?

Нет.
Но это очень хороший экземпляр pdf для тестирования!
Дело в том, что данный pdf имеет некорректную с точки зрения спецификации pdf структуру. Видимо потому, что обложка добавлялась (причем криво) уже после создания всего остального. Причем та утилита, которая ее добавила, неправильно занесла информацию о новой странице в глобальный каталог. Мне встречалось уже два распространенных случая некорректных pdf. В первом случае страница правильно добавляется в каталог, но почему-то ссылка на сам каталог не меняется (т.е. ссылка указывает на старое его местоположение). Во втором случае ссылка на каталог правильная, но страница в нем не описана. Первый случай я победил - если каталога нет там, где ему положено, ск тупо сканирует файл, пытаясь его найти самостоятельно (помогает почти всегда).
В данном же файле наблюдается комбинация обоих косяков.
Попробую предусмотреть и такой случай.
Выход из этого в принципе есть очень простой - тупо сканировать pdf-файл, и как только встретится тэг image, извлекать изображение. Видимо, pdftotiff так и делает. Тогда никакие косяки с каталогом не страшны. Огромные минусы такого подхода - теряется информация о том, из чего состоят страницы (т.е. если на странице кроме скана имееются отдельные иллюстрации-зоны, то кромсатор не сможет их расположить именно как зоны, pdftotiffу это не надо, он просто вытащит эти зоны в отдельные файлы, и поди пойми, на какой странице они были и в каком месте страницы располагались). Второй минус - без знания страницы нельзя определить dpi изображения.

Добавлено:
Хотя нет, похоже pdftotiff похоже не извлекает изображения, а рендерит их, т.е. как бы печатает в тиф-файл. Мне такой подход не нравится, я предпочитаю извлекать из pdf оригинальные изображения (т.е. в том виде, в котором они были туда засунуты), а не рисовать их.

Модерирует : gyra, Maz
Widok (30-03-2009 18:08): Лимит страниц. Продолжаем здесь.	Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105