bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору shch_vg Цитата: Нет. Но это очень хороший экземпляр pdf для тестирования! Дело в том, что данный pdf имеет некорректную с точки зрения спецификации pdf структуру. Видимо потому, что обложка добавлялась (причем криво) уже после создания всего остального. Причем та утилита, которая ее добавила, неправильно занесла информацию о новой странице в глобальный каталог. Мне встречалось уже два распространенных случая некорректных pdf. В первом случае страница правильно добавляется в каталог, но почему-то ссылка на сам каталог не меняется (т.е. ссылка указывает на старое его местоположение). Во втором случае ссылка на каталог правильная, но страница в нем не описана. Первый случай я победил - если каталога нет там, где ему положено, ск тупо сканирует файл, пытаясь его найти самостоятельно (помогает почти всегда). В данном же файле наблюдается комбинация обоих косяков. Попробую предусмотреть и такой случай. Выход из этого в принципе есть очень простой - тупо сканировать pdf-файл, и как только встретится тэг image, извлекать изображение. Видимо, pdftotiff так и делает. Тогда никакие косяки с каталогом не страшны. Огромные минусы такого подхода - теряется информация о том, из чего состоят страницы (т.е. если на странице кроме скана имееются отдельные иллюстрации-зоны, то кромсатор не сможет их расположить именно как зоны, pdftotiffу это не надо, он просто вытащит эти зоны в отдельные файлы, и поди пойми, на какой странице они были и в каком месте страницы располагались). Второй минус - без знания страницы нельзя определить dpi изображения. Добавлено: Хотя нет, похоже pdftotiff похоже не извлекает изображения, а рендерит их, т.е. как бы печатает в тиф-файл. Мне такой подход не нравится, я предпочитаю извлекать из pdf оригинальные изображения (т.е. в том виде, в котором они были туда засунуты), а не рисовать их. |