Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 1)

Модерирует : gyra, Maz

Maz (05-04-2025 09:00): Редактирование PDF файлов (часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого [?]
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay) [?]
О технологии MRC с примерами - 1, 2 [?]
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF [?]
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1 [?], 2 [?]
Редактировать текст - PDF-XChange Editor [?], Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, SoftMaker FlexiPDF, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro [?]
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: 73, 07:30 20-03-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
www_world

Цитата:
Можно извлекать , как есть, но с некоторыми вещами, типа softmask, получите, скорее всего не то что ожидали

Не понял.
1) Можно извлекать все типы изображений "как есть" без перекодировки с помощью PDF Image Extractor Free version 4.0? Каким образом?
2) Можно извлекать с помощью других программ? Ну да, можно. Например, pdfimages (xpdf, poppler). Толку-то. Чем эти "как есть" изображения смотреть?

Цитата:
Поэтому освобождаю дорогу тем, кто сможет представить лучший вариант решения

Не понял. Кому и что вы освобождаете?
slava_kry написал своё решение [?] раньше вас. И его решение лучше по качеству (ИМХО) (с моими оговорками [?]) и с такими же трудозатратами. Т.е. просто удалить все изображения с желтым фоном, которые не влияют на качество отображение иллюстраций в градациях серого. Оставшиеся страницы, где есть "желтый" фон вместе с частью иллюстрации, отредактировать во внешнем редакторе изображений типа Paint, просто удалив желтый фон и оставив фон, нужный для "качественного" отображения иллюстраций.
 
Есть ещё один вариант решения - сначала перевести такой многослойный pdf в набор простых растровых изображений а-ля tiff, а потом прогнать через ScanKromsator или ScanTailor.
 
 
Добавлено:
TelecomUral

Цитата:
вам центральную проблему исчерпывающе описал www_world в первом посте-ответе

Угу. Он эту проблему описал так, что я, хорошо знающий структуру pdf-файлов с ИА, прослезился, но не от умиления. Кроме того, своё решение с отключением фонового слоя он предоставил в своём втором посте уже после slava_kry. Вообще-то зашибись. Читаем-читаем чб текст, и тут картинка - оп-па нажали кнопочку, чтобы посмотреть фото, потом опять кнопочку для текста. потом опять... А зачем вот эти вот все лишние телодвижения, если можно один раз и навсегда сделать более-менее нормально?

Цитата:
Не надо пытаться сделать из г... конфетку.

Что за манера приписывать своему собеседнику несуществующие измышления? Русским языком же было написано:

Цитата:
Как убрать желтый фон? ... Лучше всего было бы вообще удалить его из файла pdf,

Всё. Никто не хотел кондитерских изделий. Хотя я бы ещё хотел удалить тормоза из-за jpeg2000

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 11:25 10-09-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Всё. Никто не хотел кондитерских изделий

в принципе, да
тогда предлагаю свое решение. перевод pdf в ЧБ. не глядя. пачкой экспортнуть, пачкой в ЧБ конвертнуть, пачкой в новый пдф засунуть.

Всего записей: 3499 | Зарегистр. 15-07-2010 | Отправлено: 11:47 10-09-2024
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Вставляю скрины экрана в ворд, там качество отображения не отличается от оригинала (если масштаб отображения поставить 100 %). После перевода ворда в ПДФ (адоб акробат) качество картинок снижается, хотя в настройках поставил преобразование без сжатия картинок. В чем может быть причина потери качества после экспорта?

Всего записей: 560 | Зарегистр. 22-06-2016 | Отправлено: 12:04 10-09-2024 | Исправлено: esys, 12:08 10-09-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
самый лучший вариант решения проблемы, на мой взгляд, это скачать исходные сканы с того же сайта (single page original), почистить их и собрать нормальный pdf

Да. Вы правы. Но "почистить" означает обработать с помощью ScanTailor или ScanKromsator. Со всеми вытекающими. Кроме того, если для этой книги по ссылке SINGLE PAGE ORIGINAL JP2 TAR есть соответствующий файл wirelesstelegrap00eccl_orig_jp2.tar, где внутри сканированные изображения в формате jp2 (jpeg2000), то, наверное, есть книги, для которых исходники закрыты.
Upd: вот прямо сейчас открыл наугад десяток книг на ИА - все они закрыты на ИА для просмотра и скачивания и естественно исходников нет. Но эти книги доступны на альтернативных сайтах. Так что да, решение с исходниками безусловно наилучшее, но при разгуле копирастии нужны какие-то альтернативные решения.
bebop22

Цитата:
в интернете можно найти много книг, судя по цвету, сделанных как на archive.org

В общем случае такой цвет у книг не из-за того, что они сделаны на ИА, а потому что книжные страницы физической бумажной книги по прошествии некоторого времени имеют свойство менять свой цвет - сереть или желтеть. Хотя да, иногда такое впечатление, что именно обработка ИА вносит этот характерный фоновый цвет страниц.
pdf-файлы сделанные на ИА легко отличить по 2 признакам - в свойствах файла прямо прописан Internet Archive (если это не было удалено последующими обработчиками) и то, что внутренняя структура в основном основана на применении jpeg2000 и jbig2 как маски. Т.е. очень легко отличить по тормозам при просмотре.
 
Добавлено:
TelecomUral

Цитата:
тогда предлагаю свое решение. перевод pdf в ЧБ. не глядя. пачкой экспортнуть, пачкой в ЧБ конвертнуть, пачкой в новый пдф засунуть

Угу. "своё". Я, конечно, обычно готов к тому, что никто никогда не читает собеседника, но от вас не ожидал Это смайлик, показывающий, что я пишу это с лёгкой иронией.

Цитата:
2) можно тупенько в PDF-XChange Editor провести Recompress всех TrueColor изображений в B&W [?]

И, как уже говорилось, при таком огульном преобразовании ("не глядя") потеряется качество всех иллюстраций в градациях серого, что не комильфо.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 12:07 10-09-2024 | Исправлено: jourmager, 12:38 10-09-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
никто никогда не читает собеседника

я помню ваш текст. моя версия - через экспорт в тиффы цельных страниц. Типа печать на чб принтере.

Всего записей: 3499 | Зарегистр. 15-07-2010 | Отправлено: 12:51 10-09-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Забыл указать, что если в PDF-XChange Editor вызвать внешний графический редактор для обработки изображений, то редактируемое изображение может вернуться в pdf-файл в формате zip с соответствующим увеличением размера. Поэтому после такого редактирования надо ещё эти изображения рекомпрессировать в jpeg для исключения тормозов с уменьшением dpi до разумного.
 
TelecomUral
Я помню ваш текст

Цитата:
пачкой экспортнуть, пачкой в ЧБ конвертнуть, пачкой в новый пдф засунуть.

Рекомпрессия в PDF-XChange Editor - это то же самое, не выходя из одной программы. PDF-XChEd при рекомпрессии пачкой экспортирует из pdf--а условные jpeg (jpg2000) во временные файлы (ну не тиффы наверное), пачкой их конвертит в чб, пачкой их засовывает обратно. Нажатием одной кнопки.
 
Добавлено:
Лучше тысячи слов
Две страницы из исходного файла, где желтый фон страниц (1-е изображение) был удален в PDF-XChange Editor через внешний редактор (Paint -> Select -> Del), кроме мест, влияющих на "качественное" отображение иллюстраций в градациях серого, и изображения True Color (1-е и 2-е на обоих страницах) были рекомпрессированы из jpeg2000 в jpg для исключения тормозов с уменьшением dpi до 150 для уменьшения размера. Опять же, повторюсь, на страницах, где нет иллюстраций в градациях серого, 1-е изображения (просто фон в jpeg2000) можно удалять. На качество текста и чб иллюстраций это практически не влияет. Размер этих 2 страниц вырос с исходных 247 кб (jpeg2000) до 310 кб (jpeg). Некоторые огрехи видны, но лень-матушка.  
 
И ещё. Понятно, что такой метод подходит только для книг, где мало иллюстраций и они простые по форме. Иначе трудоёмкость обработки значительно возрастает. Вот, например, файл с того же ИА, но который в 1-ых фоновых изображениях имеет цветные иллюстрации сложной формы на каждой странице. Поэтому тут видится более оптимальным методом экспорт всех страниц в тиффы, а потом пакетная обработка в Photoshop, в котором я, к сожалению, не силён,  для приведения фона страниц к обычному белому цвету. Ну и, конечно же ScanTailor или ScanCromsator.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 13:09 10-09-2024 | Исправлено: jourmager, 14:40 10-09-2024
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bebop22
вот так, как пример пойдет?
https://www.upload.ee/files/17100574/out33_.pdf.html
https://www.upload.ee/files/17100838/out33_.pdf.html
или https://www.upload.ee/files/17101284/out33_.pdf.html с /DeviceGray (картинка фона в оттенках серого)
Что сделано: вытащил страницу в отдельный файл, извлек jpeg2000 поток для фона в файл, перевел его в градации серого обесцветил, поднял контраст и яркость по своему вкусу, записал поток обратно. Остальные слои в данном файле не менял.
В принципе тоже самое можно сделать и с передним планом. Можно вообще  радикально уменьшить размер файла, за счет невидимых под маской элементов переднего плана.  

Всего записей: 997 | Зарегистр. 14-12-2005 | Отправлено: 14:44 12-09-2024 | Исправлено: U235, 16:57 12-09-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
поднял контраст и яркость по своему вкусу, записал поток обратно

пожимание_плечами,_разведение_руками_и_глаза_на_лоб_в_знак_глубочайшего_удивления.jpg
 
79 кб вместо 200 кб и практически чистый белый фон вместо грязно-серого, jpeg2000 рекомпрессирован в jpg для исключения тормозов
 
Upd.
Если бы это написал кто-то другой, я бы не удивлялся. Но тут...
Я даже не буду спрашивать - а зачем?

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 18:10 12-09-2024 | Исправлено: jourmager, 18:19 12-09-2024
bebop22

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо всем за помощь. Так как интересные для меня книги редко имеют ценную полутоновою графику, то для себя я это вопрос закрыл. Но возможно это будет актуально для других читателей.

Всего записей: 169 | Зарегистр. 20-02-2007 | Отправлено: 08:51 13-09-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bebop22

Цитата:
Так как интересные для меня книги редко имеют ценную полутоновою графику, то для себя я это вопрос закрыл.

Стесняюсь спросить, но всё же, а как закрыли? Может нашли ещё какой-то интересный метод, или усовершенствовали предложенные?

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 12:08 13-09-2024
bebop22

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
С помощью проги типа PDF Image Extraction разложил страницы на компоненты, а затем из них собрал нужный мне вариант. Мне ведь для личного пользования в основном текст нужен. А желтый окрас мне мешает, хотя может, кому-то он и нравится.

Всего записей: 169 | Зарегистр. 20-02-2007 | Отправлено: 12:17 13-09-2024
www_world

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bebop22

Цитата:
С помощью проги типа PDF Image Extraction разложил страницы на компоненты, а затем из них собрал нужный мне вариант. Мне ведь для личного пользования в основном текст нужен. А желтый окрас мне мешает, хотя может, кому-то он и нравится.

Можете готовый конечный файл показать?

Всего записей: 510 | Зарегистр. 04-11-2018 | Отправлено: 04:14 14-09-2024
bebop22

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
К сожалению, нет, так как делал для себя с включением инфо личного характера.

Всего записей: 169 | Зарегистр. 20-02-2007 | Отправлено: 05:10 14-09-2024 | Исправлено: bebop22, 05:10 14-09-2024
www_world

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bebop22
Цитата:
К сожалению, нет, так как делал для себя с включением инфо личного характера.
Ясно. Тогда и мои последние наработки оставим до лучших времен.

Всего записей: 510 | Зарегистр. 04-11-2018 | Отправлено: 05:51 14-09-2024
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Не туда запостил

Всего записей: 1354 | Зарегистр. 18-08-2012 | Отправлено: 11:15 14-09-2024 | Исправлено: 73, 11:20 14-09-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
С помощью проги типа PDF Image Extraction разложил страницы на компоненты, а затем из них собрал нужный мне вариант

Как интересно!
Напоминаю, что искомый pdf-файл это как бы MRC и состоит из 2 слоёв: background из jpeg2000, в данном случае отвечающие за корректное отображение иллюстраций в градациях серого, и foreground из "подложки" jpeg2000 и маски jbig2, в данном случае отвечающие за корректное отображение ч/б текста.
После быстренького применения программ из шапки (см. Извлечение растровых изображений из PDF) и других программ из топика получаем:
1) PDF Explorer не видит маски в jbig2, т.е. весь текст потерян
2) PDF Image Extraction Wizard "извлёк" всё в виде png (?), в том числе jbig2, но в негативе (маска жеж). Негатив можно перевести в позитив, но.
3) pdfimages (xpdf) извлёк jpeg2000 как *.jpx, а jbig2 как *.jb2, но *.jb2 не может открыть xnview, и PDF-XChange не может собрать из них pdf
4) PDF Image Extractor Free version 4.0. не видит маски в jbig2, т.е. весь текст потерян
5) Кроме всего прочего, меня в интернетах удивляют 2 вещи: почему люди не умеют задавать вопросы и почему люди не умеют отвечать на вопросы. Почему очень часто надо задавать уточняющие вопросы. Неужели за количество постов на форуме платят? Никто не подскажет, где? Я тоже хочу.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 13:23 14-09-2024 | Исправлено: jourmager, 15:22 14-09-2024
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
3) pdfimages (xpdf) извлёк jpeg2000 как *.jpx, а jbig2 как *.jb2, но *.jb2 не может открыть xnview, и PDF-XChange не может собрать из них pdf

В данном случае уместнее использовать pdftoppm.

Всего записей: 7862 | Зарегистр. 08-09-2001 | Отправлено: 15:33 14-09-2024
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
3) pdfimages (xpdf) извлёк jpeg2000 как *.jpx, а jbig2 как *.jb2, но *.jb2 не может открыть xnview, и PDF-XChange не может собрать из них pdf

pdfimages может сохранять маску и в png, если использовать соответствующие  опции. Да, будет в негативе.
 

Всего записей: 997 | Зарегистр. 14-12-2005 | Отправлено: 15:45 14-09-2024
xeroxman



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Доброго, как можно распечатать темный, цветной док PDF светлее (редактировать в фотошоп не вариант, т.к. страниц много), в ч/б принтере есть настройки яркости и контраста, в цветном такой опции нет.

----------
Подпись в стадии разработки

Всего записей: 2163 | Зарегистр. 01-12-2004 | Отправлено: 11:11 18-09-2024
www_world

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
xeroxman
Выложите хоть одну страницу (не обложку, а типичный текст). Потому что вариантов пдф слишком много возможно.

Всего записей: 510 | Зарегистр. 04-11-2018 | Отправлено: 11:53 18-09-2024
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 1)
Maz (05-04-2025 09:00): Редактирование PDF файлов (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru