Редактирование PDF файлов (часть 1) - [198] :: Программы :: Компьютерный форум Ru.Board
Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 1)

Модерирует : gyra, Maz

Maz (05-04-2025 09:00): Редактирование PDF файлов (часть 2)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого [?]
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay) [?]
О технологии MRC с примерами - 1, 2 [?]
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF [?]
Заменить/удалить текст (batch есть), в т.ч. кириллицу (не панацея!) - PDF Replacer
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1 [?], 2 [?]
Редактировать текст - PDF-XChange Editor [?], Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, SoftMaker FlexiPDF, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro [?]
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: 73, 07:30 20-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Растр хорошо жмется в формате *webp без заметной потери качества, но как этот формат поместить в пдф с сохранением размера непонятно.

Всего записей: 560 | Зарегистр. 22-06-2016 | Отправлено: 20:11 20-03-2025 | Исправлено: esys, 20:12 20-03-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Или, например, вывести список страниц с указанием размера каждой в кило/мегабайтах. По крайней мере, я таких не знаю.

pdfimages -list in.pdf
cpdf -list-images in.pdf
cpdf -list-images-json in.pdf

Всего записей: 7862 | Зарегистр. 08-09-2001 | Отправлено: 20:12 20-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
как этот формат поместить в пдф

Никак. Из lossy только JPEG и JPEG2000. Можно попробовать xpng, на каких то изображениях выигрыш по восприятию может и будет, но не по размеру.
 

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 20:33 20-03-2025
pressF



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Растр хорошо жмется в формате *webp без заметной потери качества, но как этот формат поместить в пдф с сохранением размера непонятно.
 

The PDF standard currently doesn't list WebP among the permissible formats for encoding images in PDF documents.
 
JPEG-XL надеюсь будет включен https://github.com/pdf-association/pdf-issues/discussions/248
 
спеки бесплатно кстати доступны https://pdfa.org/resource/pdf-specification-archive/

Всего записей: 1492 | Зарегистр. 29-03-2023 | Отправлено: 20:50 20-03-2025 | Исправлено: pressF, 06:39 21-03-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los

Цитата:
pdfimages -list in.pdf
cpdf -list-images in.pdf
cpdf -list-images-json in.pdf

Спасибо. Записал. pdfimages - poppler
Для определённых типов файлов - когда 1 jpg на страницу - это вполне подойдёт.
Но, pdf-файл может иметь сотни страниц с несколькими изображениями на каждой.
Разобраться, какое именно изображение (и какая страница) имеет наибольший размер при таком формате вывода, как у pdfimages и cpdf довольно трудно. Можно, конечно, такой список импортировать в Excel и там уже делать со списком всё что угодно, но зачем?
Лично я поступаю так - из подозрительного файла делаю экспорт всех страниц в отдельные pdf-файлы, потом их сортировка по размеру.
Кроме того, есть случаи, когда аномальный размер страниц не связан напрямую с размером изображений.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 22:45 20-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
поместить в пдф

На данный момент доступно 3 варианта lossy изображений в PDF:
JPEG - https://disk.yandex.ru/i/t1GKOpXnkZgepQ [637697]
JPEG2000 - https://disk.yandex.ru/i/CB1viE6Fw-83cQ [629240]
lossy-PNG (XPNG) + DEFLATE - https://disk.yandex.ru/i/xcoH5UmZAnPmug [648050]
 
Каждый вариант имеет свою сферу пригодности и недостатки.

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 23:12 20-03-2025
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Разобраться, какое именно изображение (и какая страница) имеет наибольший размер при таком формате вывода, как у pdfimages и cpdf довольно трудно. Можно, конечно, такой список импортировать в Excel и там уже делать со списком всё что угодно, но зачем?

Кому как удобнее
 
cpdf -list-images-json file.pdf | jq ...

Всего записей: 7862 | Зарегистр. 08-09-2001 | Отправлено: 23:52 20-03-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot

Цитата:
Каждый вариант имеет свою сферу пригодности и недостатки

Оно, конечно, хорошо, что 3 файла одинакового размера и типа можно сравнить качество сжатия для разных алгоритмов, но, чтобы понять сферу пригодности и недостатки вариантов надо или другой оригинал или lossless оригинал в студию.
 
А можно узнать как вы этот lossy-PNG (XPNG) + DEFLATE получили и как вы его засунули в pdf? Это какой-то новый стандарт, утверждённый мировым сообществом? Внутренняя структура файла как-то отличается от обычного png? Или это всё просто новый кодек что-то типа jpegli, jpge, которые тут обсуждались пару страниц назад? С ломанием стандарта, что png - это обязательно lossless.
 
Вот JBIG2 - это как раз типичный формат lossy изображений для pdf. Который хранится в своём собственном виде внутри pdf.
Так что да, На данный момент доступно 3 варианта lossy изображений в PDF: jpeg (DCT), jpeg2000, jbig2.
И 6 lossless: LZW, Flate (ZIP), RLE, CCITT, jpeg2000, jbig2
Или я что-то забыл?
 
Добавлено:
los

Цитата:
cpdf -list-images-json file.pdf | jq ...

Спасибо. Про то, что из json можно что-то сделать в командной строке я как-то не подумал. Привык к GUI. Надо будет посмотреть, можно ли сконструировать что-то с помощью jq.
 
Может кому-то будет интересно: архив, внутри которого 2 файла: книга со Structure Info на 26 МБ и журнал с path/shading на 17 МБ на одной странице. Соответственно, книгу можно безболезненно уменьшить с 33 до 5 МБ, а журнал с 33 до 16 МБ. Если книгу с избыточным Structure Info можно определить с помощью Audit Space Usage, то найти  каверзную страницу в журнале я могу только постраничным экспортом.
 
Это ещё ничего, у меня есть pdf, где Structure Info занимает 700 МБ.
 
Замечу, что я не знаю специализированных программ для сжатия pdf-файлов (типа Orpalis PDF Reducer), которые обладают функцией продвинутого Audit Space Usage - только мощные редакторы pdf.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 00:55 21-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
Это какой-то новый стандарт

Неверно.
 
jourmager say:
Цитата:
Вот JBIG2 - это как раз типичный формат lossy изображений

Неверно.
 
jourmager say:
Цитата:
Или я что-то забыл?  

Верно. Точнее, и не знал вовсе.

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 05:39 21-03-2025 | Исправлено: zvezdochiot, 06:55 21-03-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
zvezdochiot
У вас, кроме поразительной способности заводить себе друзей, есть ещё удивительная способность отвечать на вопрос абсолютно бессмысленно и бесполезно.
 
А если по делу, Википедия:

Цитата:
JBIG2 - стандарт сжатия изображений, предложенный Группой экспертов в сжатии бинарных изображений (Joint Bi-level Image Experts Group), и стандартизованный Международной организацией по стандартизации ISO/IEC. Он применяется как для сжатия без потерь, так и для сжатия с потерями.

 
Wikipedia:

Цитата:
JBIG2 is an image compression standard for bi-level images, developed by the Joint Bi-level Image Experts Group. It is suitable for both lossless and lossy compression.

 
Document management — Portable document format — Part 1: PDF 1.7
PDF 32000-1:2008 (Adobe Systems Incorporated 2008 – All rights reserved) First Edition 2008-7-1:

Цитата:
JBIG2 encoding, which provides for both lossy and lossless compression, is useful only for monochrome images, not for colour images, grayscale images, or general data. The algorithms used by the encoder, and the details of the format, are not described here. See ISO/IEC 11544 published standard for the current JBIG2 specification.  

 
Типичный - да. Формат - да. Стандарт - да. Lossy, то бишь с потерями - да. Изображений - да. Применяется в pdf - да.
 
P.S.

Цитата:
Это какой-то новый стандарт
Неверно.

Т.е. xpng - очередная никому не нужная мертворожденная поделка с Гитхаба. Ясно, понятно. Расходимся, господа.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 10:46 21-03-2025 | Исправлено: jourmager, 10:53 21-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
Типичный - да.

Неверно.
 
jourmager say:
Цитата:
Lossy, то бишь с потерями - да.

Это к самому формату не относится. Это доп. алгоритм, что очень нетипично для lossy images. "Потери", которые делаются принудительно и отдельно от самого формата.
 
jourmager say:
Цитата:
xpng - очередная никому не нужная мертворожденная поделка с Гитхаба.

У которой куча аналогов. Интересное кино.

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 11:11 21-03-2025 | Исправлено: zvezdochiot, 11:23 21-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
можно попробовать xpng

Это для отображения растра png в пдф как без пдф? Где прочитать про него?

Всего записей: 560 | Зарегистр. 22-06-2016 | Отправлено: 11:23 21-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Это для отображения растра png в пдф как без пдф?

Нет. Это lossy для png под сжатие DEFLATE. Берёт png и отдает png меньшего размера за счёт "потерь".
 
esys say:
Цитата:
Где прочитать про него?

А ссылка, что я дал - это не ссылка? Или в поисковике набрать "lossy png".

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 11:26 21-03-2025 | Исправлено: zvezdochiot, 11:28 21-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Т. е. как ни пакуй скрин *png в пдф, он никогда не будет отображен как исходный *png на экране?

Всего записей: 560 | Зарегистр. 22-06-2016 | Отправлено: 11:34 21-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Т. е. как ни пакуй скрин *png в пдф, он никогда не будет отображен как исходный *png на экране?

Ну как. Ежели исходный png в pdf пиханёте, то будет как исходный, а ежели пиханёте png после lossy обработки, то будет как png после lossy обработки.

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 11:39 21-03-2025 | Исправлено: zvezdochiot, 11:39 21-03-2025
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Про типичность JBIG2 в pdf.
Есть такая организация, Internet Archive, имеющая своё собственное хранилище книг и документов (43 млн.), в котором значительную часть составляют книги, отсканированные на протяжении более чем десятка лет в более чем десятке собственных центров сканирования по всему миру, а потом обработанные с помощью собственного специального ПО. Сначала это было LuraDocument PDF, теперь, как я мог заметить, это Internet Archive (Scribe Version) как Application и Internet Archive PDF including mupdf and pymupdf/skimage как PDF Producer. В качестве стандарта для хранения книг используется формат PDF с использование технологии MRC (Mixed Raster Content), а также с OCR. Из того, что я видел, обычно для MRC в качестве Background Layer используется JPEG2000 (около 120 dpi), Foreground Layer - JPEG2000 (около 360 dpi), Binary Mask Layer - JBIG2 (около 360 dpi). Технология MRC, форматы JPEG2000 и JBIG2, низкое значение dpi были выбраны для минимизации занимаемого дискового пространства.
 
Т.о., формат JBIG2 можно увидеть в миллионах книг.

Всего записей: 945 | Зарегистр. 04-11-2019 | Отправлено: 12:36 21-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager say:
Цитата:
Т.о., формат JBIG2 можно увидеть в миллионах книг.

И? Подменить понятия пытаетесь? Опять?!
 
Распространённость JBIG2 никак не делает принудительный алгоритм lossy при кодировании в него типичным.

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 12:46 21-03-2025 | Исправлено: zvezdochiot, 12:49 21-03-2025
esys

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ежели исходный png в pdf пиханёте, то будет как исходный

Как это сделать? (ПКМыши через адоб качество теряется).

Всего записей: 560 | Зарегистр. 22-06-2016 | Отправлено: 22:53 21-03-2025
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
esys say:
Цитата:
Как это сделать?

sam2p, CLI.

Код:
 
sam2p -pdf:2 -m:dpi:-600 page-000.png page-000.pdf
 

ГУИ-шных аналогов толком не знаю. Подозреваю, что через PDF24 можно что то замутить, но в результате не уверен.

Всего записей: 848 | Зарегистр. 18-05-2023 | Отправлено: 23:58 21-03-2025 | Исправлено: zvezdochiot, 23:59 21-03-2025
zanyda

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Понадобилась специфическая функция по редактированию текста и никак не могу найти.
С функцией вырезания текста проблем нет.
Но вот как нижний текст передвинуть (переместить) выше, на место пустого вырезанного куска текста?
Чтобы после удаления текста в середине статьи не было пустого места.
Если есть такая функция, подскажите, какая программа может это сделать.

Всего записей: 474 | Зарегистр. 05-02-2007 | Отправлено: 23:01 26-03-2025
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов (часть 1)
Maz (05-04-2025 09:00): Редактирование PDF файлов (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru