Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
 
Чтобы русифицировать СканКромсатор
В ini-файле в секции Options должен присутствовать параметр LangInt=1. Вернуть в исходный язык: LangInt=0. Пока русифицировано только MW.
 
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39225 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 07:06 04-12-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
В minidjvu и cjb2 из DjVuLibre никаких ошибок. Закодируй "избранные" страницы ими и присоедини к остальным.  

на такой случай я предусмотрел в новом СК переход на cjb2, если DEE выдаст ошибку. Только нужно поставить в месте dither зону c включенной опцией separate b/w coding. Если по умолчанию DEE с ней не справится, СК автоматом перейдет на ее кодирование с помощью cjb2 (и только ее).
Вот пример, один и тот же скан из поста Fire_Dragon, повторяется три раза. В первый раз используется зона с очень редким типом B/W clean WP, как то спрашивали, что это такое - вот пример ее применения, она полностью убирает dither-рисунок, при этом зона остается b/w. Цвет раскраски фона задается вручную.
Во второй раз к зоне применяется inverse dithering. В третий раз зона остается как есть. Получен djvu с тремя страницами, первая дает минимальный размер.
https://workupload.com/file/u5AeQ9k7NBU
 
 
 
Добавлено:
TelecomUral

Цитата:
Может быть, лучше сделать дополнительно такой хитрый "превью"  

Не представляю пока как это сделать. Есть фильтры, результат которых кардинально зависит от того, к какой области они применяются. Я имею ввиду фон и иллюминацию. Unsharp идет перед ними. Значит, чтобы воспользоваться preview, нужно сперва заготовить "сырец" с результатом применения этих фильтров ко всему скану, потом вырезать кусок и уже с ним проводить эксперименты. Нужно еще учесть resample. Его место в обработке тоже зависит от ряда факторов, для первого приближения этим можно пренебречь, в принципе. Это в теории. Интерфейс для такого подхода придется придумывать... Проще наверно сделать суб-таск с включенными только этими "обязательными" фильтрами (резаками вычленить фрагмент), а с ним уже играться как есть, и тогда ничего придумывать не надо.

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 08:10 12-02-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Есть фильтры, результат которых кардинально зависит от того, к какой области они применяются. Я имею ввиду фон и иллюминацию.

понял.
 
да, все-таки у вас с самого начала создания программы был наилучший подход. Заточка средств именно под обработку, с помощью набирания опыта в одни руки.

Всего записей: 3412 | Зарегистр. 15-07-2010 | Отправлено: 08:28 12-02-2025
Fire_Dragon



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
на такой случай я предусмотрел в новом СК переход на cjb2, если DEE выдаст ошибку. Только нужно поставить в месте dither зону c включенной опцией separate b/w coding. Если по умолчанию DEE с ней не справится, СК автоматом перейдет на ее кодирование с помощью cjb2 (и только ее).
Вот пример, один и тот же скан из поста Fire_Dragon, повторяется три раза. В первый раз используется зона с очень редким типом B/W clean WP, как то спрашивали, что это такое - вот пример ее применения, она полностью убирает dither-рисунок, при этом зона остается b/w. Цвет раскраски фона задается вручную.
Во второй раз к зоне применяется inverse dithering. В третий раз зона остается как есть. Получен djvu с тремя страницами, первая дает минимальный размер.
https://workupload.com/file/u5AeQ9k7NBU
 

 
Для какой минимальной версии СК это задание является полноценным? В файле прописана версия 7.06, последняя публично доступная 7.04 и в ней рабочим вариантом является только вторая страница где использован "Inverse dither" фильтр.
Вариант с заливкой в версии 7.04 получается таким:
   
 
И можно ли в главном окне СК, панель инструментов сделать вертикальной, как в окне просмотра результата?

Всего записей: 35 | Зарегистр. 19-11-2010 | Отправлено: 19:31 13-02-2025 | Исправлено: Fire_Dragon, 19:33 13-02-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Новая версия СК 7.02
https://workupload.com/file/QQRy5S3WKcZ
 

Цитата:
В файле прописана версия 7.06

Внутри spt-файла прописывается версия файла задания, а не версия СК. Они почти никогда не совпадают.
 

Цитата:
Вариант с заливкой в версии 7.04 получается таким:

ну там в пост-обработке понадобится добавить прозрачность с помощью 2-3х действий: ctrl+shift+click на белом и F7 (у меня это хоткей на установку прозрачности). Я не стал об этом упоминать, считал, что задание прозрачности и ее влияние на окрашивание вам хорошо известно.
 
 
Добавлено:

Цитата:
переход на cjb2

Кстати, cjb2 из DjVuLibre 3.5.25 на этом файле крашится. Хорошо, что в 3.5.28 все ОК

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 20:52 13-02-2025 | Исправлено: bolega, 20:58 13-02-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кстати, cjb2 из DjVuLibre 3.5.25

да, мы этот баг уже ловили. году в 2017м примерно. тоже кто-то спрашивал отчего точечный рисунок не кодится почти ничем. только свежая джвулибр его брала.

Всего записей: 3412 | Зарегистр. 15-07-2010 | Отправлено: 20:59 13-02-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
да, мы этот баг уже ловили

я пропустил видимо.
 

Цитата:
в ней рабочим вариантом является только вторая страница  

если человек не знает как делать, и даже не пытается в этом разобраться, то для него любой результат будет "нерабочим".
 

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 07:09 14-02-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Новая версия СК 7.02

ого

Всего записей: 3412 | Зарегистр. 15-07-2010 | Отправлено: 07:26 14-02-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Там еще не все готово, но вполне работоспособно.
В основном рассчитано на native-режим, режим с использованием FR8 многого не позволяет (например, поиск на правой панели не работает), я им давно не пользовался и даже не тестировал последний функционал СК.
И нужно конечно видео снять, как пользоваться. Особенно что касается подстановок, т.е. когда линки не на номера страниц, а на номера примечаний, библиографию и т.п.
Поддерживаются группы подстановок, т.е. когда каждая глава имеет свою нумерацию ссылок, начинающуюся с 1. С помощью поиска возрастающей последовательности можно автоматизировать создание списка линков-подстановок внутри текста книги.
Принимаются пожелания по совершенствованию функционала.
 
Для Outlines(Bookmarks) все работает, есть и возможность шрифтового выделения для pdf. Там кажется уже и добавить нечего. Описание используется одно, и для djvu и для pdf. В djvu оглавление внедряется сразу в djvu-файл, для pdf создается копия pdf-файла.  
 
Для djvu можно указать, как будут вставляться ссылки в djvu-файл, либо как ссылки на номера страниц, либо как ссылки на идентификаторы страниц. Последнее удобнее, когда предполагается после создания djvu менять в нем порядок страниц (или удалять/добавлять), тогда ссылки останутся работоспособными при любых манипуляциях.

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 09:02 14-02-2025
asku



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Принимаются пожелания по совершенствованию функционала.

 
А нельзя ли Picture-зоне типа Transit сделать немного другой внешний вид? Чтобы она отличалась от других Picture-зон.

Всего записей: 619 | Зарегистр. 04-05-2016 | Отправлено: 11:18 14-02-2025
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо! Просьба описать Create DJVU/PDF hyperlinks and Outlines...

Всего записей: 1876 | Зарегистр. 15-06-2006 | Отправлено: 13:12 14-02-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Benoni
по минимуму старых фич я делал как-то ролик.

Всего записей: 3412 | Зарегистр. 15-07-2010 | Отправлено: 13:47 14-02-2025
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Поновить бы...

Всего записей: 1876 | Зарегистр. 15-06-2006 | Отправлено: 15:22 14-02-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Benoni

Цитата:
Просьба описать  

в основном задании делаете OCR через FR или Tesseract. Создаете out-задание, в нем (не в основном) вызываете Create DJVU/PDF hyperlinks and Outlines. Кстати, ocr в исходном задании можно делать в любой момент, в том числе и после создания out-task. Он подхватится по факту.  
Ссылки можно расставлять и вручную, вообще без использования ocr. Но это может оказаться утомительным.
 
Первым делом на вкладке Files нужно задать позицию в существующем djvu/pdf файле, на которой располагается страница книги с номером 1 (например, имеется обложка, форзац, титул, стр.1 - значит позиция = 4). Это единственное место, где используется порядковый номер страницы относительно начала. Во всех других опциях используются реальные номера страниц, т.е. которые пропечатаны на бумаге. Исключение только для страниц, которые находятся перед первой - у них номера отрицательные. Вместо отрицательных можно использовать отрицательное значение dest add. Каждая ссылка состоит из двух частей - номер страницы dest page, и опционально dest add - смещение относительно этого номера в любую сторону. С помощью dest add можно ссылаться на страницы, не имеющие номера (т.е. вставки).
Если есть вкладки, их нужно обязательно описать, напр., 10-4, 30-16 (после 10-й страницы 4 страницы вкладок без номера, после 30-й - 16 страниц).  
Недостающие страницы тоже задаются (но не так как в подсказке, там ошибка), напр. 15-16 означает что нет страниц 15 и 16.
Обычные линки бывают двух типов: contents (оглавление) и index (индексы). Разделение абсолютно условно, можно в принципе пользоваться одним. Но разделение позволяет по разному выравнивать ссылки и по разному расцвечивать.  
Contents нужно использовать на страницах (обычно в  конце книги), где располагается оглавление, в нем номера страниц как правило столбиком, и обычно справа. По умолчанию размеры всех contents-ссылок на странице выравниваются, но это можно отключить. Index-ссылки не выравниваются, при желании их можно выровнять командой.
Чтобы сгенерировать все content-ссылки на странице, становимся на нужную страницу, переключатель link type ставим на contents, нажимаем кнопку build links. СК ищет на странице все ссылки, подходящие под тип "contents" и генерирует ссылки. Если вдруг в ссылки попадет что-то лишнее, их можно удалить (по одной, либо сделать выделение на странице и нажать клавишу delete, все ссылки что попадут внутрь выделения, даже частично, будут удалены). Альтернативный способ избежать лишнего - перед нажатием build links выделить мышкой участок, в котором располагаются нужные номера, все что не попало в него, СК проигнорирует.
Из-за того, что СК выравнивает content-ссылки, наличие лишнего может сбить с толку. Но достаточно убрать лишние ссылки, и все станет ОК, т.к. СК выравнивает на лету. В крайнем случае можно отключить опцию align и посмотреть, что является лишним.

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 16:52 14-02-2025 | Исправлено: bolega, 16:59 14-02-2025
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо!
Ролик бы ещё...

Всего записей: 1876 | Зарегистр. 15-06-2006 | Отправлено: 17:04 14-02-2025 | Исправлено: Benoni, 17:07 14-02-2025
sergiokapone



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Спасибо за новую версию.
 
Поганял 7.02 для встройки outlines и обнаружил некоторые баги.
 
В окне PDF/DJVU Hyperlinks and Outlines во вкладке Outlines есть опция Level Type.  
Интуитивно не ясно, что значит one level и multi level.  
 
Я думал, что one level это оглавление только одного уровня, без подуровней и словил синтаксическую ошибку

Кстати, было бы неплохо показывать номера строк, поскольку не понятно на какую строку указывается.
 
И еще Access Violation, если при всем этом опция last "-" будет включена.

 
При наведении на полеOCR page, подсказка про какие-то поля книги.

 
Когда выбрал Level type: multi level, все получилось, результат (5.87 Мб)
 
 
 

Всего записей: 604 | Зарегистр. 07-06-2011 | Отправлено: 09:42 15-02-2025 | Исправлено: sergiokapone, 09:58 15-02-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sergiokapone

Цитата:
Я думал, что one level это оглавление только одного уровня

На самом деле опция Level type не нужна, забыл ее удалить. Не используйте ее, должно быть всегда выбрано multi level, СК сам разберется.
Синтаксис простейший: Level определяется количеством "-" в начале строки.
Номер страницы задается числом, которое должно быть последним в строке. Число отделяется от текста одним или более пробелом, точки игнорируются. Любая строка должна заканчиваться числом, т.е. номером страницы. Если числа не будет, будет ошибка.

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 17:51 15-02-2025 | Исправлено: bolega, 17:58 15-02-2025
sergiokapone



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, спасибо.
Вроде интуитивно понятно.  
Можно, все же, номера строк отображать в текстовом окне, чтобы стазу видеть где нету номера в конце? Или сделать как в Pdf&Djvu Bookmarker?

Всего записей: 604 | Зарегистр. 07-06-2011 | Отправлено: 18:29 15-02-2025 | Исправлено: sergiokapone, 18:38 15-02-2025
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
bolega

Цитата:
Если числа не будет, будет ошибка

Во многих книгах встречал прочерк вместо числа, что означало брать первое число выше в содержании.
 
Заодно вопрос: не вдавался пока в детали, т.к. для этого важен ответ на него.
Для работы "Create DJVU/PDF hyperlinks and Outlines" требуется распознавание всей книги или только страниц с содержанием?

Всего записей: 7230 | Зарегистр. 14-01-2005 | Отправлено: 19:03 15-02-2025 | Исправлено: shch_vg, 19:05 15-02-2025
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Во многих книгах встречал прочерк вместо числа, что означало брать первое число выше в содержании.

ну дык и давите число выше

Всего записей: 3412 | Зарегистр. 15-07-2010 | Отправлено: 20:26 15-02-2025
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sergiokapone

Цитата:
Можно, все же, номера строк отображать в текстовом окне

на этот счет никаких планов пока нет. Изначально задумывалось что все будет минималистичным. Если вам ближе более продвинутый интерфейс, то имеет смысл пользоваться тем, чем привыкли.
Я уже пользуюсь этим давно, проблем никаких нет, если привыкнуть. Посмотрим что будет дальше.
 
shch_vg

Цитата:
Во многих книгах встречал прочерк вместо числа

гляньте на вкладку options  
 

Цитата:
Для работы "Create DJVU/PDF hyperlinks and Outlines" требуется распознавание всей книги или только страниц с содержанием?

 
Для Outlines вообще не нужен ocr. Просто копируете содержание из текстового слоя готового djvu. Даже задание не нужно, нужны только файлы, в которые Outlines будут внедряться.
Для hyperlinks ocr нужен только для тех страниц, для которых вы хотите генерировать линки автоматом. Можно вообще без ocr обойтись, есть возможность задавать линки вручную.

Всего записей: 4622 | Зарегистр. 09-09-2002 | Отправлено: 20:33 15-02-2025
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru