Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39130 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 17:04 07-10-2024
qwaxym



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Подскажите, как можно закодировать в малоцвет в SK

вот так
 

Всего записей: 136 | Зарегистр. 19-12-2007 | Отправлено: 15:23 09-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, спасибо большое. Вспомнил.

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 15:52 09-08-2024
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А где находятся опции FC и max colours = 3

Всего записей: 1859 | Зарегистр. 15-06-2006 | Отправлено: 15:59 09-08-2024 | Исправлено: Benoni, 16:32 09-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Benoni
А где

а тут
 

 
qwaxym
не пудрите людям мозги. просили это:
https://disk.yandex.ru/d/p0PSylMkGtpZTw

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 16:07 09-08-2024
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
Спасибо!

Всего записей: 1859 | Зарегистр. 15-06-2006 | Отправлено: 16:29 09-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо. Я было подзыбыл как это делать. При малоцвете должно быть так в WinDJVU при переключении режимов Цветной/ЧБ
 
   
 
То есть, подкаршивается передний слой (foreground), никакого заднего слоя (background) в DJVU нету.

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 16:39 09-08-2024 | Исправлено: sergiokapone, 16:46 09-08-2024
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
не пудрите людям мозги. просили это:
https://disk.yandex.ru/d/p0PSylMkGtpZTw

это кто же мог попросить зафигачить фон в маску и раскрасить его белым цветом?
 


----------
DjVu Utils

Всего записей: 1503 | Зарегистр. 26-07-2007 | Отправлено: 18:24 09-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME
а попонятнее можно? как можно фон в iw44 зафигачить в маску jb2, я не смог понять.
Дежавю с виду вполне правильная.
 
upd
тьфу и ёпрст!! в обработанной страничке-то не три, а четыре цвета
 
upd2
видимо, вот правильный вариант
https://disk.yandex.ru/d/mXx_Cmkow5u6_Q

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 18:35 09-08-2024 | Исправлено: TelecomUral, 18:48 09-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня еще вопрос про добавление OCR. При попытке добавить через Create DJVU Wizard на некоторой странице выскакивает ошибка  (см. рис.)  
   
 
Добавлено:
По поводу фона, маски и т. д. вот, что получилось
Ссылка
 
тут страница 1, 15, 169
 

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 18:54 09-08-2024 | Исправлено: sergiokapone, 19:06 09-08-2024
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:

Цитата:
а вы придумали интерфейс к гиперссылкам?

более-менее. но еще не все. но зато закончил с поддержкой outlines/bookmarks одновременно для djvu и pdf.  
самое сложное - это подстановочные гиперссылки. тут еще я даже не все варианты придумал. реализую по мере того, как сталкиваюсь с различными реальными случаями при обработке. но получается пока очень сложно. Подстановочные - это когда ссылки не на номера страниц, а не некие номера, которые раскиданы по многим страницам. Задача по максимуму автоматизировать их сбор со страниц книги и формирование таблиц подстановки.

 
интересно, интересно))
я как раз пару недель назад, перед отпуском, закончил работу над новыми возможностями WinDjView Extended, позволяющими переходить на нужное место на странице из букмарков и аннотаций.. для некоторых типов ссылок это очень актуально..
в pdf возможность позиционирования предусмотрена его стандартом, а вот в djvu с этим всё очень плохо.. есть конечно возможность через cgi-аргументы сделать позиционирование, но в большинстве вьюверов эти ссылки работать не будут и перехода не то что в нужное место на странице, даже на нужную страницу не произойдет((.. в новом же Extended'е будет такая возможность позиционирования, которая не будет мешать другим вьюверам работать штатно с данными ссылками, т.е. переходить на нужную страницу..
на следующей неделе возвращаюсь из отпуска и если нужно (если предполагается в кромсаторе делать гиперссылки с позиционированием для pdf и djvu), могу сбросить в личку новую версию Extended'а с описанием формата новых гиперссылок (т.к. в паблик пока не выкладываю, кое-что еще подшаманить надо).. а ежели позиционирование не предполагается, то оно в принципе и не надо тогда))
 
 
 
Добавлено:
TelecomUral

Цитата:
видимо, вот правильный вариант
https://disk.yandex.ru/d/mXx_Cmkow5u6_Q
 

этот уже чуть лучше))
Цитата:
а попонятнее можно?

если в просмотрщике выбрать "вид->режим->черно-белый", то видно какие лишние элементы вошли в маску..

----------
DjVu Utils

Всего записей: 1503 | Зарегистр. 26-07-2007 | Отправлено: 19:41 09-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME

Цитата:
а ежели позиционирование не предполагается,  

СК не поддерживает позиционирование на определенную часть страницы. Это бывает нужно ну очень редко. В большинстве случаев достаточно просто прыжка на страницу. Для pdf без позиционирования ссылку вообще не опишешь, поэтому СК позиционирует на верхний левый угол страницы. Возможно, когда-нибудь добавлю такую возможность как опцию.
 

Цитата:
если в просмотрщике выбрать "вид->режим->черно-белый", то видно какие лишние элементы вошли в маску..

Я уже как-то объяснял, что для малоцветных зон белый - это тоже цвет, белый не есть синоним прозрачного. Зона - это то, что плавает над страницей, и вполне допустимо, что область зоны (включая белый фон) задумана закрывать собой то, что под ней на странице. Поэтому белый и кодируется маской. Можно ли сделать, чтобы белый не учитывался? Можно, для этого достаточно в малоцветной зоне включить опцию transparent, и белый цвет не будет кодироваться (при желании можно игнорить и другие цвета, близкие к белому, если порог transparent threshold задать >0).  
Другое дело, что в случае, когда малоцветкой кодируется не зона, а сам скан, т.е. то, что попало  на step1, белый цвет, если есть, не требует кодирования. Это я учту в следующей версии.
 
 
Добавлено:
sergiokapone
нужно смотреть что такое произошло с ocr-слоем этой страницы в основном задании. Чем сделан OCR (tesseract или FR c утилитой NME), в какой версии СК, редактировался ли он. Странно то, что блоки ocr в djvu начиная с какой-то страницы идут не последовательно, а хаотично (т.е. выделяются не последовательно, а кусками сверху, потом снизу, потом с середины). Я такое первый раз встречаю, такое ощущение, что блоки переставлялись местами. СК сам блоки вообще не тасует, а берет в том порядке, в котором они описаны в парсере от NME. Интересно, что этот хаос блоков присутствует на всех страницах где есть формулы.

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 21:29 09-08-2024 | Исправлено: bolega, 21:51 09-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 

Цитата:
Чем сделан OCR (tesseract или FR c утилитой NME)

FR12 + утилита NME
 

Цитата:
 
в какой версии СК
 

 
7.0
 

Цитата:
редактировался ли он

 
нет
 

Цитата:
 Странно то, что блоки ocr в djvu начиная с какой-то страницы идут не последовательно, а хаотично (т.е. выделяются не последовательно, а кусками сверху, потом снизу, потом с середины). Я такое первый раз встречаю, такое ощущение, что блоки переставлялись местами. СК сам блоки вообще не тасует, а берет в том порядке, в котором они описаны в парсере от NME. Интересно, что этот хаос блоков присутствует на всех страницах где есть формулы.

 
Да странно. Но FR12 просто автоматом распознал, и все. Я ничего не трогал.

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 21:52 09-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Переделал OCR на FR15 + парсер NME последней версии - все нормально внедряется. Похоже, какая-то проблема с FR12.

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 06:17 10-08-2024 | Исправлено: sergiokapone, 06:20 10-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sergiokapone

Цитата:
Похоже, какая-то проблема с FR12.

Будем иметь ввиду.
Вы не используете CPC? В новой версии я добавил поддержку результата работы CPC при создании djvu.
 
Кстати, по поводу малоцветки. Вот фрагмент файла
https://workupload.com/file/2smCjGvZ8Gd
На странице 35 (по порядку) и далее через одну на каждой из них слева была зона с градиентной заливкой. Я случайно включил для зон кодировать как малоцветку. Получилось интересно. Несмотря на приличное количество цветов (96) и 1200 dpi(!), размер одной страницы в данном фрагменте получился меньше 10кб (37я и ниже вообще по 7-8 кб, и только самая первая - 35я - 10кб), что больше характерно для ч/б текстов 600dpi.

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 11:47 10-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
о 1200.  
Что оно плохо сжимается, мне известно давно. И я в поисках причин проводил такой эксперимент. Состряпал из ворда png-шки в 1200, штуки четыре, и скормил DEE. Коэффициент сжатия был ого-го, страничка А4 12го кегля (или даже 10го) получалась что-то порядка 2,3-3,4кб, если на ней словаря не было. Так что причина невысокого сжатия обычных книг в несовпадении конкретных глифов. В примере Шанцера и первые странички по 6кил. Потому что печать хорошая, цифровая, и бумага тоже нормальная.
Но. Увы, я пробовал для старых книг задавать aggressive. Не помогает. Слишком сильное различие между буквами. А если вручную задавать коэффициент, сразу лезет проблема ИНЬ. Причем жёстко лезет, замен  много и по многим парам. Даже удивительно было.
Эти эксперименты тоже одна из причин, почему я не склонен видеть книги в 1200. Зажмут коэффициент, получат искажения.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 12:40 10-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
о 1200.

Вы после "о" забыли добавить "!" ))
 
Добавлено:

Цитата:
Эти эксперименты тоже одна из причин, почему я не склонен видеть книги в 1200

поскольку качество моих 1200-поделок вроде бы хорошее (нет там инь-янь), то дело значит исключительно в том, что вас не устраивает размер? Странно, вроде бы 21 век, а ради лишних 10 Мбайт нужно от отказываться от более высокого качества отображения. Или мне кажется, что качество отображения 1200 лучше?

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 12:52 10-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
Или мне кажется, что качество отображения 1200 лучше?

в довоенном Бреме гравюры (штриховые рисунки! как меня сотрудница отдела редкой книги поправила недавно) однозначно лучше смотрятся в 1200. А вот книги от krestik (publ.lib.ru) в 1200 нафиг не нужны. Я их качаю, конечно, но открывать не собираюсь. Есть версия в 600, она поменьше и быстрее листается.
 

Цитата:
дело значит исключительно в том, что вас не устраивает размер?

Да, у меня наверное свои заморочки в башке, которые сходу непонятны.  
По-простому если объяснять, то мне публично выпущенная книга представляется окончательным эталоном. Считаю, что бумажного экземпляра более не существует. Тем паче это реально так.
Тогда определяющим моментом получения книги становится канал доступа до устройства визуального отображения читателю. Это а) интернет-канал б) диск/память в) экран/принтер/типография.
И по личному опыту, техника у русскоязычного человечества это далеко не "21й век". Никакие не 12е айфоны и не МФУ по 300 тысяч. И в мегаполисах России живет дай бог если 20% населения. А остальные что? Они физически не имеют возможности ни скачать книгу, ни просмотреть-отпечатать ее в предлагаемом качестве. И не будут иметь.
Ну ладно, "не надо думать о других, люди сами разберутся в своих проблемах". Согласен. Пусть будет эталон, уж я-то сумею и принтер нужный себе раздобыть, и диск прикупить, и на оптику до квартиры перейти.
Сумею.
Но только вот нихрена себе расходы! Они зачем? И на этом вопросе я провожу себе чёткую грань: вот Брема я буду печатать по-максимуму. И бумагу выберу, и типографию. А серию ППФ Географгиза - не буду. Нет там для меня печатной информации, достойной к печати в 1200. Ну нет. И не буду я читать эту серию на мониторе 4К.
Всё равно деление по типу материала остается, даже для меня конкретно. Ровно из-за того, что глаз имеет вполне физические константы. И если шкурка на ехидне в Бреме требует отсмотра на 1200 с глянцевой высококачественной бумаги (я видел хорошие - типографически - книги и понимаю, о чем именно речь), то глиф с типографской литеры 1948 года отливки в 10м кегле и после ста тысяч оттисков - ну не имеет такой же художественной ценности Ну не имеет, и никуда от этого факта не рыпнешься, по-моему.
Поэтому лепить всё в 1200 только потому что это технически стало возможно - неа, перебор. Да, я восхищаюсь как именно смотрятся буквы в ваших книгах по искусству последних лет. Сказка. Но печатать я их буду на 600дпи, и смотреть на 16-дюймовой севшей матрице ноутбука 2010 года выпуска. Для текста этого достаточно было и достаточно будет. Там же интегративные функции мозга работают.  
 
Это строго ИМХО.
 
Интересно, а вы что, поддерживаете выкладку советских комедий Гайдая в 4К ?
 
upd
мелочь, но важная: книги крупного размера не удается перекинуть через почту. Обычно ограничения, с которыми я сталкиваюсь, от 10 до 30Мб.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 13:33 10-08-2024 | Исправлено: TelecomUral, 14:02 10-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
поддерживаете выкладку советских комедий Гайдая в 4К ?

поддерживаю, но качать не буду ))
ОК, на самом деле я выбираю dpi дифференцированно. Не подумайте, что все мои поделки на 1200. Кстати, по искусству в основном на 600.  
Когда я выбираю 1200? Когда имеется мелкий шрифт, когда вижу, что серифы соседних букв сливаются меньше на 1200 чем на 600, когда книга редкая, когда забываю переключить опцию dpi на 600 ))
 
 

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 14:02 10-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вижу, что серифы соседних букв сливаются меньше на 1200 чем на 600

а это уже зависит от алгоритмов обработки?
Знаю, о чём вы, сталкивался и не раз. Неприятно смотрятся слипшиеся перемычки. Но технически напрашивается провести обработку в 1200, а потом итог понизить до 600.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 14:06 10-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а это уже зависит от алгоритмов обработки?  

фильтры использую одни и те же. Но если удается разделить серифы просветом толщиной хотя бы один пиксель, то уже хорошо. Если потом понизить до 600, просвет исчезает как правило.

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 14:16 10-08-2024 | Исправлено: bolega, 14:23 10-08-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru