Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39130 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 17:04 07-10-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Что-то не то делаю

в верхней зоне поставьте у Text темносерый цвет, а не белый. А BG галку отключите, буквы-то белые.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 16:16 19-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, почему-то на выходе нумерация не захватывается. Почему так может быть?
 

 
test

Всего записей: 600 | Зарегистр. 04-05-2016 | Отправлено: 12:01 20-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Почему так может быть?  

комбинация enhance и типа порога, мне кажется.
А вообще-то - впервые такое поведение вижу.
 
Непонятно, на кой чёрт вы понаставили именно такие параметры обработки. Превосходный скан, с виду не надо ни enhance, ни correct illjumination, а уж вид бинаризации HighLight (порог=120 - !) тут вообще ни к селу ни к городу. Где-то во время таких обработочных вывертов номер уползает выше порога, становится слишком бледным. Я поставил тип бинаризации auto и номер проявился.
 
Хотя не исключаю и баг программы.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 12:30 20-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Непонятно, на кой чёрт вы понаставили именно такие параметры обработки.

 
Вы не могли бы на моем test'е показать какие параметры бы вы выставили?  
У меня стоят по умолчанию. Я обычно играю с бинаризацией, иногда другие параметрами. Когда вижу, что результат норм, то другие уже не трогаю.
 
Все сканы проекта примерно одного хорошего качества, и нумерация на страницах где только текст и номер страницы то захватывается, то нет.
На сканах, где есть хотя бы маленькая картинка, все норм.

Всего записей: 600 | Зарегистр. 04-05-2016 | Отправлено: 12:37 20-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вы не могли бы на моем test'е показать какие параметры бы вы выставили?

я же в Хрестоматии длиннющие тексты написал про бинаризацию. Там и общая метода есть.
 
Никаких улучшалок, вид бинаризации auto, вот и все мои настройки были.
 
Добавлено:

Цитата:
TelecomUral
комбинация enhance и типа порога, мне кажется.

мнение:
я считаю, что улучшалки в enhance приводят требуемый для картинки порог к среднему значению (128). Как-бы неявная цель любого улучшения это дать наиболее широкий диапазон отсчетов для полезной информации. Из этого исхожу, подбирая уровень порога.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 12:57 20-06-2024
zbolv

Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
Прошу подсказать, как обработать такую страницу. Что-то не то делаю.  

Задание выполнено, скачивайте: https://workupload.com/file/uudXjH6yX8k
 
Добавлено:
TelecomUral

Цитата:
в верхней зоне поставьте у Text темносерый цвет, а не белый. А BG галку отключите, буквы-то белые.

Не слушайте TelecomUral, он только запутывает людей, я вам решил задачу крайне просто, не меняя почти ваших настроек.
 
Добавлено:
TelecomUral

Цитата:
Хотя не исключаю и баг программы.

Здесь вы правы, TelecomUral, в примере asku проявился баг программы, который прослеживается на бинаризации normal, HighLight и custom. Возможно, автор программы заинтересуется.
 
 
Добавлено:

Цитата:
я считаю, что улучшалки в enhance приводят требуемый для картинки порог к среднему значению (128).

Из сериала бредовых мнений и идей. На форуме это полезно для разрядки напряженности. Браво, TelecomUral, мне понравилось, весело!

Всего записей: 100 | Зарегистр. 26-03-2024 | Отправлено: 13:45 20-06-2024 | Исправлено: zbolv, 16:33 20-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
asku

Цитата:
почему-то на выходе нумерация не захватывается

File > Options > Processing > Text vert.sensitivity сдвиньте ползунок на 1 деление вправо.
 
TelecomUral

Цитата:
Хотя не исключаю и баг программы.

Ограничение алгоритма не есть баг.
 

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 18:07 20-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Text vert.sensitivity

ммм... а как эта штука работает внутри? Какая может быть "чувствительность"? К размеру "мусора"? Типа данный номер опознается как пятно грязи на боковом и нижнем полях?

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 18:12 20-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
это чувствительность детектора полезного контента. Там много что учитывается. В том числе и то, что по размеру цифры номера превосходят любую букву на странице, поэтому относятся скорее к мусору чем к полезному контенту (принимается во внимание еще и значительная удаленность). Если сделать копию этого скана, и на ней номер вырезать, вставить, уменьшить размер вставки на 10-20%, слить и обработать, то номер захватится

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 18:35 20-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Превосходный скан, с виду не надо ни enhance, ни correct illjumination, а уж вид бинаризации HighLight (порог=120 - !) тут вообще ни к селу ни к городу. Где-то во время таких обработочных вывертов номер уползает выше порога, становится слишком бледным. Я поставил тип бинаризации auto и номер проявился.

 
TelecomUral, сейчас проверил, auto давал отличный результат, надо было его использовать. Но я уже столько сил затратил, что лень было переделывать.
 
А correct illjumination кажется в любом случае ничего не ухудшило.
А отсутствие enhance делало буквы грубыми (негладкими). enhance  всегда использую.

Всего записей: 600 | Зарегистр. 04-05-2016 | Отправлено: 19:36 20-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
asku
... enhance  всегда использую.

не собираюсь спорить
 
Опыт - могу передать. Я несколько книг сделал, думая что enhance панацея. Типа, уж какую-нибудь фичу из него всегда надо применить, будет только лучше. А потом приметил искажения, сильные. И понял, что просто глаз постепенно замыливается и уродство кажется нормальностью.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 19:40 20-06-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, а где можно глянуть ваши дежавю/пдф, сделанные без использования enhance ?

Всего записей: 600 | Зарегистр. 04-05-2016 | Отправлено: 20:02 20-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
оффтоп
 
Добавлено:

Цитата:
bolega
это чувствительность детектора полезного контента. Там много что учитывается.  

алгоритм, работающий на сером, зависит и от выбранного метода бинаризации?
Мне чисто на понимание. Замечал, что не все так уж просто с детекцией краев, но обычно разбираться и не нужно было. Просто оставил сейчас скан небинаризованным (color=original), а он все равно номер стирает, если highlight выбрать.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 03:44 21-06-2024 | Исправлено: TelecomUral, 05:14 21-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
алгоритм, работающий на сером, зависит и от выбранного метода бинаризации?  

да

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 08:00 21-06-2024
zbolv

Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
File > Options > Processing > Text vert.sensitivity сдвиньте ползунок на 1 деление вправо.  
это чувствительность детектора полезного контента. Там много что учитывается. В том числе и то, что по размеру цифры номера превосходят любую букву на странице, поэтому относятся скорее к мусору чем к полезному контенту (принимается во внимание еще и значительная удаленность).

Тогда почему это явление происходит на трех профилях бинаризации: normal, HighLight и custom с порогом бинаризации в 145-150, а при увеличении этого порога или даже уменьшении его относительно указанных значений, этого явления не происходит?

Всего записей: 100 | Зарегистр. 26-03-2024 | Отправлено: 10:09 21-06-2024 | Исправлено: zbolv, 13:39 21-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
подробности "своих" алгоритмов я не раскрываю. Поэтому, что есть - то есть.

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 14:34 21-06-2024 | Исправлено: bolega, 15:24 21-06-2024
zvezdochiot



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega say:

Цитата:
своих алгоритмов

Перебарщиваешь "слегонца". Вот у меня всего несколько фильтров, которые я мог бы назвать "своими", все остальные - вычитаны и позаимствованы. Такие вот дела.
 
 
 

Всего записей: 692 | Зарегистр. 18-05-2023 | Отправлено: 15:18 21-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
не приходила в голову мысль брать ocr-слой при импорте из дежавю или пдф ?

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 19:22 28-06-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
а что с ним делать, он же пословный, без координат букв. А с pdf все еще хуже, в отличие от djvu, там задается шрифт и его размер

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 21:40 28-06-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
там задается шрифт и его размер

я как раз подумал, что из шрифта можно точно вычислить матрицу буквы в пдф. Нет? Или сама идея неправильная? Не надо брать опору векторную, надо считать от растра?

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 03:20 29-06-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru