Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
поддерживаю

 
Да, я поясню еще -- бывают например, типовые ошибки распознавания осетинского текста в ФР, которые я там же в ФР часто по поиску (иногда по поиску/замене) находил и исправлял.
 
Ну там,
вместо гъ в ФР гь,
ае вместо той лигатуры,
 
ну и так далее. И всегда, кстати, удивлялся скромному набору инструментов поиска в ФР.  
Вот если бы еще регулярные выражения были бы в СК, то ммм. )))

Всего записей: 582 | Зарегистр. 04-05-2016 | Отправлено: 14:16 06-06-2022 | Исправлено: asku, 14:17 06-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
И хотелось бы понять - а что за поведение на предпросмотре обрезки - когда рамка обрезанного белая и уменьшая её под ней видишь  

Не совсем понял, про какую рамку речь. Это в окне VR? Рамка, которая меняет цвет и вид при нажатии пробела?
 

Цитата:
Занятые книги, выдаются на час и только просмотреть онлайн....

Если листать книгу в максимальном масштабе в хроме (или edge), 2-page-mode, то можно вытаскивать из его кэша исходные сканы (это именно исходные, хоть и попорчены артефактами jpeg2000-кодирования, но это намного лучше чем убитый pdf или скриншот). В кэше имена совпадают с именем папки в ссылке на книгу, и нумеруются по порядку. Кэш-вьюер от nirsoft. Возни с этим много, но если нужно качество, то другого варианта нет
 
 
 
 
Добавлено:

Цитата:
а можно ли в СК сделать функцию поиска слов?  

А для чего это нужно?
 
В планах стоит добавление ocr в pdf и djvu. Одновременно с их созданием.  
Добавление в pdf почти победил. Там все сложно, намного сложнее чем в djvu, т.к. требует подбора параметров шрифта и его кодировки.
Правда, ocr будет только по словам.
Еще в планах добавление гиперссылок используя новый ocr.  
 

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 14:20 06-06-2022
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А для чего это нужно?

 
А я же чуть выше пояснил -- поиском ищу типовые ошибки ФР в распознанном осетинском тексте. Словаря для него (для языка) нет, поэтому выявление ошибок сильно усложняется.
 
Добавлено:
Например, ФР часто в распознанном тексте встречается в конце слова «оп», когда в реальности в 90% случаях там должно быть «он», ну и так далее.
И я в ФР поиском искал эти «оп». Ну и так далее.

Всего записей: 582 | Зарегистр. 04-05-2016 | Отправлено: 14:35 06-06-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А для чего это нужно?

я про редкие буквы в хорошем качестве думал. Типа, как "Щ" найти. По-моему, по книге это сейчас в СК сделать невозможно. Сначала надо найти хоть какую-то, потом перебирать страницы и делать анализ глифов. А так по ocr-слою вжик и готово на нужную страницу и нужную букву.

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 14:46 06-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
По-моему, по книге это сейчас в СК сделать невозможно.

Наоборот. Делаете анализ только для "щ" сразу для всей книги. Потом листаете смотрите списки замен, где лучше. И фильтр можно настроить, чтобы не включал сильно плохие экземпляры

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 14:57 06-06-2022 | Исправлено: bolega, 15:00 06-06-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Делаете анализ только для "щ" сразу для всей книги.

не понял. Это как? Во-первых, надо уже иметь глиф "щ". А вы вроде имеете ввиду "код буквы" - ?
Во-вторых, в видео было что анализ для данной страницы, плюс можно в панельке "бинаризации" задать плюс 5-10-20 страниц. Не книгу.

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 15:05 06-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это как?

Берете первый попавшийся глиф "щ", лишь бы не рваный. В видео я для примера выбрал анализ для selected (чтобы время не терять. т.к. вряд ли за раз можно осилить всю книгу), а в общем случае в том диалоге ведь можно выбрать любой диапазон, в том числе all pages.
 
поиск добавлю, не проблема. Надо только интерфейс продумать. То ли постранично, то ли сразу весь список найденных в книге показать (но в случае поиска одной буквы может оказаться гигантский список, не влезет всё, да и не практично), то ли последовательно (типа find next), ...

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 15:16 06-06-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
последовательно (типа find next

так будет удобнее. лишь бы при нажатии был учёт текущей страницы, если от последнего сдвинулся вручную. Какой-то текстовый редактор или вьювер, помню, меня бесил тем, что если уж пошёл искать от начала файла, то уж будь добр прощелкай все-все найденные строго по порядку А выбрать "с текущей вверх/вниз" просто невозможно было.

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 15:51 06-06-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 он вообще уберёт фичу ... Был ведь уже прецедент

 

Цитата:
 Раньше большое количество репортов о багах, реальных и кажущихся, меня действительно сильно расстраивало. Сейчас я уже к этому спокойно отношусь. Так что вопросы лучше озвучивать.  

 
Вернёте команду PDF links ?
У меня 4 отсканированных энциклопедии лежат, и во всех индексы есть ...

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 16:01 06-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вернёте команду PDF links

Если удастся переделать все под новый ocr и отказаться от frgrab

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 18:12 06-06-2022
DmitryKz

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, пожалуйста, что можно сделать, чтобы максимально улучшить результат? Книжка старенькая, сканировал сам, в разрешении 600, чтобы по итогу вышло максимально качественно, но это не особо помогло — буквы/символы страшненькие, детальки их отваливаются местами, хотя на сером скане выглядят более-менее прилично.
 
https://disk.yandex.ru/d/W62y_E0rAOBMSw

Всего записей: 3145 | Зарегистр. 29-09-2005 | Отправлено: 23:41 09-06-2022
VadimirTT



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DmitryKz
У Вас разрешение 600 дпи, а пиксельный размер, как при 300, как такое?
 
Добавлено:
СсылкаСделал по старинке, это минимально, что можно получить от Крамсатора.

Всего записей: 3333 | Зарегистр. 22-03-2005 | Отправлено: 00:26 10-06-2022
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
VadimirTT

Цитата:
а пиксельный размер, как при 300

Если не меньше!
 
Добавлено:

Цитата:
как такое?

Неправильный выбор параметров при сканировании.

----------
Better to remain silent and be thought a fool than to open your mouth and remove all doubt

Всего записей: 7164 | Зарегистр. 14-01-2005 | Отправлено: 00:55 10-06-2022
DmitryKz

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
У Вас разрешение 600 дпи, а пиксельный размер, как при 300, как такое?

Хех, а ведь вы правы... А я не заметил.

Цитата:
Неправильный выбор параметров при сканировании.

Не, с этим все хорошо было — сейчас перепроверил, благо я исходные, до пихания в СК, сканы сохранил. В задачу попали те, что получились после разворота и пересохранения SK (6.75). Интересно, что в 6.75 и разделения на развороты (Split) не было, мне пришлось дважды черновое кромсание запускать, но я решил, что сам чего-то не то сделал.
В 6.71 такого не наблюдается — сейчас также проверил — и размеры картинки соответственно разрешению, и Split отработал.
Наверно, в 6.75 какой-то параметр появился...
 
Читаю What's new, там, в частности, есть такой пункт:
- MW: Увеличена скорость работы черновой расстановки резаков (draft) для сканов, имеющих dpi = 600 и более.
Может, увеличение скорости работы за счет уменьшения размеров картинки и происходит...
 
VadimirTT
Огромное вам спасибо. Ваш результат гораздо интереснее. Про "минимально" вы имеете в виду при качестве исходного скана? Я понимаю, что дальше имеет смысл работать с глифами — просто ведь и в этом случае хотелось бы добиваться максимума. Если сможете дать устные ЦУ я готов далее самостоятельно разбираться. В любом случае спасибо!
 
Добавлено:
В общем, не пойму почему, но в 6.75, если сканы изначально развернуты, то при черновом кромсании с размерами картинки ничего редуцирующего не происходит, и резаки по разворотам расставляются.
Если же попросить СК сначала развернуть картинки, то резаки, можно сказать, не расставляются — просто находятся в каком-то нелогичном положении. А если еще и флажок поставить, отвечающий за пересохранение поворачиваемой картинки, происходит уменьшение размера.
Посмотрим, что bolega скажет — похоже ли это на баг...

Всего записей: 3145 | Зарегистр. 29-09-2005 | Отправлено: 06:07 10-06-2022 | Исправлено: DmitryKz, 06:32 10-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
DmitryKz
Это баг
 
Всем
Не используйте в версии 6.75 опцию overwrite original scans after rotate в диалоге DRAFT!
Это приведет к повреждению исходных сканов, если их dpi>300 и они в любом формате, кроме jpg
 
Я пожалуй эту ретро-опцию вообще уберу
 

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 08:11 10-06-2022 | Исправлено: bolega, 13:25 10-06-2022
DmitryKz

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Я пожалуй эту ретро-опцию вообще уберу

Имеет ли смысл ее убирать? Просто починить ее... А то если скан, скажем, в 600+dpi, может ли такое быть, что разворачиание "на лету" в MW будет медленнее, нежели чем если бы изображение было правильно ориентировано? Вам тут, конечно, виднее. Я-то не знаю механику — может, и так все будет нормально.

Всего записей: 3145 | Зарегистр. 29-09-2005 | Отправлено: 08:20 10-06-2022 | Исправлено: DmitryKz, 08:21 10-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Конечно же разворачивание на лету замедляет работу, особенно для 600dpi и больше. Но на этот случай лучше использовать предварительно команду Tools > Rotate and save. Я всегда ей пользуюсь и вроде глюков не было.
Единственный плюс разворота в draft был только для jpg-файлов: с какой-то версии фактического поворота не производилось, а использовалось свойство jpg поддерживать lossless-способ задания поворота. Такую же возможность в Tools > Rotate and save я еще не добавил.

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 08:45 10-06-2022 | Исправлено: bolega, 08:54 10-06-2022
DmitryKz

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Надеюсь, никто не против, что я добавил в шапку ссылку на версию 6.75 (снабдив предупреждением bolega, так как оно важно. Других изменений в шапке нет. bolega, возможно, вам тоже имеет смысл добавить свое предупреждение в ваш пост с версией 6.75...
 

Цитата:
Единственный плюс разворота в draft был только для jpg-файлов: с какой-то версии фактического поворота не производилось, а использовалось свойство jpg поддерживать lossless-способ задания поворота.

Тогда, пожалуй, лично я согласен с вами, что опцию оттуда стоит убрать, раз нет прозрачности и единообразия в том, как она работает с разными форматами картинок.
Примерно в этой же связи мне вспомнилась опция Despeckle на вкладе Processing опций. Обычно ведь Options в настройках программы это нечто, что раз и навсегда устанавливается и не меняется. Но при старте нового проекта Despeckle всегда установлена в Fine — что само по себе fine, нет проблем. Просто будто нелогична эта нестабильность именно в Options, которые ожидаются что будут статичными, раз и навсегда установленные, как, скажем, те же пути в Apps. Скорее, ее место в Profiles, разве нет? Я как-то выставил эту опцию в Safe, ожидая, что она теперь всегда будет по умолчанию, и несколько удивился, что каждый раз надо заново ее проверять — несколько раз я даже запамятовал это делать, поскольку на глаза она не попадается, а я полагал, что она в Safe.
 
bolega не нашел ответа в существующей документации и в командах СК — есть ли возможность в VR устанавливать опции Fixed deskew angle из Special, чтобы не выходить из VR каждый раз для подстройки поворота результата? Т.е. своего рода интерактивность. Или предполагается, что так не нужно работать со сканом на этом этапе?
 
Просьба — можно ли добавить в OCR Languages на вкладке More2 еще греческий язык? В математических формулах греческие символы часто встречаются.

Всего записей: 3145 | Зарегистр. 29-09-2005 | Отправлено: 11:17 10-06-2022 | Исправлено: DmitryKz, 11:20 10-06-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Но при старте нового проекта Despeckle всегда установлена в Fine  

Она берется из дефолтного профиля. Т.е. по умолчанию ее задают в профили, а в конкретном задании меняют в options. Все логично. Хотите всегда safe - задайте в профиле, а не в текущих options.
 

Цитата:
есть ли возможность в VR устанавливать опции Fixed deskew angle из Special, чтобы не выходить из VR каждый раз  

Нет. К тому же изменение этой опции потребует полной переобработки файла, а это делается только из MW.

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 13:50 10-06-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В ST-Advanced есть интересный механизм направляющих.  
Выставляется вертикальная или горизонтальная линия, и к ней можно прижать блок контента.
 
В SK есть рамка (Aux rectangle). Мне кажется что в RV для прямоугольного выделения можно сделать команду "прижать к рамке" и дать окошко со стрелочками, в какую сторону это выделенное и двигать.  (А можно и просто с клавиатуры стрелками).
 
А вспомнил я об этом из-за проблемы базовой линии при работе с глифами.  
Да, хотелось бы автоматом ее корректировать. Но если это сложно, то может вручную...  
Сейчас включаю сетку и примеряюсь по ней с расстояниями. При зуме, сдвигах скана вверх-вниз настроенная линия по отношению к изображению страницы уползает.  
Может, возможно выставить направляющую (а еще лучше две - верхняя базовая и линия по высоте строчных знаков), и к ним руками вверх/вниз глифы двигать ? А можно и стрелочками.
 
 
 

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 02:48 11-06-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru