Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)

Модерирует : gyra, Maz

Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v6.97 | ScanKromsator v6.91 |
 ScanKromsator v6.8 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
ScanKromsator. Хрестоматия 2.1. (версия от 25.12.2018)    Включённые в т.ч. материалы: Подробнее...
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 10:34 14-11-2018 | Исправлено: mvk2006, 21:12 04-08-2023
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
действительно, диакритика удалится


Цитата:
Если есть опасения на этот случай

 
Ага.
 
Теперь смотрите - это единственная "о" с крышкой на всю книгу и появляется она на 167-й странице. (Крышка, кстати, была прилипшей.) Пока я до неё с чисткой руками не дошел, никаких опасений у меня и не было. В авто-режиме легко мог бы и пропустить.
Теперь повторю своё предложение - если спеклы или наплывы (подсвечиваемый touching) находятся в чувствительной зоне ячейки тессеракта (вверху гласной буквы - как наиболее типичный случай, но тут может быть и заданная пользователем согласная  - польский, чешский, эсперанто) придумать какой-то дополнительный механизм индикации помимо обычной подсветки спеклов.
 
Я бы на глаза пользователю подсовывал. Можно в какой-нибудь пока еще неиспользуемый вырвиглазный цвет красить вместо обычной подсветки.

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 10:40 02-02-2022 | Исправлено: daa2013, 10:41 02-02-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
придумать какой-то дополнительный механизм индикации помимо обычной подсветки спеклов.  

А вы представляете сколько обычного мусора бывает в этой области, который вы советуете подсвечивать вырвиглазным цветом. И все это ради одной буквы в книге???
Я согласен, идея полезная, но надо учитывать, что в реальных условиях количество ложных срабатываний может быть велико (при наложении глифа на плохую букву сверху очень часто остается мусор, помимо того, что имеется там изначально).

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 10:55 02-02-2022 | Исправлено: bolega, 11:01 02-02-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Тогда можно так.  
Допустим, конкретную букву я не знаю, но возможность существования диакритики предполагаю. (Знаю, что в книге есть странные иностранные языки.)
Тогда включаю этот спецрежим.

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 11:17 02-02-2022 | Исправлено: daa2013, 11:27 02-02-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подсветка, о которой я говорил. В том числе марашки, касающиеся букв, одной или сразу двух соедних.

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 12:36 02-02-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
круть наикрутейшая.
 
а почему внутри "древних языков" спекл не засвечен?

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 12:47 02-02-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
daa2013
Я подумал, что подсветка потенциальной диакритики, даже вырвиглазом, может быть бесполезна. Небольшие спеклы просто легко не заметить, хоть как их ни расцвечивай. Проверял на себе не раз. А вот сделать как фильтр в списке замен не сложно.  Есть предложения как их отличать от мусора, чтобы максимально отсеять  ложные? Например, особые размеры (в долях размера буквы), и т.п.

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 12:57 02-02-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Небольшие спеклы просто легко не заметить, хоть как их ни расцвечивай.  

Согласен, именно поэтому я предлагаю подсовывать ячейки с ними пользователю на центр экрана. Т.е. не он глазами такое ищет, а СК перемещает фокус вьюера на сомнительное место.
 
Как уже писал ранее, для привлечения внимания также можно накладывать  что-то типа мишени:
   
 
 

Цитата:
Есть предложения как их отличать от мусора, чтобы максимально отсеять  ложные?  

Почти не встречал при обработке диакритику. Но подумаю.  
Словари слов, библиотека значков, ...
ИМХО чувствительная зона внутри ячейки тессеракта для гласных даст не так много срабатываний, как вам кажется. Хорошо бы такое попробовать как работает. ...
Но это я вокруг уже звучавших предложений кручусь.
 
Я подумаю.

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 13:12 02-02-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
а почему внутри "древних языков" спекл не засвечен?

Потому что он не касается ячейки глифа. Т.е. это обычный спекл, который удаляется стандартным способом, без применения нового алгоритма, напр., простой подсветкой спеклов. Если применять не просто подсветку, как в примере, а полную замену букв (реставрацию), то тогда он уйдет автоматом. А в примере именно показано, как без замены букв можно почистить скан от марашек. Вдруг вы не хотите заменять все буквы на эталонные.  
Нет, не так. Там 3 уровня граничной чистки. Сейчас включил другой уровень, и подсветился и упоминаемый спекл. Но это плохо сказалось на другой букве, одной, но все же. Там сложный случай, который я пока не  знаю как решить. Поэтому и уровень выбран не самый мощный. И это проявляется именно при граничной чистке/подсветке, при полной реставрации все ок.

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 13:13 02-02-2022 | Исправлено: bolega, 13:27 02-02-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Есть предложения как их отличать от мусора, чтобы максимально отсеять  ложные?

мне немного приходилось листать юникодовские таблицы на эту тематику. Всякие "А с точкой снизу" и тэ пэ. Алфавиты разные в мире, и встречается очень разное. Логики не уловил. Поэтому приходит на ум только подключение образцов конкретного шрифта. Типа "для проверки на диакритику используй шаблоны из таких-то языков, такого-то кегля". Иначе - трудно.
Для европейских и ближневосточных всё очень просто: дополнения к латинской/базовой букве располагаются по восьми областям вокруг основной буквы, и мелкими не бывают (обычно), то есть заполняют почти всю отведённую область. Средняя верхняя и средняя нижняя могут быть расширены вбок симметрично, но менее чем до середины боковых областей. Какая-нибудь тильда надстрочная так выглядит, на память. Но вот титло церковнославянское, по-моему, всегда накрывает букву с запасом.
 
UPD
ИМХО
всё же, если СК использовать "интернационально", то системно-правильный вариант обработки с OCR это указывать, какие конкретно шрифты применены в книге в конкретном месте. "в данном task: Гарнитура Литературная, кегль 9пт", "зона OCR, шрифт моноширинный Courier Cyr кегль 7,5пт".
 
+
и адрес типографии указывать: "Вологда, комбинат №1, конец квартала, бумага №2, и краски недолили (разбавили)"

 
 
UPD2
вот такие непропечатки возьмёт новый СК?

"с" в 4й строке снизу.

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 13:37 02-02-2022 | Исправлено: TelecomUral, 15:11 02-02-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
истемно-правильный вариант обработки с OCR это указывать, какие конкретно шрифты применены в книге в конкретном месте. "в данном task: Гарнитура Литературная, кегль 9пт", "зона OCR, шрифт моноширинный Courier Cyr кегль 7,5пт".  

 
можно попробовать тут образцы выдернуть
www.dxtf.ru
 
или еще где бесплатные варианты посмотреть

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 15:11 02-02-2022
AlexeiPetrov

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Столько много вкусностей, а в программе я этого никак не могу найти. Где же всё это?

Всего записей: 21 | Зарегистр. 29-08-2021 | Отправлено: 16:09 02-02-2022
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
то системно-правильный вариант обработки с OCR это указывать, какие конкретно шрифты применены в книге в конкретном месте

А как это можно применить?  
Все основное зависит от тессеракта. Остальное вторично. Хороший ocr решает все.
 
Добавлено:
AlexeiPetrov
http://forum.ru-board.com/topic.cgi?forum=5&topic=50023&start=2020#17
 
Добавлено:

Цитата:
вот такие непропечатки возьмёт новый СК?  

Надо проверять. Скорее всего возьмет

Всего записей: 4547 | Зарегистр. 09-09-2002 | Отправлено: 17:01 02-02-2022
D1D1D1D

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
Попробовал ради интереса сделать ocr. Задал rus+eng+deu, получилось плохо, все немецкие диакритич. буквы распознались как английские. Задал rus+deu, получилось более-менее.  

Хорошо получается, если полностью отключить языки ФайнРидера и создать свой со своим алфавитом, в котором перечислены все встречающиеся в тексте символы — с умляутами и тп.

Всего записей: 1400 | Зарегистр. 05-04-2010 | Отправлено: 17:41 02-02-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Про диакритику.
 
Идея № 1. Создать набор эталонных символов диакритики. (встроить внутрь СК.) Потом брать верхнюю и нижнюю субячейку от основной буквенной ячейки, где она может быть; отделять от базового символа; затем делать OCR субячейки с возможным знаком или еще каким методом определять близость к эталонному знаку диакритики.  
И только уже после определения знака диакритики определять наличие буквы с диакритикой.
 
Вроде тессеракт можно натренировать на пользовательские знаки.
Либо после определения потеницальной дикаритики и следовательно потеницальной буквы с диакритикой, можно эту букву включить в набор символов используемых тессерактом.
 
UPD: Их же не так и много в конце-концов, если без экзотики.
 
   
 
 
Идея №2
Вот тут в патенте (насколько я понимаю суть всей написанной бредятины) они меряют не расстояние от диакритики до буквы, а от диакритики до базовой линии и это дает лучшие результаты. Ну и картинки в патенте забавные.
Впрочем, возможно, что это только только для арабского справедливо.
https://patents.google.com/patent/US8977057B1/en
 
 
Идея #3  
 
вот тут  
https://cyber.felk.cvut.cz/theses/papers/444.pdf
 
для идентификации используются следующие характеристики диакритики
 
 

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 17:51 02-02-2022 | Исправлено: daa2013, 21:54 02-02-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Хорошо получается, если полностью отключить языки ФайнРидера и создать свой со своим алфавитом

вот кстати да! Я когда-то пробовал так - распознавание улучшалось на порядок, страница идёт часто со 100% опознавания. Было бы изумительно, если бы СК сумел запрограммировать используемый модуль тессеракта на основе найденных глифов. Эдакая самоподстройка и второй прогон.
 
Добавлено:

Цитата:
А как это можно применить?

по принципу, как и вышесказанное: известен шрифт, то есть известен контур. Точнее опознавание.

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 18:38 02-02-2022
slava_kry

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Робяты... я, конечно, извиняюсь, но не пришли ли вы в результате своего рвения к понятию "перевёрстка"!?
Просто слегка завуалированному.

----------
Вы выказываете себя праведниками пред людьми, но Бог знает сердца ваши, ибо что высоко у людей, то мерзость пред Богом

Всего записей: 4314 | Зарегистр. 18-09-2003 | Отправлено: 07:54 03-02-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Вот тут к опознанию диакритики в алибата (Филиппины) якобы метод опорных векторов применили:
 
 
https://peerj.com/articles/cs-360.pdf
 
 
https://github.com/rbp0803/An-OCR-System-for-Baybayin-Scripts-using-SVM
 
 

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 10:34 03-02-2022
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
не пришли ли вы в результате своего рвения к понятию "перевёрстка"!?

В идеале, к этому все и придет через N лет. Нейросети будут выдавать и проверять векторный текст, неотличимый на глаз от оцифрованного исходника.

Всего записей: 354 | Зарегистр. 10-08-2018 | Отправлено: 11:20 03-02-2022
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Некоторое время назад я высказывал пожелание:
 

Цитата:
Еще одна идея пришла. Не знаю заранее, насколько будет полезно. (Т.е. это не хотелка.)
Если есть выделение и ставится глиф, то ищется его лучшее положение внутри этого выделения. (возможно лучшее положение верхнего угла внутри выделения). Так можно полностью контролировать зону поиска. Расширять/сужать.

 
Оказывается, что в 6.71 это уже реализовано. И, оказывается, что это несколько неудобно.
Я незаметно для себя ставлю выделение. Потом оно уползает за пределы видимой на экране зоны. Потом я ставлю глиф. И не вижу этого ! А он оказывается черти где (там где выделение). Я могу его и повторно воткнуть, думая что просто плохо нажалось пасте.
 
Хотелка:
Либо полный запрет вставки в невидимой для юзера области.  
Либо (что лучше) в преференсах чекбокс. Вставка в выделенной области (если она есть) - или вставка строго в окрестности курсора мышки (невзирая на выделения).

Всего записей: 1044 | Зарегистр. 13-06-2013 | Отправлено: 06:19 07-02-2022
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
думая что просто плохо нажалось пасте

на такие случаи удобно звуком подтверждать.

Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 08:45 07-02-2022
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 4)
Maz (14-09-2023 21:57): ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru