Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39130 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 17:04 07-10-2024
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо, bolega

Всего записей: 1859 | Зарегистр. 15-06-2006 | Отправлено: 18:43 14-04-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
а эта фича что делает в визарде?

Цитата:
добавлен новый параметр Split threshold

 
upd
за хоткеи создания глифов по selection большое спасибо! Только второй не так работает, как мы переписывались. Берёт крайние куски, а по идее не должен бы. Он же должен быть без selection тогда - ?
А первый работает чётко.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 04:45 15-04-2024 | Исправлено: TelecomUral, 07:58 15-04-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я еще не юзал новую версию, но помнится была переписка о том, что хорошо бы сделать масштабирование глифов. Вот у меня есть отсканированный в высоком разрешении комплект литер из фотонабора. (Там разных кеглей даже в образцах не существует). Или я сделал захват векторных образцов.  
Я исхожу из того, что этот комплект бинаризован.
 
Допустим, высота буквы "Н" там составляет X пикселей, а в обрабатываемой книге нужно Y. То есть задать или пропорцию уменьшения/увеличения, или целевое число пикселей. (Может и то и другое.) Т.е. там нужны какие-то промежуточные операции перевода в серое - масштабирования - бинаризации, а также желательно утолщения/утоньшения всех пикселей на закладке.

Всего записей: 1064 | Зарегистр. 13-06-2013 | Отправлено: 08:24 15-04-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
а эта фича что делает в визарде?

Вы знаете, что когда СК обнаруживает пересечение блитов, имеющих разный цвет, он разбивает их на несколько отдельных, чтобы исключить пересечение окраски.  
Сюда попадает и случай, когда блит окрашивается не полностью. Это происходит из-за того, что СК область окраски берет из маски зоны, а блит - из реального step2-djvu. Из-за lossy-кодирования маски могут не совпасть, по крайней мере если в зоне текст и включена прозрачность. Окрашивается все, что попадает в маску, в тифе текст и его маска совпадают идеально, а вот после lossy-кодирования есть небольшие расхождения. И эти расхождения СК трактует как несовпадение окраски, и вынужден дробить блиты. В итоге получается такая картинка: текст окрашивается, но по его периметру остаются черные точки (спеклы; это точки которые появились в блите и которых нет в исходной зоне). Повторю, что это в основном возникает когда для зоны включена прозрачность. Еще бывает из-за несовпадения размера тифа и размера зоны (например, размер b/w зоны случайно изменили мышкой в VR, в этом случае СК вынужден зону слегка ресэмплить в djvu).
Split threshold определяет допустимую толщину этих паразитных точек (именно толщину, а не размер). Если толщина окажется меньше или равна threshold, то СК не будет расщеплять блиты.
 

Цитата:
Только второй не так работает, как мы переписывались. Берёт крайние куски,

Не понял. Команда работает так: берет в глиф все буквы, чьи фрагменты попали в выделение. Т.е. чтобы добавить букву в библиотеку, не нужно выделять всю букву, достаточно любой ее фрагмент. Вторая команда работает также, но делает глиф прозрачным с боков, т.е. на случай, если буква наклонная и может наложиться на соседнюю. Но по любому в выделение не должно попасть лишнее, т.е. куски соседних букв. Если на скане буквы слипаются, то данная команда бесполезна.
 
 
Добавлено:
daa2013

Цитата:
что хорошо бы сделать масштабирование глифов

это есть в планах. не все сразу. я не придумал как это делать визуально. Проапсэмплить не проблема, проблема как потом бинаризовать, нужен какой-то механизм интерактивности с подбором порога, а его нет для глифов, и как его сделать, я пока не знаю.
 

Цитата:
нужны какие-то промежуточные операции перевода в серое - масштабирования - бинаризации, а также желательно утолщения/утоньшения всех пикселей на закладке.

это сделал (см. whatsnew), но только для мини-редактора глифов, а не для всех на закладке. Т.к. для редактора есть возможность undo, а для закладки - нет. Но не проблема сделать для всех глифов сразу, если вас устроит без возможности undo.
 

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 08:28 15-04-2024 | Исправлено: bolega, 10:03 15-04-2024
daa2013

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
если вас устроит без возможности undo.

 
Я бы так делал - сначала клон всей закладки (условной эталонной закладки с образцами) со всеми глифами.  
Затем уже клон редактировал.  
То есть Undo реализовывалась бы созданием и ликвидацией закладок-клонов.  
 
 
Добавлено:

Цитата:
как его сделать, я пока не знаю

а превью с подбором колескиом на одной букве невозможен ?  
с автоматическим распространением на все остальные после одобрения

Всего записей: 1064 | Зарегистр. 13-06-2013 | Отправлено: 09:20 15-04-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
Но по любому в выделение не должно попасть лишнее, т.е. куски соседних букв.

а! уловил. я с прозрачностью толком не работал, не сообразил.
 
Я-то думал, вы реализуете и исходный предложенный вами вариант: крайние черные мелкие кусочки, захваченные прямоугольником селекта, считать мусором и отбрасывать.

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 09:31 15-04-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
вы реализуете и исходный предложенный вами вариант: крайние черные мелкие кусочки, захваченные прямоугольником селекта, считать мусором и отбрасывать.

так не получается, т.к. нужная буква может тоже оказаться в выделении через свои крайние точки, и различить нужное от ненужного оказывается невозможно.
 
Добавлено:

Цитата:
а превью с подбором колескиом на одной букве невозможен ?  

для этих целей уже есть бегунок бинаризации, дополнительно вводить другие элементы не планирую. Сейчас бегунок применяется к скану, но добавлю переключатель чтобы применялось к мини-редактору, который и будет выполнять роль preview. Так что возможно как вы предложили

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 09:56 15-04-2024 | Исправлено: bolega, 10:00 15-04-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
так не получается, т.к. нужная буква может тоже оказаться в выделении через свои крайние точки

теперь я не понял.
Вы с самого начала предложили эрзац-решение: внутри прямоугольника selection искать прилипшие к его границам мелкие черные кусочки и удалять их. Не соображу про что ваша фраза "нужное от ненужного": исходно ведь предполагался размер прилипших черных спеклов (да? типа спекла или марашки). Это и при авторасширении selection до границ черных кусков букв (которые захвачены selection) должно сработать. Хотя лично меня привлекает именно первоначальный "эрзац"-режим, он марашки должен хорошо коцать.
 

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 10:11 15-04-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ну тогда нужен 3-й хоткей
сейчас выделение задает лишь область, с которой надо начать поиск связанных компонент, которые в нее входят.
эрзац-вариант работает по другому: берем только то, что вошло в выделение (и ни пикселем больше), все что пересекает границу, удаляем. Если на границе оказалась часть самой буквы, то она тоже удалится (
 

Цитата:
мелкие черные кусочки и удалять их

тут я был не прав. у нужной буквы тоже могут быть мелкие составляющие, и выделение может оказаться таким, что они будут на границе. Изначально предполагалось что выделение будет грубым, если начать следить за мелкими кусочками, то толку от такого хоткея никакого

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 10:30 15-04-2024 | Исправлено: bolega, 10:36 15-04-2024
zbolv

Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
чуваки как все эта асвоить. У миня уже голова калесом кагда прачитал кучу на форуме про СК. А типерь ищо звуки? Хто скажет што все прибамбасы освоил и приминяет? Пакажись такой




Нарушение п. 2.5.5. главы VIII Соглашения по использованию

Всего записей: 100 | Зарегистр. 26-03-2024 | Отправлено: 10:30 15-04-2024 | Исправлено: Maz, 20:22 15-04-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
да все и не надо осваивать. я и сам со временем многое забываю
а звуки - это второй эшелон защиты при глифировании, глаз устает и пропускает ошибки ocr, проговаривание уменьшает вероятность пропустить ошибку. проверено на личном опыте

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 10:43 15-04-2024 | Исправлено: bolega, 10:43 15-04-2024
zbolv

Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
да все и не надо осваивать. я и сам со временем многое забываю  
а звуки - это второй эшелон защиты при глифировании, глаз устает и пропускает ошибки ocr, проговаривание уменьшает вероятность пропустить ошибку. проверено на личном опыте

Умный вы брат! Риспект за долгожданную новую версию ждал долго а типерь рад! Добраво здаровья брат! После всякой мишуры этай жизни получил радость ат ние!
 
Добавлено:
bolega
Сичас аткрыл задание с книгой зашибись редкостный экзимпляр решил на ней праверить сваи первые знания. В версии 6.97 почему та не аткрывалась Enhance... с илюминацыей. В версии 6,99 она открылась легко... тоисть баги ушли...




Нарушение п. 2.5.5. главы VIII Соглашения по использованию

Всего записей: 100 | Зарегистр. 26-03-2024 | Отправлено: 10:54 15-04-2024 | Исправлено: Maz, 20:22 15-04-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
некоторый оффтоп
 
bolega
я тут с раннего утра грузинский проверял. Обнаружил, что прямоугольник буквы захватывает мусор.
 

 
Буква опознана правильно, а прямоугольник много шире.
Это как исправлять? Писать разрабам тессеракта? Куда?

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 12:35 15-04-2024
zbolv

Запрет на пост
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
Сижу с утра на новой версии впичатление отличнае - надежность стабильность уверенность в программе отсутвие багов многих каторыя раньше доставали ужасна...
 
 
Добавлено:
TelecomUral

Цитата:
Это как исправлять? Писать разрабам тессеракта? Куда?

Чувак, Владимир Высоцкий для таких случаив как у тебя дал универсальный совет куда писать - в Спортлото... Точна помогут





Нарушение п. 2.5.5. главы VIII Соглашения по использованию
Нарушение п. 2.12. главы VIII Соглашения по использованию
3 суток, чтобы вспомнить "забытые" правила русского языка.

Всего записей: 100 | Зарегистр. 26-03-2024 | Отправлено: 12:42 15-04-2024 | Исправлено: Maz, 20:23 15-04-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
прямоугольник буквы захватывает мусор.  

так это и FR так делает. Это не мешает им правильно распознавать.
По поводу писать - не знаю, никогда не писал им, думаю, что это вообще бесполезно.

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 17:57 15-04-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
так это и FR так делает.

на русском не замечал. Всегда контур прямоугольника впритык к глифу со всех сторон.
 
upd
оказывается, определение координат зависит от типа тессерактовской работы (tesseract|LTSM|Combine).

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 18:07 15-04-2024 | Исправлено: TelecomUral, 18:23 15-04-2024
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Работаю в ТС. Выделяю несколько файлов.
Нажимаю на значок СК 6.99 с параметрами %P%N.
Открывается в СК только активный файл pic.0065.tif
Раньше СК 6.8 открывал все выделенные файлы.  
Где, что надо изменить?
 


Всего записей: 1859 | Зарегистр. 15-06-2006 | Отправлено: 19:41 15-04-2024 | Исправлено: Benoni, 19:46 15-04-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Benoni
Здесь вроде не топик про TC, но мне кажется, что %P%N не откроет более одного файла. Нужно юзать %P%S

Всего записей: 4570 | Зарегистр. 09-09-2002 | Отправлено: 20:07 15-04-2024
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, спасибо. Так получается.
 
И ещё: добавляю в библиотеку глиф. В предыдущих версиях СК он сразу становился активным. В СК 6.99 - нет. Что изменить, чтобы он ставал активным?

Всего записей: 1859 | Зарегистр. 15-06-2006 | Отправлено: 21:13 15-04-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
В Preferences библиотеки глифов внизу галка Activate glyph after adding.
 
Добавлено:
bolega
по звукам надо какой-то хелп или видео. Я разобрался, но это реальное мучение, протыкивать всевозможные режимы в поисках комбинаций включения Pronounce words.
А итог прикольный
https://disk.yandex.ru/i/vW47-up_OG95Vw

Всего записей: 3340 | Зарегистр. 15-07-2010 | Отправлено: 04:35 16-04-2024 | Исправлено: TelecomUral, 08:31 16-04-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru