Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

Открыть новую тему     Написать ответ в эту тему

Maz



Дед Мазай
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие темы: 1 часть | 2 часть | 3 часть | 4 часть

ScanKromsator

Знаменитый Кромсатор для обработки получаемых при сканировании изображений страниц.  
Автор: bolega
ScanKromsator в Википедии: http://ru.wikipedia.org/wiki/ScanKromsator
 
Обсуждение создания e-книг: Электронные книги: скан, обработка, сборка  
 
Текущая версия программы : ScanKromsator v7.00 | ScanKromsator v6.75
Добавки и замечания от bolega:  
к v6.91 |к v6.8 | к v6.75
Туториалы по ScanKromsator v6.72 и выше
Не используйте в версии 6.75 опцию Overwrite original scans after rotate!  
Это приведет к повреждению исходных сканов, если они не в формате jpg и их dpi>300.

Предыдущая версия программы: ScanKromsator v6.71  
Подключаемые утилиты и их настройка.
Предыдущая стабильная версия: ScanKromsator 6.00.5  
Устаревшие версии:
Подробнее...
 

Новое в 6-й версии
Изменения в версии (5.92) + описание нового порядка обработки (с "финализацией" файлов)
Учебный пример от bolega по использованию зон
Хелп v1.0 для Кромсатора. Есть в PDF (368 КБ)
 
Подборка ответов bolega про работу ScanKromsator (версия 1.0.2 с закладками и сносками), 2016 г.
 

Работа с автоглифами
Как подключить: шаги
Парсер    версия 2.3.1 из ветки утилит NME
Видео bolega про работу с автоглифами  (третья из четырех частей про  версию 6.72) https://disk.yandex.ru/i/AbTv4koTmCGogw.  
 

Как вставить OCR в PDF
Подробнее... | Иллюстрация алгоритма
 
 

Видеоуроки про ScanKromsator
 
Видео от bolega:
  Обработка зон. Часть 1. Версия с таймлайнами на youtube
    Как правильно обрабатывать зоны с фоном (чистка фона страниц в иллюстрациях).

  Обработка зон. Часть 2. Версия с таймлайнами на youtube
    Раскрашенные зоны, переобработка зон, габариты страниц, ребинаризация, удаление спеклов, малоцветные зоны и создание djvu.
 

Видеоролики других авторов: Подробнее...


О Хрестоматии 2.1 SK
ВАЖНО!


Перед тем, как задать вопрос, читаем внимательно файл sk.N.N.whats.new.txt



Выкладывайте субтаск своего задания, когда задаёте вопрос о работе SK.
Инструкция по созданию субтаска в следующей строке!

Что делать, если ScanKromsator не делает то, что хотелось бы...
И ещё bolega о том же самом...  
и, наконец, от него же ОКОНЧАТЕЛЬНОЕ РЕШЕНИЕ.

Всего записей: 39133 | Зарегистр. 26-02-2002 | Отправлено: 21:56 14-09-2023 | Исправлено: TelecomUral, 17:04 07-10-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кстати, по искусству в основном на 600.

Вспоминал, что именно было в 1200. Не вспомнил, но зато нашёл файлы. Двухтомник "225 лет Академии художеств". и "Из записных книжек А.Чехова" 1968.

Всего записей: 3341 | Зарегистр. 15-07-2010 | Отправлено: 14:55 10-08-2024
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
Получилось интересно.

в своё время я даже хотел утилитку забабахать, которая создавала бы градиентную заливку областей, т.к. обычно градиент уходил в фон, сильно увеличивая размер файла, либо делился на несколько цветов, отображаясь явными полосами.. хорошо, что появился инструмент, способный загонять градиент в маску с хорошим качеством отображения)) интересно, как алгоритм с круговыми градиентами справится?))
 
по поводу текстового слоя..  
1. печально, что текст разбит только на строки, как в древнем DjvuOCR.. в таком виде его не удобно копировать и вставлять в текстовый редактор - приходится вручную удалять разрывы строк по абзацам.. понятно, что это из-за того, что парсер не определяет и не передаёт информацию о делении текста на параграфы.. есть ли смысл доработать парсер, чтоб текст в djvu еще и на параграфы делился? правда здесь есть нюансы - если для внедрения текста используется djvulibre, то ничего не получится, т.к. там на уровне констант прописано ставить перевод строки 0х0А после Line и 0x1F после Paragraph.. А надо после Line ничего не ставить, а после Paragraph ставить 0х0А - тогда текст будет с нормальным форматированием..  
2. при разрыве слова переносом, слово склеивается и вставляется в первую половину.. хотел попросить, если это не сложно, вставлять это слово во вторую половину.. так исторически сложилось, что Gencho в своём DjvuOCR при склейке слов с переносами сделал вставку именно во вторую половину слова, я в своём Crutch'е сделал так же.. это не особо критично и на поиск слова особо не влияет, но в Extended'е корректно будет отображаться выделение разделенного переносом слова (будут выделены 2 половинки слова на 2-х строках)..
3. похоже файнридер как-то сортирует зоны с текстом по их расположению на странице перед созданием текстового слоя в djvu.. думаю надо посмотреть на текстовые слои djvu, сделанные в фр, и так же желательно сделать в кромсаторе, чтоб нижний колонтитул не шел выше основного текста и формулы не разрывали выделение..


----------
DjVu Utils

Всего записей: 1503 | Зарегистр. 26-07-2007 | Отправлено: 15:08 10-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
там на уровне констант прописано

исходники открыты
 
Добавлено:

Цитата:
NME
есть ли смысл доработать парсер, чтоб текст в djvu еще и на параграфы делился?

я - за. И давно жду эту доработку. Должно ж быть по параграфам побито, для более корректного копипаста.

Всего записей: 3341 | Зарегистр. 15-07-2010 | Отправлено: 15:15 10-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NME

Цитата:
1. печально, что текст разбит только на строки,

это да, если парсер выдаст еще и параграфы, будет круто, но смогу ли я это применить, я не знаю пока. Но кому-то может и так пригодиться.

Цитата:
если для внедрения текста используется djvulibre, то ничего не получится, т.к. там на уровне констант прописано ставить перевод строки 0х0А после Line и 0x1F после Paragraph.. А надо после Line ничего не ставить, а после Paragraph ставить 0х0А - тогда текст будет с нормальным форматированием..  

Именно используется djvulibre.

Цитата:
2. при разрыве слова переносом, слово склеивается и вставляется в первую половину..  

я это сделал исходя из особенностей работы СК с ocr. И мне так больше нравится. Почему все выбрали другой вариант, мне непонятно. Например, когда ищешь слово, а подсвечивается его второй кусок, это непривычно.  
Подумаю, если получится сделать как опцию, сделаю. Мне не жалко. Но свои книги я делаю именно так.
 
Кстати, в этой книге градиент не для красоты сделан. Каждая глава имеет свою палитру градиента и обозначает цвет растений, которые в ней описаны.

Всего записей: 4571 | Зарегистр. 09-09-2002 | Отправлено: 15:43 10-08-2024 | Исправлено: bolega, 15:49 10-08-2024
NME



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega

Цитата:
если парсер выдаст еще и параграфы, будет круто

посмотрю, можно ли из той информации что парсит парсер (масло масляное))) выцепить инфу о параграфах, и если она там есть - добавлю.. Кратч её достаёт уже из готового текстового слоя после фр, там всё понятно.. постараюсь поискать её и в сыром материале..

Цитата:
Именно используется djvulibre.

ну, тут напрямую через djvused текст с параграфами внедрять нельзя, будет ещё хуже, т.к. и конец строки после Line сохранится, да ещё и 0x1F добавится после параграфов((  
есть мысли о паре способов как эту проблему обойти, не портируя код из djvulibre себе в программу, модифицируя его.. если найду инфу о параграфах в файлах фр и добавлю её в парсер, то тогда и эти способы потестирую..

Цитата:
Например, когда ищешь слово, а подсвечивается его второй кусок, это непривычно.

ага, мне тоже не нравилось.. да и подсвет только первой части тоже не айс.. поэтому сделал в Extended'е подсвет всех 2-х кусков слова.. но он происходит, если слово во второй части, а в первой пусто..

----------
DjVu Utils

Всего записей: 1503 | Зарегистр. 26-07-2007 | Отправлено: 21:42 10-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega
 

Цитата:
Вы не используете CPC? В новой версии я добавил поддержку результата работы CPC при создании djvu.

 
 
Использую.  
 

Цитата:
Кстати, по поводу малоцветки. Вот фрагмент файла
https://workupload.com/file/2smCjGvZ8Gd

 
Да, интересно.

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 22:35 10-08-2024
asku



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Кстати, по поводу малоцветки. Вот фрагмент файла
https://workupload.com/file/2smCjGvZ8Gd

 
Вот это качество!

Всего записей: 600 | Зарегистр. 04-05-2016 | Отправлено: 23:16 10-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
bolega
разделить серифы просветом толщиной хотя бы один пиксель, то уже хорошо. Если потом понизить до 600, просвет исчезает как правило.

думал, думал, как правильнее написать.
вы ж программист. просвет нужен для определения глифов, вероятно. Для сохранения просвета, наверное, что-то можно придумать со стороны ocr на этапе защиты перемычек.

Всего записей: 3341 | Зарегистр. 15-07-2010 | Отправлено: 05:56 11-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Для сохранения просвета, наверное, что-то можно придумать со стороны ocr на этапе защиты перемычек.

проблема очень непростая. просвета может не быть из-за кернинга. тут надо поисследовать.
 

Цитата:
Вот это качество!  

да тут качество благодаря идеальному исходнику. Типография отличная, напутали только с изданием: на обложке 2-е, а в титуле и в выходных - 3-е.

Всего записей: 4571 | Зарегистр. 09-09-2002 | Отправлено: 07:17 11-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
bolega, а Вы убрали из DjvuWizard в создание аннотаций (для оглавления. предметного)? Помнится, такой функционал вроде был.

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 12:20 11-08-2024
Benoni



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Был в СканКромсаторе.

Всего записей: 1859 | Зарегистр. 15-06-2006 | Отправлено: 15:15 11-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
sergiokapone
такой функционал вроде был


Всего записей: 3341 | Зарегистр. 15-07-2010 | Отправлено: 08:02 12-08-2024
indinc



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Пытался удалить выбранные области изображения, а именно:
Zones > Bulk operation
Operation: Delete zones
Zone type External picture
Only marked
Scope All files
Вылезла следующая ошибка: List index out of bounds (1)
SK v7.XP
https://www.upload.ee/files/16960620/SK7-TASK.rar.html

Всего записей: 31 | Зарегистр. 02-01-2006 | Отправлено: 12:16 12-08-2024 | Исправлено: indinc, 12:16 12-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral, в версии 7 такого не вижу.
 

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 16:15 12-08-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sergiokapone
Угу.
В непубличной версии есть.
 
Добавлено:

Цитата:
из-за кернинга

ocr-проги как-то же ее решают много лет.

Всего записей: 3341 | Зарегистр. 15-07-2010 | Отправлено: 16:23 12-08-2024
sergiokapone



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
 

Цитата:
Угу.
В непубличной версии есть.

 
У меня нету, я публичный )

Всего записей: 597 | Зарегистр. 07-06-2011 | Отправлено: 20:08 12-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
sergiokapone

Цитата:
Помнится, такой функционал вроде был.  

был давно убран, из-за сложного и непонятного интерфейса, да и вообще сырой.
Планирую вернуть его обратно после доработки, но это еще не скоро.
 
indinc
спасибо, баг будет исправлен

Всего записей: 4571 | Зарегистр. 09-09-2002 | Отправлено: 20:40 12-08-2024
GingerFox



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Всем добрый день. Не понимаю, как скачать программу. На Workupload зарегистрировался, но все равно получаю сообщение "This file is not publicly accessible."

Всего записей: 319 | Зарегистр. 06-11-2003 | Отправлено: 12:24 15-08-2024
bolega

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Не понимаю, как скачать программу

В шапке устарела инфа. Ссылка на последнюю версию здесь:
http://forum.ru-board.com/topic.cgi?forum=5&topic=51231&start=620#5

Всего записей: 4571 | Зарегистр. 09-09-2002 | Отправлено: 13:24 15-08-2024
GingerFox



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Благодарю!




Все благодарности, пожалуйста, старайтесь отправлять в ПМ пользователю, который Вам помог

Всего записей: 319 | Зарегистр. 06-11-2003 | Отправлено: 16:15 15-08-2024 | Исправлено: Maz, 23:47 16-08-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63

Компьютерный форум Ru.Board » Компьютеры » Программы » ScanKromsator | СканКромсатор (Часть 5)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru