Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Давайте сам исходный скан.

http://rghost.ru/43526322
 

Цитата:
Не, такие я точно не буду делать.

Вам виднее, у меня опыта мало в этом вопросе. Просто попадаются сканы разного качества. На некоторых после автообрезки приходится править чуть ли не все страницы из-за того, что недорезалось, на других - обрезается лишнее, и выбор чувствительности был бы весьма кстати. То же самое про выделение картинок - иногда автоматом выделяется чересчур много ненужного (скан тёмный, текст серый, пятна на страницах).
А красная подсветка на синих страницах всяко наглядней и быстрее воспринимается взглядом, чем синим по серому.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 22:12 03-02-2013 | Исправлено: LonerDergunov, 22:16 03-02-2013
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Официальный выпуск моего клона Scan Tailor:
 
Scan Tailor Featured
 
https://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 00:18 04-02-2013
unreal666



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ещё пожелания.  
- Сделать выбор цвета подветки PictureZones. Синие мигающие зоны на серых страницах плохо различимы. В большинстве случаев вместо синего я бы предпочёл более контрастный красный.  
Мигание - тоже не очень наглядно, приходится всматриваться, да и мигание начинается не сразу после переключения картинки. Удобней было бы добавть: если на этой странице зажать пробел - тогда зоны подсвечиваются сразу и постоянно, без мигания, отпустить пробел - мигание возвращается.

+1.
Синий цвет фигово видно. Красный был бы лучше. Да и по части мигания верно подмечено.
 
Добавлено:
monday2000

Цитата:
Из моего опыта сканобработки - это излишне. Выравнивание освещённости всегда благоприятно сказывается на последующей бинаризации.

выравнивание освещенности часто косячит содержимое зон картинок. Поэтому возможность его отключения желательна.

Всего записей: 6671 | Зарегистр. 14-02-2005 | Отправлено: 00:42 04-02-2013 | Исправлено: unreal666, 00:45 04-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Маленький нюанс.
В режиме Color/Grayscale если поставить-снять галочки White margins или Equalize illumination - на картинке не появляется знак вопроса. Визуально не видно, что она "ещё не готова".

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 00:55 04-02-2013
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я сделал англоязычное описание Scan Tailor Featured и выложил его там же:
 
https://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/
 
LonerDergunov

Цитата:
и выбор чувствительности был бы весьма кстати.

Это-то верно, только я за это не возьмусь - потому что это уже чистая математика, в которой разбираться надо - на теоретическом уровне.
unreal666

Цитата:
Синий цвет фигово видно. Красный был бы лучше. Да и по части мигания верно подмечено.  

Я за это не возьмусь. Проблема совершенно пустячная ИМХО. Лучше займусь чем-то более существенным.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 20:40 04-02-2013
unreal666



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
Проблема совершенно пустячная ИМХО.

ну если время, затраченное на визуальный поиск определившейся зоны картинок (0,5-3 сек. на стр. => 8-50 мин. на 1000 стр.), считается пустячным, то да.

Всего записей: 6671 | Зарегистр. 14-02-2005 | Отправлено: 20:57 04-02-2013 | Исправлено: unreal666, 21:04 04-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000

Цитата:
Я за это не возьмусь. Проблема совершенно пустячная ИМХО.

А синий цвет зон выделения - это кому-то кроме автора - удобно?
Может вообще в вашем форке глобально убрать мигание и изменить синий цвет на красный ?

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 20:58 04-02-2013 | Исправлено: LonerDergunov, 21:07 04-02-2013
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
unreal666

Цитата:
считается пустячным, то да.

А Вы попробуйте ручной dewarping сделать - вот тогда и увидите, сколько на него уходит времени.
LonerDergunov

Цитата:
Может вообще глобально убрать мигание и изменить синий цвет на красный ?

Я думаю, если бы цвет зон был бы красным, то мне бы сейчас говорили - "режет глаза, поставьте какой-нибудь более терпимый цвет". А если не красный - то какой - может, зелёный? По мне так синий в самый раз.  
 
А мигание вообще зачем, как Вы думаете? А затем, что оно позволяет увидеть каждый участок зоны покрытый синим и нет (через полсекунды) - что упрощает визуальный контроль правильности расстановки зон. Мигание - отличная придумка, убирать его ИМХО неразумно.
 

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 21:13 04-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А затем, что оно позволяет увидеть каждый участок зоны покрытый синим и нет

Теоретически я понимаю, но на практике в основном большинство сканов - чёрно-белые. И лично мне на чёрно-белых картинках наоборот - сложно различить нынешний оттенок синего цвета от чёрного, особенно если он ещё и не сплошной, а появляется-исчезает (мигает).
Особенно если участок чёрный, особенно если зона не прямоугольная, а вычурный рисунок. Приходится ожидать доли секунды когда рисунок снова мигнёт и вглядываться - что в нём выделено автоматически, а что не выделено.  
Обводить рисунок полностью вместе со всеми дефектами серой страницы - не очень хорошая идея. Вариант оставить как есть, понадеявшись, что "вроде разглядел, кажись весь рисунок подмигивает" - тоже ненадёжный, часто какие-нибудь серые участки внутри чёрного участка на самом деле не подмигивали, что выясняется уже после обработки.
Плюс на каждой странице теряются доли секунды на ожидание пока это самое мигание появится.
 

Цитата:
А Вы попробуйте ручной dewarping сделать - вот тогда и увидите, сколько на него уходит времени.

Было дело, пробовал, занятие не для слабоневрных; правда у меня и страницы были сфотканы разворотом - так что там всё сложно выглядело.
Автоматический dewarping совсем плохонький (год назад был во всяком случае) - страницы в трубочку скручивал. Имхо его или сильно переделывать нужно или же оставить как есть - изредка в качестве косметики использовать.
 

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 21:41 04-02-2013 | Исправлено: LonerDergunov, 00:07 05-02-2013
unreal666



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А Вы попробуйте ручной dewarping сделать - вот тогда и увидите, сколько на него уходит времени.

dewarping мне очень редко нужен, а вот зоны картинок есть почти в каждой книге, по крайней мере технической.

Всего записей: 6671 | Зарегистр. 14-02-2005 | Отправлено: 22:00 04-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати, а есть ли у программы хоткеи?
Напрягает постоянно волочить мышку - переключиться на зону картинок, на стандартный просмотр...
Add to auto layer - Substract from auto layer тоже делались с каким-то извращённым понятием об интерфейсе. Убрать из автослоя - надо выделить картику, кликнуть правой кнопкой мыши, отметить чекбокс, нажать ОК... Для следующей картинки чтобы добавить в автослой - опять проделать ту же процедуру. Появление выбора во всплывающем окне или сбоку на странице было бы комфортней, чем открывать-закрывать диалоговые окна каждый раз. А кликнуть на хоткей было бы ещё гораздо быстрее.
 
И да - вот эта процедура опять подводит к цвету выделения. Забыл вызвать смену типа слоя (добавить в зону картинок или исключить), не заметил, что картинка не подсвечивается - получился результат противоположный ожидаемому. Была бы подсветка более наглядной - было бы наглядней. Обводятся картинки одинаковыми красными линиями и приходится ждать-вглядываться - добавлена ли зона в зону картинок или наоборот исключена.
 
Добавлено:
Бывает по изображению попадаются мелкие чёрные точки, с которыми призван бороться Despeckicling.
Проблема в том, что работает он на автомате, и кроме трёх режимов настроить нельзя (и не надо). Но добавить режим ручного выделения точек - не помешало бы. Сейчас приходится в режиме Fill Zones вручную обводить зону с точкой. Точка одна, но приходится её выделять, рисуя треугольник или четырёхугольник и стараясь не задеть рядом расположенные буквы. Неплохо было бы если в этой зоне можно было дважды кликнуть левой кнопкой мыши (или нажать левую кнопку мыши с зажатой клавишой на клавиатуре) - и в режим выделения попала одна единственная точка (+небольшое пространство вокруг неё).

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 22:23 04-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
Ещё такое давнее пожелание.
Но не можете ли вы доработать производительность программы? Сейчас Scan Tailor использует лишь незначительную часть имеющихся ресурсов. Что на старом Атлоне-3000 с 2 гигами оперативки, что на четырёхядерном Core i7-920 с 18 гигами оперативки и исходниками-результатом-темпом на SSD - скорость обработки не сильно отличается.
Core i7-920 загружен лишь на 10-12%, памяти используется 100-300 Мб.
Повышение приоритета ничего не даёт.
Я бы с удовольствием выделил программе в несколько раз больше памяти и ресурсов процессора, лишь бы картинки отрисовывались в несколько раз быстрее.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 01:01 05-02-2013 | Исправлено: LonerDergunov, 01:03 05-02-2013
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
unreal666

Цитата:
dewarping мне очень редко нужен,

Но я же учитываю некое "суммированное" коллективное мнение, прежде чем что-то реализовывать в Scan Tailor Featured.
LonerDergunov

Цитата:
Но не можете ли вы доработать производительность программы?  

Нет, это для меня слишком круто.

Цитата:
Автоматический dewarping совсем плохонький (год назад был во всяком случае) - страницы в трубочку скручивал. Имхо его или сильно переделывать нужно или же оставить как есть - изредка в качестве косметики использовать.

Вот именно, вплоть до того, что вообще полностью переделывать. Или другая идея - распространять на произвольную страницу выставленные красные точки на текущей (а там их чуток по месту править).
 
Без вменяемого деворпинга о сколь-нибудь нормальной сканобработке можно и не мечтать. Оставлять искривленные сканы "как есть" - это каменный век, конечно же надо научиться их выпрямлять с более-менее приемлемыми издержками на трудозатраты.
BookRestorer превосходит Scan Tailor по качеству деворпинга, но и он часто лажает.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 19:22 05-02-2013
anagnost96

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
На самом деле, там даже и автоматический деворпинг, по моему мнению, нормальный -- ну, если не ждать от него чудес. С ним имеется, по большому счету, одна серьезная проблема, из-за которой его сейчас можно применять только для страниц, равномерно заполненных двусторонне выровненным текстом. Дело в том, что для определения правого края СТ ищет ровно две строки текста, обладающих определенными качествами, после чего считает, что прямая, заданная их правой границей, должна быть вертикалью. Так вот, при этом он автоматически хватается за самую длинную строку, и если она вдруг окажется длиннее остальных (ну, например, колонтитул на странице шире основного текста), то предполагаемая вертикаль на самом деле окажется диагональю с соответствующими последствиями для выравнивания. В общем, если бы можно было ввести дополнительную проверку, которая бы исключала из рассмотрения строки, длина которых заведомо лежит за пределами основного разброса значений, то это сразу сняло бы значительную часть проблем. Я как-то пытался с этим разобраться, но не довел дело до конца.

Всего записей: 132 | Зарегистр. 01-05-2009 | Отправлено: 20:36 05-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
Ещё пожелание - обрабатывать страницу только по запросу, а не после каждого переключения режима.
Сейчас это реализовано не очень удобно и страница рендерится почём зря. Поставил зоны картинок, переключился на Fill Zones - сидишь ждёшь пока картинка отрендерится. Переключился на другую страницу, потом вспомнил что на предыдущей не поставил какую-то зону или просто хочется убедиться что не забыл поставить - сидишь ждёшь пока картинка отрендерится.
Хотелось бы вначале отметить всё что надо - а потом уже поставить на пакетную обработку, а не обрабатывать страницы поштучно.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 23:12 05-02-2013
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerDergunov

Цитата:
Ещё пожелание - обрабатывать страницу только по запросу, а не после каждого переключения режима.

Это терпимо ИМХО. Нет предела совершенству, а мои ресурсы весьма ограничены.
anagnost96

Цитата:
Я как-то пытался с этим разобраться, но не довел дело до конца.

Важнее деворпинга ИМХО сейчас задач вообще никаких нет - во всём нашем книгосканировочном хозяйстве. Всё уже у нас есть в принципе - а деворпинга нет. Даже разработка робосканера-автомата и то пока бессмысленна - пока нет путёвого деворпинга.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 00:10 06-02-2013 | Исправлено: monday2000, 00:10 06-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это терпимо ИМХО

При наличии терпения можно вообще каждую страницу вручную обрабатывать
Программа для того и создана - чтобы облегчить и ускорить рутинную работу. И лишние сэкономленные минуты вместо терпения и ожидания можно было плодотворно потратить на более тщательную обработку скана.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 00:22 06-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
Я, наверное, надоел уже...
Но ещё вот такое пожелание. В режиме Mixed сделать автоматическую подчистку пространства вокруг выделенных зон картинок.
Почему? Да всё банально - для экономии времени при обработке - чтобы вручную отметить только нужные зоны и не заниматься удалением излишних..
Не все сканы одинаковые, иногда бывает, что бумага старая, серая, жёлтая, коричневая... И если выделить зону картинок, то в итоге вот так как-то получается:
http://rghost.ru/43600553.view
Если исключить пространство вокруг из зоны картинки, то результат не лучше:
http://rghost.ru/43600867.view
 
Приходится заходить в Fill Zones и обводить картинку с четырёх сторон дабы края её были ровненькие. Очень много времени уходит.
 
Технически, думаю, это выглядит несложно: Заменить белым цветом все те пиксели из автоматически определённой зоны картинок, которые находятся вне зоны, обведенной пользователем.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 20:41 06-02-2013 | Исправлено: LonerDergunov, 20:58 06-02-2013
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LonerDergunov
Эта проблематика меня интересует. Правда, я не задумывался именно о подчистке пространства вокруг зон.

Цитата:
Технически, думаю, это выглядит несложно: Заменить белым цветом все те пиксели из автоматически определённой зоны картинок, которые находятся вне зоны, обведенной пользователем.

Да, это реально. Более того - я хочу автоматизировать и облагораживание авто-зон. Если Enhanced рисует вокруг авто-зон описанный прямоугольник - то я планирую научиться автоматически делать внутри авто-зон максимальный по размеру вписанный прямоугольник - чтобы границы зон были в виде прямых линий - а не как извилистый растр (что есть сейчас). А излишки между вписанным и авто-зоной можно и забелять - нет проблем. Действительно, сейчас на подчистке авто-зон теряется непозволительно много времени - потери на 2-м месте после потерь времени на dewarping.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 22:22 06-02-2013
LonerDergunov



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
 Если Enhanced рисует вокруг авто-зон описанный прямоугольник

Попробовал - функция автоматического прямоугольника понравилась. Неплохо бы добавить её в Featured тоже (хотя бы взять нынешний кусок кода из Plus, а потом уже дорабатывать).
Заметил, что автопрямоугольники в Enhanced и Plus реализованы по-разному. Если страница чересчур старая (жёлто-коричневая бумага) - то Enhanced выделяет автоматом всю страницу с текстом, а вот Plus - только картинку, а текст делает чёрно-белым.

Всего записей: 2972 | Зарегистр. 11-07-2007 | Отправлено: 23:03 06-02-2013
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru