Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
Предоставление инфы (четко описанный алгоритм), перевод статей с англ, языка.  

Ну, знаете ли, после этого уже проще будет самому сделать всё.
Может, Вам лучше с U235 скооперироваться, чем со мной?

Цитата:
Думаю, нужно использовать метод Sauvola Thresholding, который более гибкий.

Ай, да не всё ли равно? Можно на пробу и тот и другой - какая проблема.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 19:00 28-06-2010 | Исправлено: monday2000, 19:01 28-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000, ваша проблема в том, что вы можете дать идею, но реализовать один вы не сможете. Тогда делайте все сами, что мешает?

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 20:07 28-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
scantailor-osx
 
The opensource Scan Tailor App pre-compiled for OSX
 
http://code.google.com/p/scantailor-osx/
 
Добавлено:
Одно из слабых мест Scan Tailor - это бинаризация.
 
На некоторых сканах в DjVu буквы получаются слишком истончённые. Например, на старых советских книгах, пожелтевших и плохо-пропечатанных (годов этак 1965).
 
С другой стороны, если увеличить порог бинаризации в СТ (чтобы буквы были пожирней - в нормальном виде), то обязательно "полезет" мусор бинаризации - всякого рода пятна.
 
Поэтому, по-видимому, идеальным вариантом было бы (в таких проблемных случаях) всё-таки увеличивать порог бинаризации, но научиться как-то по-особенному хитро (ценой малых усилий) вычищать вылезшую грязь. Я имею в виду даже не традиционный despeckle, нет, тут потребуется некий принципиально иной по принципу алгоритм "очищения от грязи". Такого алгоритма пока нет. Как вариант - делать OCR, и вычищать всё пространство за пределами букв (всё равно же OCR делать по-любому).
 
Добавлено:
Хотя, быть может, тут возможны иные подходы - скажем, какая-то особо хитрая обработка серых сканов. К примеру, в СК есть такая фича, как "Background cleaner". То есть очиститель фона на серых сканах. Под фоном тут, наверное, как раз и понимается вне-буквенное пространство на серых сканах. А "очистка" этого фона - видимо, нечто вроде подавления шума этого фона.
 
Действительно, если заранее суметь подавить шум фона (сделать фон более однородно-серым) - то тогда при последующей бинаризации можно и вправду немного завысить порог бинаризации - и пятна бинаризации не полезут (или гораздо меньше полезут).
 
Интересно, что же такое есть "Background cleaner" в СК? Наверное, что-то вроде селективной шумодавилки.
 
Правда, минус тут в том, что все шумодавы очень много пожирают ресурсов.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 10:43 29-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Для устранения мусора можно применять сглаживающий фильтр.
monday2000, ну что скооперируемся? Я же не прошу искать всю информацию, заново переписівать статьи на англ.языке. Я тоже буду переводить, искать, пробовать.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 11:22 29-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
ну что скооперируемся?

Мне не до этого пока.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 14:45 29-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000, давайте идти маленькими шажками.
Собственно интересует следующие алгоритмы:
1. Выравнивание освещения (в ST есть алгоритм выравнивания освещения, но он глобальный, и мне кажется сделан просто на изменении общей яркости для всего изображения; если не прав - поправьте).
2. Метод бинаризации (Отцу, Саувола).
Интересует алгоритмы в виде подробных статей.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 20:09 29-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
1. Выравнивание освещения

http://www.djvu-soft.narod.ru/bookscanlib/016.htm

Цитата:
Отцу

http://www.djvu-soft.narod.ru/bookscanlib/023.htm

Цитата:
Саувола

http://www.djvu-soft.narod.ru/bookscanlib/024.htm
http://www.djvu-soft.narod.ru/bookscanlib/025.htm

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:06 30-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Эти статьи читал уже неоднократно. В них очень скупо описана теоретическая часть, а исходный код, такое ощущение, просто выдран откуда-то с небольшими изменениями. Я не люблю браться за практ часть, полностью не разобравшись в теории.
monday2000, вместо того, чтобы решать несколько локальных задач, лучше решить одну комплексную. В результате работы появится теор. часть и углубление в материал.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 13:51 30-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
Я не люблю браться за практ часть, полностью не разобравшись в теории.

Вот Вам теория:
http://halfbakedmaker.org/2010/02/27/dewarping-pages/
Вот исходники:
http://diybookscanner.org/forum/viewtopic.php?f=3&t=110&p=1958&hilit=dewarp#p1958

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 12:05 01-07-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Рамиз Зейналов прислал мне сегодня исходные коды своего алгоритма Dewarping.
 
Подробнее см. http://www.djvu-scan.ru/forum/index.php?topic=61.0

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 10:38 07-07-2010
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Столкнулся с такой проблемой в Скан Тейлоре:
часть страниц нужно разрезать стандартно вертикальным резаком,  
часть страниц нельзя резать, но появляется проблема чистки средней вертикальной полосы грязи и проблема раздельного поворота каждого из разворотов,
часть страниц надо повернуть на 90 градусов и потом резать, но горизонтальным резаком (а такого нет в Скан Тейлоре).
 
Грязь в середине вычистил вручную, проблема с раздельными поворотами осталась.
Без горизонтального резака пришлось в книге оставить страницы повернутыми на 90 градусов.    
Подскажите, как эффективнее действовать в такой ситуации.   Книга - справочник с таблицами.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 19:56 08-07-2010
j52

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
Лично я пользуюсь прогой XnView - бесплатная, мультиязычная, есть режимы пакетной обработки. С помощью ее делаю предварительную обработку сканов - групповое выставление нужных размеров, DPI, е.нужно, поворот страниц.
Думаю, что лучше будет обработать все, как есть, СТ, с нормальной вертикальной разрезкой на страницы, очисткой и т.д., а потом, е.нужно!, развернуть с помощью XnView.
Интересно, как ты потом собираешься объединять горизонтальные и вертикальные страницы?

Всего записей: 534 | Зарегистр. 05-05-2004 | Отправлено: 20:49 08-07-2010
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
j52
Вот тут я выложил книгу (как сумел обработать):
http://chemistry-chemists.com/forum/viewtopic.php?p=9453#p9453

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 21:36 08-07-2010 | Исправлено: ycheff, 21:37 08-07-2010
j52

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
Гм..Ну, получилось то, на что я намекал в своем вопросе - при склейке одностраничных и двухстраничных листов одни листы получились большими а другие непропорционально маленькими. И даже одностраничные листы имеют разный размер. Как по-мне - очень "рябит".  
Именно против этого я использую XnView... Попробую на основе твоего файла сделать небольшой примерчик, где-то через час... выложу.
ЗЫ. А распознавание текста чем делал?

Всего записей: 534 | Зарегистр. 05-05-2004 | Отправлено: 22:50 08-07-2010
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Fine Reader 8.0

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 22:53 08-07-2010
j52

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
Ну вот
Ссылка
XnView
Взял 16 листов, стр.1,2 приведены к среднему размеру,
стр.1-уменьшена, а стр.2-изменение размера холста (т.е.без масштабирования)
Затем стр.1-10: пакетное преобразование - 300dpi, размер 1200x1600,
стр.11-16: пакетное преобразование - 300dpi, соотв.размер 2400x1600.
Затем СканТейлор - с разрезкой стр.11-16 и .т.д. -полный цикл.
И сборка.
 
А про распознавание я спрашивал потому-что DocumentExpressEditor тоже делает OCR, но довольно отвратно, Fine Reader действительно лучше...

Всего записей: 534 | Зарегистр. 05-05-2004 | Отправлено: 23:41 08-07-2010
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
j52
Спасибо, попробую поработать с выравниванием размеров страниц.
Этим пока не занимался.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 07:15 09-07-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
Будьте поаккуратнее с полями. На первый взгляд верхнее поле явно получилось маловато. А для обложки поля вообще лишние, см. пп. 7,8,11
 
А разрезать страницы можно (и нужно - для полной компенсации наклона) всегда - специально для этого случая в любом просмотрщике есть функция просмотра развотами.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 08:01 09-07-2010 | Исправлено: StanFreeWare, 10:34 09-07-2010
j52

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ycheff
Е.нужна помощь в настройках XnView могу подкинуть скриншоты насторек...

Всего записей: 534 | Зарегистр. 05-05-2004 | Отправлено: 15:58 09-07-2010
ycheff



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
j52
Да, хорошо бы скриншотик.   Спасибо.
 
В Ваших 16 страницах порезана Таблица 1, которую резать нельзя.    
Именно поэтому я ее оставил нерезанной - в порезанном виде пользоваться таблицей сложно - надо искать продолжение  на следующей странице.
Данная книга - не есть пример случая, когда надо выравнивать страницы, в других книгах конечно это теперь освою.
Может быть, стоило порезать, потом повернуть для компенсации наклонов, скомпенсировать вертикальное сползание в паре страниц разворота и склеить снова в единую страницу.   Но такой программы не знаю, а вручную долго делать.

Всего записей: 250 | Зарегистр. 27-09-2008 | Отправлено: 11:26 10-07-2010 | Исправлено: ycheff, 11:38 10-07-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru