Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Не исключено, что лучшим решением будет упрощенный клон СТ (некий Magazine Tailor), заточенный исключительно под обрезку журналов.

Я тоже так думаю - нужна именно выделенная программа под это. Я и не предполагаю, что это будет делать Tulon в СТ - я просто на примере СТ обрисовал, как я вижу такую фичу.

Цитата:
В общем, пока похоже, что "малой кровью" задачу обрезки журналов в СТ не решить.  

Да, ИМХО сканировщики журналов пусть уж ждут лучших времён - когда такая спец. программа появится.
 
Вот ещё идея: возможно, не всегда разумно обрезать все страницы рамкой одинакового размера. Бывает, когда одна-единственная страница имеет несуразно большой размер - а все остальные заметно меньше размером. В основном так бывает в книгах - наверное, и в журналах так бывает.
 
PS Как-то сама собой всплывает идея, что нужен ещё человек, аналогичный Tulon, кто стал бы делать программу, похожую на СТ. Кто мог бы стать таким человеком? StanFreeWare, Вы не хотите ли? А что - не боги горшки обжигают. В любом случае -даже если бы Tulon всё делал правильно - ему одному физически не разорваться на части - чтобы удовлетворить всем запросам пользователей - слишком уж необъятна тема для одного человека.
StanFreeWare, сделали бы Вы хоть какую-то (пусть даже и плохонькую) свою СТ-подобную программу - ничего, с годами мастерство прийдёт - и Вы сможете её улучшить. Но надо же с чего-то начинать. Делать всевозможные "костыли" к СТ - ИМХО путь тупиковый, лучше уж сразу сделайте чисто свою программу (желательно без .NET, только не Delphi ради бога ).
 
И ещё одна мысль: жаль, что исходный код из СТ трудно повторно использовать. Было бы хорошо, если бы Tulon в своё время составил бы удобную для повторного использования библиотеку алгоритмов из СТ - по образцу моей такой библиотеки http://www.djvu-soft.narod.ru/bookscanlib/project.htm . Не так уж и много на это надо времени (в смысле, ему вычленить эти алгоритмы из СТ - а нам наоборот, много труда, который глупо-излишен).
 
Как раз составление всевозможных программных библиотек (алгоритмы, графический движок) - это и есть путь привлечения массовых разработчиков СТ-подобных программ.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:16 24-06-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Terom
Да, есть такой баг.  
Видимо это связано с сжатием tif-файла в JPEG.
Переведите Ваши файлы в tif со сжатием LZW, качества это уже не добавит, но ST с LZW работает нормально.

Всего записей: 980 | Зарегистр. 14-12-2005 | Отправлено: 09:22 24-06-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000
Внутрь СТ я не полезу. Даже несмотря на Ваш неуместно снисходительный тон.  
Используемой "костылями" (а их пока набралось 3 штуки, не считая сепаратор) технологии правки XML файла проекта мне сейчас хватает для автоматизации обработки любой книги.
Журналы менее интересны в принципе. Как и решение задачи их качественной обрезки.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 10:59 24-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
StanFreeWare

Цитата:
Даже несмотря на Ваш неуместно снисходительный тон.

Прошу прощения, мой тон не был снисходительным, это просто так, видимо, я неудачно выразился (я вообще никогда не пытаюсь кого-то обидеть). Я имел в виду то, что, возможно, некоторые люди не решаются сделать свою программу по сканобработке, стесняясь того, что они не смогут её сразу сделать "на уровне". Действительно, это объективно непростая задача.
 
Но лучше всё же сделать свою программу - пусть и не слишком высокого качества (преодолев ложное стеснение, если оно у кого-то имеется). Наверняка некоторые про себя рассуждали "куда уж я полезу с Tulon тягаться, не, я даже и браться за это не стану, всё равно мне лучше не сделать..." - что-то в этом роде.
 
Такие мысли всё же желательно преодолевать (если они есть у кого-то). Лучше начать, сделав хоть самую наипростейшую программку. Зато со временем она может быть улучшена (а если вообще не начинать, так и улучшать будет нечего).
 
Добавлено:
По поводу идеи Tulon прикрутить minidjvu к СТ:
 
Я тут нашёл упоминание об использовании DjVu Solo 3.1 в Wine (под Linux): http://hardworm.wordpress.com/2009/12/14/ .
 
Думаю, это вполне разумная идея. Во-первых, это совершенно легально (а те, у кого Linux, видимо только такое и хотят), а во-вторых - качество гораздо лучше, чем при использовании minidjvu.
 
Добавлено:
Как-то заглохло дело насчёт dewarping от Рамиза Зейналова. В последний раз он ответил мне, что выложит исходники своего dewarping на http://graphics.cs.msu.ru/science/research/ . На все следующие письма он уже не отвечает. Как жаль, что дело застопорилось.

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 15:41 24-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000, Программист, который знает свое дело никогда не описывает алгоритмы отдельно.
Вы же "запороли" алгоритм Зейналова, поэтому я дальше и не пытался у него выбивать исходники.  
Как по мне самым нормальным был бы алгоритм одних азиатов, который в общем выравнивал строки только у корешка книги (центр разворота) - быстрый, качественный, но не универсальный и пригоден только для простых искажений. Я в свое время, когда Tulon еще был на форуме, скидывал алгоритм dewarping -a и он его смотрел. Он сказал, что алгоритм нужный и со временем должен появиться в финале, но у него уже есть некоторые наработки, поэтому и не стал дальше с ним возиться (реализовывать в коде).

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 21:26 24-06-2010
Terom

Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Видимо это связано с сжатием tif-файла в JPEG
Я посмотрел свойства tiff сканов, которые у меня есть. Irfan пишет, что tiff без сжатия.
Цитата:
Переведите Ваши файлы в tif со сжатием LZW, качества это уже не добавит, но ST с LZW работает нормально.
Перевел в LZW, результат тот же, черные квадраты. Нормально обработались только те сканы, которые я повторно пересканировал
 

Всего записей: 4 | Зарегистр. 23-09-2009 | Отправлено: 22:59 24-06-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Terom

Цитата:
Я посмотрел свойства tiff сканов, которые у меня есть. Irfan пишет, что tiff без сжатия.

tiffinfo для приведенного скана выдает:

Цитата:
TIFF Directory at offset 0x627f4 (403444)
  Subfile Type: (0 = 0x0)
  Image Width: 2550 Image Length: 4180
  Resolution: 600, 600 pixels/inch
  Bits/Sample: 8
  Compression Scheme: JPEG
  Photometric Interpretation: min-is-black
  YCbCr Subsampling: 2, 2
  Samples/Pixel: 1
  Rows/Strip: 16
  Planar Configuration: single image plane
  JPEG Tables: (289 bytes)

Irfan и Xnview тоже говорят, что jpeg.
Перевод приведенного Вами скана в LZW с помощью XnView решает проблему.

Всего записей: 980 | Зарегистр. 14-12-2005 | Отправлено: 02:36 25-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Terom, чтобы в дальнейшем не возникало непредвиденных обстоятельств в программах, в частности в ST, сканируйте черно-белое  в оттенках серого в формат tif(tiff) с сжатием LZW, цветное в режиме цвета в формате tiff, но без сжатия. Другие форматы не смогут дать подобающего результата. После обработки черно-белые изображения переводите в формат tif с сжатием G4FAX (Group 4 Fax Encoding). Данная операция помогает сэкономить значительно без заметной потери качества. Цветные же можно сохранять в tiff с сжатием LZW. Некоторые сохраняют в jpg для экономии места, далее еще и  переводят в djvu(pdf). Это неправильно, если нужно добиться хорошего результата.
Ваш скан по сути это формат jpg. Поскольку о не может столько весить будучи tiff да еще и с разрешением в 600 dpi. Потеря качества существенна имхо. С помощью IrfanView пакетно преобразуйте в формат tif с жатием LZW. Размер каждого файла увеличится в 10! раз.
Вообще я бы назвал такую ситуацию багом программы, которая пока не может правильно прочитать тифки с оригинальным сжатием.
также может быть, что неправильное разрешение (в свое время ST сильно хромал на такой баг, но это было при tiff без сжатия или с LZW сжатием), при пакетном преобразовании принудительно выставите 600 dpi с рэсемплированием. И в программе по опыту могу сказать как 300 dpi. Если переходить по размерам изображения на мегапиксели, так уверен, что 300 dpi. Но подчеркну - это баг программы.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 02:41 25-06-2010 | Исправлено: woodyfon, 02:58 25-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
Вы же "запороли" алгоритм Зейналова, поэтому я дальше и не пытался у него выбивать исходники.

Да, ИМХО этот алгоритм уступает букресторерному. Я и приводил пример, где сравнивал выложенный Вами образец и он же обработанный в BR - в качестве доказательства.  
 
Нельзя же было допускать, чтобы возникла опасная иллюзия у общественности, якобы этот алгоритм уже годится для практического применения.
 
Но всё равно, иметь его было бы недурно - было бы, что улучшать.

Цитата:
скидывал алгоритм dewarping

В виде PDF-статьи с описанием? Нужны-то исходники...

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 08:54 25-06-2010
ndch

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
Но подчеркну - это баг программы.

 
В очередной раз понимаю почему Tulon ушел. Все это пережевывалось по 10 раз.
В tiff много вариантов сжатия, вложения изображения и т.д.
Какую реакцию от программы надо ожидать на то, что юзер подсовывает экзотический tiff ?
 
Прочитайте тему целиком, если хочется делать все "по-взрослому", не задавая вопросов и не давая ответов, за которые засмеют.
 
О чём я ? Не надо быть семи пядей во лбу чтобы сканировать в tiff со сжатием jpeg. Кроме относительно скромных размеров файла - данный вариант ничего положительного не приносит. Говорить не о чем.

Всего записей: 6999 | Зарегистр. 31-08-2008 | Отправлено: 09:01 25-06-2010 | Исправлено: ndch, 09:10 25-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
monday2000,  та статью в формате pdf. Исходники не люблю, по одной простой причине: в них разбираться больше, чем самому написать.
ndch, с вами не согласен. Если программа не принимает экзотические tiff, так виновата обычно сама программа, а не человек, которые выбрал тот или иной вариант сканирования и сохранения.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 17:26 25-06-2010
FedorSumkins2009



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
интересный баг. есть скан книги в djvu разворотами, надо разделить пополам сие хозяйство и собрать обратно. в оригинале текст почти не читаемый- мелковато. делим scantailor выдранные из файла страницы- предварительный просмотр идет нормально, на выходе разделение сдвинуто резко вправо. размер отдельных страниц немного отличается друг от друга. делил потом в finereader- там все прекрасно разбилось надвое.

Всего записей: 564 | Зарегистр. 26-12-2009 | Отправлено: 17:42 25-06-2010
StanFreeWare

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
FedorSumkins2009
просто делить развороты в СТ нельзя. В процесс вмешается логика корректировки наклона и определения полезной области.

Всего записей: 865 | Зарегистр. 10-01-2007 | Отправлено: 17:48 25-06-2010 | Исправлено: StanFreeWare, 17:48 25-06-2010
FedorSumkins2009



BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

StanFreeWare
так я вроде все настраивал, задавал параметры, ставил настройки ручками, в итоге все равно косяк получается. так что не режет оно кривые сканы, хоть убейся.  

Всего записей: 564 | Зарегистр. 26-12-2009 | Отправлено: 18:08 25-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
в них разбираться больше, чем самому написать.  

Тогда напишите (dewarping).

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 15:37 26-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
А смысл писать, если в st tulon алгоритм не добавит?
Никто не знает по какому алгоритму происходит бинаризация? Используется ли метод Ниблэка.
monday2000, если поможите можно и начать реализовывать в коде.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 17:10 26-06-2010 | Исправлено: woodyfon, 20:35 26-06-2010
denver 22

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Скачиваем с сайта новую версию 0.9.9.1

Всего записей: 602 | Зарегистр. 28-07-2005 | Отправлено: 06:27 28-06-2010
monday2000

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
А смысл писать, если в st tulon алгоритм не добавит?  

А на Tulon свет клином не сошёлся. Пусть такой алгоритм просто будет - в доступной для всех желающих форме (в виде консольного приложения на языке Си).

Цитата:
Никто не знает по какому алгоритму происходит бинаризация? Используется ли метод Ниблэка.

Можно перепробовать разные алгоритмы бинаризации. У меня их целая куча тут: http://www.djvu-soft.narod.ru/bookscanlib/project.htm .

Цитата:
monday2000, если поможите можно и начать реализовывать в коде.

А что мне нужно делать, как помочь?

Всего записей: 2841 | Зарегистр. 13-01-2005 | Отправлено: 09:03 28-06-2010 | Исправлено: monday2000, 11:18 28-06-2010
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
woodyfon

Цитата:
Используется ли метод Ниблэка.  

Нет, использутся другие методы, см.:
http://scantailor.git.sourceforge.net/git/gitweb.cgi?p=scantailor/scantailor;a=blob;f=imageproc/Binarize.h;h=fa6db7d532b048e3d3b1fc18f6db7fbfd2b89e9b;hb=fe525fe76e627b984503ec94027b5b06a479f1cd

Всего записей: 980 | Зарегистр. 14-12-2005 | Отправлено: 13:08 28-06-2010
woodyfon

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
А что мне нужно делать, как помочь?

Предоставление инфы (четко описанный алгоритм), перевод статей с англ, языка. С мат. частью проблем не будет.

Цитата:
А на Tulon свет клином не сошёлся. Пусть такой алгоритм просто будет - в доступной для всех желающих форме (в виде консольного приложения на языке Си).

Лучше конечно GUI
Насчитал 4 метода бинаризации для различных видов вывода конечной картинки. Для простого вывода (в черно-белый) используется метод Отцу или Sauvola?
Думаю, нужно использовать метод Sauvola Thresholding, который более гибкий.
Однако, если для алгоритм dewarp предварительно применять сразу бинаризацию, результата не будет. Поэтому также требуется и алгоритм выравнивания освещения.

Всего записей: 417 | Зарегистр. 03-08-2007 | Отправлено: 16:01 28-06-2010 | Исправлено: woodyfon, 16:20 28-06-2010
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru