monday2000
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору scantailor-osx The opensource Scan Tailor App pre-compiled for OSX http://code.google.com/p/scantailor-osx/ Добавлено: Одно из слабых мест Scan Tailor - это бинаризация. На некоторых сканах в DjVu буквы получаются слишком истончённые. Например, на старых советских книгах, пожелтевших и плохо-пропечатанных (годов этак 1965). С другой стороны, если увеличить порог бинаризации в СТ (чтобы буквы были пожирней - в нормальном виде), то обязательно "полезет" мусор бинаризации - всякого рода пятна. Поэтому, по-видимому, идеальным вариантом было бы (в таких проблемных случаях) всё-таки увеличивать порог бинаризации, но научиться как-то по-особенному хитро (ценой малых усилий) вычищать вылезшую грязь. Я имею в виду даже не традиционный despeckle, нет, тут потребуется некий принципиально иной по принципу алгоритм "очищения от грязи". Такого алгоритма пока нет. Как вариант - делать OCR, и вычищать всё пространство за пределами букв (всё равно же OCR делать по-любому). Добавлено: Хотя, быть может, тут возможны иные подходы - скажем, какая-то особо хитрая обработка серых сканов. К примеру, в СК есть такая фича, как "Background cleaner". То есть очиститель фона на серых сканах. Под фоном тут, наверное, как раз и понимается вне-буквенное пространство на серых сканах. А "очистка" этого фона - видимо, нечто вроде подавления шума этого фона. Действительно, если заранее суметь подавить шум фона (сделать фон более однородно-серым) - то тогда при последующей бинаризации можно и вправду немного завысить порог бинаризации - и пятна бинаризации не полезут (или гораздо меньше полезут). Интересно, что же такое есть "Background cleaner" в СК? Наверное, что-то вроде селективной шумодавилки. Правда, минус тут в том, что все шумодавы очень много пожирают ресурсов. |