bolega
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору ALLBETONRU Цитата: Скан Кромсатор пытается (с перманентным успехом) оперировать исключительно с графическими образами информационного контента. Отсюда и все беды | Согласен. Я и сам уже несколько раз писал, что в определенных местах ( и только в них) мне не хватает OCR, но на 95% он не нужен. Если вы почитаете современные (и не очень) зарубежные журналы, то там тема распознавания контента без привлечения OCR существует очень давно и с большим успехом развивается. Этим занимаются многие ученые и вряд ли они считают это тупиковым занятием Цитата: Это я к чему клоню? – К ответу на вопрос «– А почему нет аналогов Скан Кромсатору». А их нет по той простой причине, что (это мое личное мнение) – данное направление тупиковое. А соответственно и не имеет коммерческого интереса. | Не согласен. Во-первых, FR - это OCR-программа, функции же SK гораздо проще - убрать грязь, выровнять и привести к одному виду. И Sk с этим прекрасно справляется, проблема лишь в том, насколько он делает это автоматически, и насколько нужно юзеру вмешиваться в этот процесс. Вы хотели ответить на вопрос, почему не выходит альтернатив, но так и не ответили. Скорее, Вы ответили, почему юзеры любят FR. FR - прекрасная программа, но наличие прекрасной программы не означает, что у никого не появится желания сделать альтернативу. Сравните с Photoshop. Тупиковость, как Вы говорите, подхода, наоборот должна служить стимулом развития альтернатив. Более того, можно лишь говорить о несовершенстве (но не о тупиковости) теперешнего состояния. А ведь есть еще идеи, которые могут кардинально исправить ситуацию. Просто я их не реализую по определенным причинам (не буду здесь о них говорить). Например, это layout-анализ с самообучением. Он уже реализован в одном проекте и дает прекрасные результаты. И насчет возрастающей тяжеловесности интерфейса я не согласен. Например, взять введенные мною зоны. Ну не хочешь их понимать - не используй. Просто результат будет чуть хуже, чем он мог бы быть. Но другого способа выполнять какие-то операции над локальными участками не существует. А в реальных сканах такие участки всегда существуют, то ли из-за полиграфических дефектов, то ли из-за плохого сканирования. Цитата: А пока затыкая информационные дырки я размещаю в сети откровенно некачественные djvu книги, хотя все сырые сканы сохраняю – в ожидании не новой версии Скан Кромсатора, но нового FR. | Учитывая, что FR не занимается улучшением качеством графики, что в этом смысле можно ожидать от FR??? Или он как-от отрежет грязь по другому?? Более ровно? Посмотрите как коряво в нем реализован поворот изображений на малые углы. Оно и понятно - для целей OCR это абсолютно несущественно, а вот для DJVU... Кажется, это просто оправдание Вашим некачественным книгам. Проблема SK не в том, что результат некачественный, а в том, что в ряде случаев (точнее, для ряда страниц) еще требуется ручное вмешательство пользователя. С уважением. Добавлено: Вот еще о чем хотелось бы сказать. Многие советы по упрощению работы SK, котрые мне дают, дают люди, которые основывают свои мысли исключительно исходя из своих собственных сканов (оно и понятно). Но я провожу эксперименты на сотнях разных сканах, сделанных разными людьми, на разных сканерах. И вы не представляете как варьируется качество, от идеального, до откровенно ужасного. На некоторых сканах даже можно разобрать склонившееся лицо сканировщика , до такой степени небрежно выбирается зона сканирования, точнее, она никак не выбирается. В таких условиях говорить о каком-то едином, упрощенном, подходе к обработке не приходиться. Тут и AI не поможет. Взять типичный случай - сканируется одна страница разворота, но в область сканирования зачем-то попадает половина (!!) другой половины разворота. Как программа обработки должна интерпретировать (на автомате) еще кучу текста на скане? Так что тут без ручного вмешательства никак не обойтись. | Всего записей: 4571 | Зарегистр. 09-09-2002 | Отправлено: 18:32 22-04-2006 | Исправлено: bolega, 18:47 22-04-2006 |
|