Sjoe

Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору cuneiform У меня другие результаты. Открытие файла Шишкофф Г......2003.djvu (9.5 МБ) в FR11 Pro - 00:12 (НЕ через виртуальный принтер, а сразу в djvu) Распознавание - 00:17. Cохранение в пдф/А - 00:05 Сохранение в дежавю с подложкой - 00:06 --------------------------- Итого: 00:34. Размер файла в пдф на диске: 24,2 МБ (25 444 352 байт). Считаю, приемлемо. Размер файла в дежавю на диске: 17,2 МБ (18 083 840 байт). Считаю, приемлемо Цитата: Идея юзать пдф формат в графике вместо дежавю не дает выиграша по времени распознавания и сохранения, на выходе имеем обьемистые файлы с распознанным слоем, в целом - бессмысленная, безрезультативная затея. | Так это очевидно, вообще-то, если результаты именно такие, какие получились у вас. Другое дело, что формат PDF/A (из распознанногого дежавю) с текстовой подложкой даёт возможность полнотекстового поиска, что и нужно для словарей (в том числе этого), энциклопедий, справочников и т.п.: их не читают подряд с начала и до конца, а wahllos браузят в поисках определенной статьи (определения, перевода и т.д.). (В свете чего замечу, что тот, кто конвертировал выложенный на трекере бумажный Философский словарь в дежавю чисто в графике без подложки и возможности поиска, во-первых, пожлобился, а во-вторых, вообще не имел представления, чем он, собственно, в данный момент занимается и для чего это нужно (что есть первый признак непрофессионализма.) В свете сказанного, в описании "реальной жизненной ситуации" вы, похоже, чего-то не договорили, да и, собственно, задачу/проблему не поставили. По времени и по размеру pdf файла с подложкой и возможностью полнотекстового поиска результат вполне терпим. Если, конечно, не заниматься этим в промышленных масштабах, как Гугл или Гутенберг или пираты, и не сканировать и распознавать фонды национальных библиотек и библиотек конгрессов начиная с инкунабул и изданий 17 века до только что вышедших бестселлеров. А что до Гугла, доселе юзающего "восьмёрку", так здесь несколько соображений/подозрений. Или они халтурщики, которым всё пофиг -- что и подтверждается бездарным распознаванием без предварительной обработки, без настроек и без последующией вычитки и правки, множеством пустых и лишних страниц, на которых к тому же в pdf видны руки, клипсы и прочий мусор, а также дикие ошибки распознавания в выложенных форматах txt, djvu, fb2, epub (отчего я с archive.org, например, вообще что-нибудь кроме как pdf, зарёкся когда-либо брать), или просто жлобы и не хотят платить деньги за апгрейд (тем более, что "восьмерку", ЕМНИП, Аббии как-то выкладывали в свободный доступ в порядке рекламной акции, уже когда "десятка" была в продаже). Или они следуют первому закону ремонта. А так-то да: "восьмерка" и "девятка" хороши тем, что хорошо работают на плохих и неконтрастных сканах, причем чем хуже скан, тем больше сказывается это преимущество. | Всего записей: 680 | Зарегистр. 09-07-2009 | Отправлено: 12:20 07-03-2018 | Исправлено: Sjoe, 17:36 07-03-2018 |
|