ABBYY FineReader (Часть 1) - [163] :: Программы :: Компьютерный форум Ru.Board

Цитата:

Т.е. у меня (предположим) есть файл в 750 стр и взамен него я получаю 750 (по барабану каких) файлов (постраничных), которые я должен сидеть склеивать, чтобы получить распознанный файл?

Что-то я вашей логики не понимаю. Что склеивать, зачем? Файлы вообще-то нумерованные идут, конвертер их выдаст ровно в той последовательности, в какой у вас страницы в дежавю. И Файнридер их ровно так же и съест. Вообще-то это для Файнридера как раз совершенно родная и стандартная процедура — импорт последовательности графических файлов, импорты же всяких там пдф и прочих — это скорее дополнительная опция, приятный прибамбас.

А почему я думаю что это может быть лучше: ну банально, тот же bmp — это максимально близкий к сырому потоку данных формат, в то время как pdf — это вообще говоря язык описания страниц, причём векторного описания, в котором хранение растровой графики — не более чем дополнительная возможность, при этом вариантов этого хранения там достаточно много — с разной глубиной цветности, с разными алгоритмами сжатия или без оного, при этом куча фич в структуре файла рассчитанных именно на задачи, которые обычно решают при помощи пдф и совершенно безразличных для OCR, но на упаковку которых тоже тратится процессорное время — при выводе на виртуальный принтер, а потом то же самое в обратной последовательности при распаковке во время импорта пдфа в прикладную программу. При этом сильно будет влиять пресет — скажем, если там стоит что-нибудь типа zip-сжатия, то скорость может совсем неприятно удивить. На небольших проектах это может быть вообще незаметно, а вот что-то серьёзное, типа тех же семисот страниц да какого-нибудь издания приличного формата а-ля какой-нибудь иллюстрированной энциклопедии — каждая копейка начинает сказываться.

Так что удобство тут сугубо только в том, что файлов одна штука. Как по мне, много файлов геморрой доставляют только когда это множество прилинковано к проекту типа html-страницы или файлу вёрстки какого-нить Пижамкера, когда проект приходится таскать туда-сюда — тогда файло имеет свойство теряться. А когда они чисто для промежуточного хранения — никаких проблем.

Граждане коллеги, а вот кто-бы меня просветил вот на такой счёт: всё-таки Файнридер (у меня 12-й стоит), когда распознаёт pdf, если исходник чисто векторный (ну там статьи какие-нибудь) — он всё равно его растрирует для анализа и распознаёт уже растр, или всё-таки пытается сперва извлечь текст изнутри, как это делает тот же Акробат при экспорте в текст/ртф? Я когда-то вроде читал что-то про это, вроде как начиная с какой-то версии ФР это делает, но потом позабыл и ничего внятного на этот счёт не нашёл. Кто-нибудь может пальцем ткнуть в описание алгоритма работы ФР с пдфками? А то меня сильно смущает качество распознавания: вроде бы чистый векторный pdf с текстом должен быть идеален для распознавания, лучше всякого скана априори, а ФР ухитряется лажать (типа путать буквы со схожим рисунком). При этом глядя на файл возникает мысль, что логично было бы заглянуть сперва внутрь и сравнить то что там найдено с тем, что он думает.

Модерирует : gyra, Maz
Maz (20-12-2023 09:13): ABBYY FineReader (Часть 2)	Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200