TelecomUral
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: Есть предложения как их отличать от мусора, чтобы максимально отсеять ложные? | мне немного приходилось листать юникодовские таблицы на эту тематику. Всякие "А с точкой снизу" и тэ пэ. Алфавиты разные в мире, и встречается очень разное. Логики не уловил. Поэтому приходит на ум только подключение образцов конкретного шрифта. Типа "для проверки на диакритику используй шаблоны из таких-то языков, такого-то кегля". Иначе - трудно. Для европейских и ближневосточных всё очень просто: дополнения к латинской/базовой букве располагаются по восьми областям вокруг основной буквы, и мелкими не бывают (обычно), то есть заполняют почти всю отведённую область. Средняя верхняя и средняя нижняя могут быть расширены вбок симметрично, но менее чем до середины боковых областей. Какая-нибудь тильда надстрочная так выглядит, на память. Но вот титло церковнославянское, по-моему, всегда накрывает букву с запасом. UPD ИМХО всё же, если СК использовать "интернационально", то системно-правильный вариант обработки с OCR это указывать, какие конкретно шрифты применены в книге в конкретном месте. "в данном task: Гарнитура Литературная, кегль 9пт", "зона OCR, шрифт моноширинный Courier Cyr кегль 7,5пт". + и адрес типографии указывать: "Вологда, комбинат №1, конец квартала, бумага №2, и краски недолили (разбавили)" UPD2 вот такие непропечатки возьмёт новый СК? "с" в 4й строке снизу. | Всего записей: 3323 | Зарегистр. 15-07-2010 | Отправлено: 13:37 02-02-2022 | Исправлено: TelecomUral, 15:11 02-02-2022 |
|