On-line: гостей 2. Всего: 2 [подробнее..]
АвторСообщение
ЧугуевецЪ




Пост N: 752
Фото:
ссылка на сообщение  Отправлено: 25.06.06 20:26. Заголовок: Старая орфография - сканирование текста


Все или почти все мы пользуемся такой хорошей штукой как ABBYY FineReader. Приходилось ли кому сканировать тексты в старой орфографии? Я сегодня намучался править полученные результаты... Говорят, вроде есть возможность как-то настраивать программу под такой текст, типа добавлением новых шрифтов или еще как... Известно ли вам что-либо по этому поводу? Ведь сколько замечательных материалов порой лежат мертвым грузом из-за невозможности поделиться ими - большой объем (tiff или pdf) исключает нормальную пересылку почтой или вывешивание в сети, а перевести в электронно-текстовый вид не позволяет упомянутая старая орфография...
В общем, хотелось бы услышать ваши мнения-советы.

Спасибо: 0 
Профиль
Ответов - 15 [только новые]


Сатрап Душитель Свободы




Пост N: 299
Фото:
ссылка на сообщение  Отправлено: 25.06.06 20:39. Заголовок: Re:


Все зависит от качества текста... Уже несколько лет ежедневно сканирую тексты, поэтому могу поделиться своим опытом в этом труде... Если кто знает другие способы, предлагаю поделиться...
К сожалению, никак не могу освоить не сканирование, а фотографирование текста приемлемого для распозванания качества

Я сканирую старые тексты при помощи Файна при настройках "300 точек, серый" (не черно-белый!), затем распознаю при помощи функции "русский язык - старая орфография". После этого переношу в Ворд и даю замену: "ять", "аго" и т.д. Но вычитка текста обязательна!!! Таким образом, даже при хорошем качестве, переработка одной страницы в новую орфографию занимает достаточно времени...


Спасибо: 0 
Профиль



Пост N: 19
ссылка на сообщение  Отправлено: 28.06.06 13:00. Заголовок: Re:


Мой приятель соорудил макрос для WORD, который автоматом делает большинство неприятной работы. А потом через Afterscan прогоняю - и будьте - нате. А вообще я лично сканю картинками и распознаю в ридере...

Спасибо: 0 
Профиль
Сатрап Душитель Свободы




Пост N: 305
Фото:
ссылка на сообщение  Отправлено: 28.06.06 13:22. Заголовок: Re:


МихаилБ

Есть у меня это самый афтерскан. но... не совсем понял, какие функции он может выполнять. Может посоветуете, что с ним можно делать интересного?

Спасибо: 0 
Профиль



Пост N: 20
ссылка на сообщение  Отправлено: 28.06.06 13:50. Заголовок: Re:


Просто после обтёсывания макросом я сую это "произведение" в афтескан..... Т.к. версия trial много им не поработаешь, но время экономит здорово. Особенно если ошибки типичные и текст достаточно "чистый"

Спасибо: 0 
Профиль
РевелецЪ




Пост N: 373
Фото:
ссылка на сообщение  Отправлено: 28.06.06 13:54. Заголовок: Re:


По своему малюсенькому опыту - позавчера, когда повесил сюда кусок приказа про консервы, потратил на это минут 45-50. Это было 2,5 страницы текста. Я со сканера сохранил сразу в текстовый файл, пользовался приложенной к сканеру утелитой. При этом так как ксерокопия вполне сносного качества, ошибок сканирования практически не было. Утилита заменила ЯТЬ где на мягкий знак, где на еще чего. То бишь из этих четверти часа минут 40 ушло на вычитку и замену этих автозамен на нужные буквы, стирание лишних твердых знаков в конце и т.д....
Это я ни в коем случае не рекламирую мою утилиту ... к тому же это она маленький объем нормально может отсканировать, а при больших объемах даже на современном тексте глючит жутко. Шабанова, отсканированного таким способом, боюсь брать для вычитки - там целые страницы кривоказябками встречаются...

Это я к чему всё написал - надо нам всей толпой идти на милитеру и их форум militera.fastbb.ru. Уж там то должны быть ответы на такие вопросы...

Спасибо: 0 
Профиль
Сатрап Душитель Свободы




Пост N: 306
Фото:
ссылка на сообщение  Отправлено: 28.06.06 14:19. Заголовок: Re:


Jus

очень много времени тратишь...

Тот же Шабанов: сканер Benq 5000, сканирование в "сером, 300 точек", распознавание в Fine Reader 8.0, режим "русский + английский" - дает 1-2 ошибки на страницу! Ошибки подсвечиваются синим цветом! Остается только исправить 1-2 буквы.

Далее, 20 мин. назад, обрабатывал "Приказ по военному ведомству №386 от 28.07.1910 г.", который ты присылал в тиффе (мне, кстати, жепеге больше нравится и размер меньше), 1-я страница - общее время - 3 минуты:
вот результат:

Приказ по военному ведомству №386 от 28.07.1910 г.

ГОСУДАРЬ ИМПЕРАТОР, по всеподданнейшим докладам Шефа жандармов, Министра внутренних дел, 23-го Марта и 28-го Апреля сего года, Высочайше повелеть соизволил:
1) Присвоить генералам, штаб и обер-офицерам и нижним чинам Отдельного Корпуса жандармов парадным головным убором — шлем из синего фетра, с серебряным прибором и черным плюмажем, согласно прилагаемого при этом описания.
2) Вверху левого борта мундира иметь, вместо одного, — два дугообразных выреза, причем верхняя пуговица должна быть у вершины среднего мыска.
3) Присвоить офицерам, вместо сюртуков, вицмундир драгунского образца, установленный приказом по военному ведомству минувшего года № 550, синего мундирного сукна, с воротником и обшлагами того же сукна и с алыми выпушками по верхнему краю воротника, по борту и обшлагам;
4) Снять с мундиров нижних чинов наплечники, служащие для поддержания ремня карабина, а также — с погон галунные нашивки, определяющие оклады содержания.
5) На наружных швах шаровар нижних чинов, вместо узкой шерстяной басонной тесьмы, иметь выпушки из алого сукна;
 и 6) Воротники на шинелях, как для офицеров, так и для нижних чинов, иметь серого шинельного сукна, вместо серо-синего, и петлицы на них светло-синего сукна, с алыми выпушками.
 О таковом ВЫСОЧАЙШЕМ повелении объявляю по военному ведомству.
 (По Главному Интендантскому Управлению).

Описание
фетрового шлема (с металлическим прибором и плюмажем) для чинов Отдельного Корпуса Жандармов.

А. Для нижних чинов.
Шлем состоит из фетрового, синего цвета, колпака, переднего и заднего козырьков, подтулейникас подкладкой, металлического прибора и волосяного плюмажа.
Колпак — цельный из фетра, синего цвета (по цвету мундирного сукна). Верх колпака круглый, выпуклый, низ несколько продолговатый, по форме головы. Высота колпака по средине — 2 5/8—2 6/8 вершка.
Спереди колпака пришивается козырек из плотной черной лакированной кожи (мостовья, покрытого черным глянцевым лаком). Размеры козырька: ширина по средине 1 2/8—1 3/8 вершка, длиною, по полуокружности—6 7/8—7 вершков. Задний козырек — фетровый, цельный с колпаком, составляет его продолжение с уклоном назад на 3/8—1/2 вершка, имеет прямоугольные срезы по бокам, с закругленными углами, ширина его 1 3/8—1 2/8 вершка.
Подтулейник к шлему и подшивка к нему полосок рубашечного холста полагаются, как указано в приказе по военному ведомству 1874 года № 234.

Причем без использования вордовских макросов (хотя и пропускал через Ворд). Минусы: плохо воспринимает дроби, половину приходится вводить в ручную....

Далее...
На Милитере (самом сайте) есть (раньше были) указания по обработке и макросы для Ворда... Все это прочел... и стал делать по своему, по старинке...

И по поводу техники: рекомендую МФУ HP 15.. (у меня на работе стоит HP 1513) - очень быстрое сканирование, я просто был удивлен этой скоростью!

Спасибо: 0 
Профиль
Сатрап Душитель Свободы




Пост N: 308
Фото:
ссылка на сообщение  Отправлено: 28.06.06 14:58. Заголовок: Сканирование - техника


За последние 4-5 лет я пользовался наверное десятоком сканеров разных моделей, поэтому, думаю, что могу что-то рекомендовать

Сканеры фирмы Mustek - самое дешевое предложение на рынке(Москва - от 38 долл. и выше), но проблема - механизм сканирования редко выдерживает более года напряженной работы...

Сканеры фирмы Benq 5000-й серии - в свое время считались одними из быстрейших сканеров (по этому принципу и покупал в свое время себе)... Ничего плохого не могу сказать, если бы не МФУ HP!

Сканеры фирмы Canon - довольно быстро, качественно, никаких замечаний... но не HP

Для формата А4 - МФУ от HP 15-й серии (ну ОЧЕНЬ быстро сканирует!!!), стоимость в Москве 80-120 амер.долларов (зависит от модели, но все они сканируют с одинаковой скоростью, разница в моделях = скорости печати изображений).

Для формата А3 - тут проблема, если для текстов и фото, которые не требуют особого качества, как, например, для рекламных контор и издательств - то самое дешевое - Mustek SсanExpress USBA3, стоимость в Москве - 170-195 долл. Все остальное, что я видел в формате А3, стоит не менее 850-900 долл, и предназначено для РА и т.д.

Прошу не считать это рекламной акцией фирмы Hewlet Packard! Но, когда увидел скорость работы этого устройства был просто изумлен! Дамаю, что Gard, Ditrich и другие участники (пользующиеся этой серией) будут со мной согласны...

Примечание: МФУ - многофункциональное устройство, включает в себя: сканер + принтер + копир...
Обычто принтер струйный... МФУ с лазерным цветным принтером стоят порядка 500 и выше долл.

Спасибо: 0 
Профиль
РевелецЪ




Пост N: 374
Фото:
ссылка на сообщение  Отправлено: 28.06.06 18:34. Заголовок: Re:


Rector пишет:

 цитата:
очень много времени тратишь...



Я ж и написал - "малюсенький опыт"

У меня тоже HP , правда старенький (года 4 ему) - ScanJet 3400C, и не такой уж и быстренький... но зато уж сколько он отпахал, тьфу-тьфу! чтоб не сглазить...

Совершенно согласен - надо FR поставить мне, да освоить его...

А вот такой вопрос - в FR нет такой фишки, чтоб выставить шрифт в каком распознавать текст? Была б такая фишка, то поставить шрифт Palatino Linotype, он бы и распознавал ЯТЬ и иже с ней нормально... Написать им в техподдержку, что ли?


Спасибо: 0 
Профиль
Сатрап Душитель Свободы




Пост N: 309
Фото:
ссылка на сообщение  Отправлено: 28.06.06 18:42. Заголовок: Re:


Jus

Там есть фишка, в которой он текст распознает...
Но проще распознавать, выставляя в нем "русский-старая орфография" (так и называется), после этого распознанный текст копируется в Ворд, там он с "ятями", после чего "яти" заменяются функцией "поиск-замена"...

Спасибо: 0 
Профиль
РевелецЪ




Пост N: 376
Фото:
ссылка на сообщение  Отправлено: 28.06.06 18:48. Заголовок: Re:


Ну что ж, попробуем!...

Спасибо: 0 
Профиль
Шевяков Тимофей




Пост N: 135
ссылка на сообщение  Отправлено: 28.06.06 19:02. Заголовок: Re:


Rector пишет:

 цитата:
мне, кстати, жепеге больше нравится и размер меньше


Рекомендую юзать png - во-первых, меньше джпегов. Во-вторых, артефактов меньше при аналогичном качестве.

Rector пишет:

 цитата:
после чего "яти" заменяются функцией "поиск-замена"...


Автозамену поставь :)

Спасибо: 0 
Профиль
РевелецЪ




Пост N: 377
Фото:
ссылка на сообщение  Отправлено: 28.06.06 21:15. Заголовок: Re:


Гммм... странно, у меня именно "сжатый tiff" получается меньше чем jpg и png....

Спасибо: 0 
Профиль



Пост N: 21
ссылка на сообщение  Отправлено: 29.06.06 08:46. Заголовок: Re:


И чего вам мучиться с вордом. Засылайте на "мыло" заявки на макрос. И будет вам немного счастья....

Спасибо: 0 
Профиль
РевелецЪ




Пост N: 379
Фото:
ссылка на сообщение  Отправлено: 29.06.06 11:20. Заголовок: Re:


что за макрос? что делает?

Спасибо: 0 
Профиль



Пост N: 22
ссылка на сообщение  Отправлено: 30.06.06 08:57. Заголовок: Re:


Устраняет проблемы со старорусской орфографией процентов на 60-70.

Спасибо: 0 
Профиль
Тему читают:
- участник сейчас на форуме
- участник вне форума
Все даты в формате GMT  3 час. Хитов сегодня: 317
Права: смайлы да, картинки да, шрифты да, голосования нет
аватары да, автозамена ссылок вкл, премодерация откл, правка нет