Сканирование, оцифровка документов, книг, пленки, негативов, слайдов

Сканирование и распознавание текста, документов, оцифровка

 Прайс-лист | Вакансии | Про нас | Нам доверяют | Контакты


Сканирование:

- Сканирование документов

- Сканирование книг

- Сканирование пленки

- Широкоформатное сканирование

- Сканирование фотографий

- Сканирование рентгеновских снимков

- Оцифровка видео

- Набор рукописного текста 

Постобработка:

- Распознавание текста

Для предприятий:

- Системы сканирования документов на предприятии

 

 

Сканирование и получение цифровых изображений

Под термином “сканирование”, подразумевается получение цифрового изображения. Называемый также вводом цифрового изображения или оцифровкой, этот термин относится к процессу преобразования визуальной информации в цифровую форму, которую могут использовать компьютеры. Привычный планшетный сканер, листовой сканер, слайдовый и барабанный сканеры – далеко не единственные устройства, способные к оцифровке изображений; это могут делать и цифровые камеры, платы ввода видеоданных, а также системы обработки коллекций изображений, поставляемых на компакт-дисках (Photo CD). Хотя здесь внимание будет уделено только классическим сканерам.

Цифровые и растровые изображения

В компьютерном мире работают в основном с изображениями двух типов: растровыми и векторными. Растровые изображения вырабатываются программами для подготовки иллюстраций, графическими редакторами, сканерами, рабочими станциями обработки данных Photo CD, платами ввода видеоданных и цифровыми камерами. Они состоят из сеток цветных, серых полутоновых или черно-белых пикселов, или элементов изображения. Цветовые характеристики растровых изображений приводят к огромным размерам графических файлов и делают их чувствительными к масштабированию.

С другой стороны, векторные изображения формируются из математических форм – линий, эллипсов, прямоугольников, кривых и более сложных структур, – закодированных математическими формулами. Их рациональная структура позволяет сохранять разумные размеры файлов и просто масштабировать изображения без потери качества. Системы компьютерного черчения, автоматизированного проектирования, программы трехмерной графики и трассировки генерируют векторные изображения.

Профессионалы в области компьютерной графики и дизайна обычно описывают термином изображение почти все, что представляется в визуальной форме, – от интерфейса программы на экране компьютера до цифровых фотографий и рисунков, созданных с помощью графических пакетов. Однако в контексте этого раздела термин “цифровые изображения” относится только к растровым изображениям, которые создаются сканерами.

Введенное изображение должно быть выведено

Как высказывание “брошенное вверх должно упасть” кратко описывает действие силы тяжести, так утверждение “введенное изображение должно быть выведено” формулирует основное правило сканирования.

Для разумного выбора аппаратных средств, программного обеспечения и акцентов сканирования необходимо в максимально возможной степени учитывать характеристики как исходного изображения – оригинала, который необходимо представить в цифровом виде, – так и среды вывода, или области использования изображения, в которой будет реализован Ваш конечный продукт. Исходное изображение обычно находится под руками, и его легко оценить. Однако оператор сканера часто не связан с созданием конечного продукта и, следовательно, может слабо представлять специфику вывода сканированных изображений.

Типичные области использования оцифрованных изображений – это печать, видео, мультимедиа и деловые коммуникации: факс, электронная почта, OCR, a также системы архивации и передачи документов. Сканирование для каждой области использования имеет свои особенности.

Особенности сканирования для вывода на печать

Для вывода на печать используется широкий диапазон печатающих устройств – черно-белые и цветные лазерные принтеры, струйные принтеры и копировально-множительные устройства, имиджсеттеры, а также рулонные и листовые печатные машины. Еще шире диапазон документов – от внутренних информационных бюллетеней до форм, рекламных материалов, журналов, книг, плакатов и высококачественных художественных репродукций. Требования к выводу цифровых изображений существенно зависят как от типа документа, так и от печатающего устройства.

При оцифровке изображений, предназначенных для вывода на печать, необходимо обращать особое внимание на следующие факторы:

1. Размеры оригинала и конечного отпечатанного изображения.

2. Разрешение при сканировании (или разрешение Photo CD, если используются коллекции изображений на CD).

3. Выходное разрешение, основанное либо на разрешении принтера, либо на связи между разрешающей способностью изображения и пространственной частотой растра.

4. Диапазон и возможности печати полутонов серого или цветных тонов сканированного изображения с учетом характеристик используемой бумаги и печатных красок.

5. Формат файла, в котором сохраняется оцифрованное изображение.

6. Соответствие характеристик сканера желательному уровню качества печати.

Особенности сканирования для мультимедиа

Категория мультимедиа включает компьютерные корпоративные презентации, а также интерактивные игры, анимацию, образовательные или обучающие приложения и другое программное обеспечение, издаваемое на гибких дисках или на CD-ROM. Окончательное устройство вывода мультимедиа – компьютерный экран, который имеет фиксированное разрешение и набор цветов, определенные типом приложения. В большинстве коммерчески изданных игр и интерактивного программного обеспечения используется палитра из 256 цветов и разрешение 640 х 480 пикселов; для корпоративных презентаций могут применяться большее число цветов и более высокое экранное разрешение, если их поддерживает компьютерная система, на которой проектируется презентация.

При оцифровке изображений, предназначенных для мультимедиа, необходимо учитывать:

1. Палитру цветов либо оборудования, на котором будет проектироваться презентация, либо стандарта интерактивного программного обеспечения.

2. Экранное разрешение, которое будет стандартным для презентации или интерактивного приложения, указанное в размерах по горизонтали и по вертикали в пикселах.

3. Любые требования к формату файла, выдвигаемые платформой (платформами), на которой будут демонстрироваться компьютерные мультимедийные продукты, или программным обеспечением, используемым для их представления либо создания.

Эта информация поможет выбрать разрешение и режим цвета при сканировании, а также формат файла для сохранения изображения. Не приняв во внимание эти факторы, Вы рискуете впустую потратить ценное пространство памяти, сохраняя файл избыточно больших размеров, или позже выбросить за борт избыточную цветовую информацию.

Особенности сканирования для деловых коммуникаций

Кроме художественной графики, мультимедиа и компьютерных презентаций, оцифровка информации используется в повседневных деловых коммуникациях. Хотя безбумажные учреждения еще не появились на свет, сканирование уже является существенным элементом рождающегося “малобумажного” учреждения. К приложениям сканирования, связанным с деловыми коммуникациями, относятся:

1. Технология OCR (оптического распознавания символов), реализующая интеллектуальное распознавание текста в сканируемых документах и позволяющая преобразовать бумажные документы в текстовые файлы, которые можно обрабатывать, сохранять, редактировать или включать в другие документы.

2. Архивирование светокопий, чертежей и других важных юридических или деловых документов для долговременного хранения или корпоративного распределения на CD-ROM.

3. Распространение цифровых новостей или маркетинговой информации, которая может отправляться по факсу или электронной почте или распределяться через Internet сотрудникам, продавцам и заказчикам.

Технологии сканирования, передачи по факсу, электронной почты и оптического распознавания символов быстро сближаются, и сегодня можно сохранять и многократно использовать в цифровой форме почти любую информацию, принятую практически из любого источника. Уже появились предвестники этой тенденции – программы, интегрирующие функции сканирования, редактирования изображения, OCR, интерактивной обработки форм, электронной регистрации, факса и электронной почты.

Сканирование для деловых коммуникаций обладает многими особенностями, присущими сканированию для печати и компьютерных презентаций, за исключением того, что большая часть оцифровки производится в черно-белом режиме или полутонах серого.

Особенности сканирования для получения многоцелевой информации

Все чаще изображения, первоначально сканированные для одной среды вывода, необходимо повторно использовать в другой среде или средах. Так, цветная фотоиллюстрация, подготовленная для полностраничной рекламы в журнале, может позже вновь появиться как заставка корпоративного видео, фон в компьютерной презентации или черно-белый логотип на факсимильном бланке. Подобную рециркуляцию цифровой информации ученые мужи от информационного сообщества окрестили многоцелевым использованием.

Если возникает хоть малейшее подозрение, что информация, которую предстоит оцифровать, позже будет использована многоцелевым образом, следуйте приведенным ниже рекомендациям. Они позволят уменьшить объем работы и гарантируют высококачественный окончательный результат в каждой среде:

1. Сканируйте оригинал, используя установки “наилучшего качества” – режим сканирования, который воспроизводит по меньшей мере 16 миллионов цветов в формате RGB, и разрешение, дающее достаточно информации для большого печатного изображения. Тогда Вам не придется столкнуться с недостаточно выразительным цветом или поражаться размеру файла, который потребуется для получения полноценного печатного изображения.

2. Не следует улучшать или корректировать цвета изображения в ходе сканирования. У изображения, которое было предварительно корректировано для воспроизведения в печати, может оказаться неподходящий цвет или тоновой баланс при выводе в мультимедиа или видео.

3. Сохраните версию неоткорректированного изображения в формате TIFF или EPS, подходящем для опубликовании иллюстрации в печати, или в формате графического редактора, обеспечивающем разумный размер файла. Эти форматы содержат достаточно информации для последующего преобразования в другие форматы файла или в другую среду вывода.

4. Сохраните резервную версию изображения. Корректируйте текущую версию, но архивируйте оригинал, который послужит основой для будущей работы.

Входное разрешение

Все оцифровывающие устройства – сканеры, цифровые и видеокамеры и рабочие станции Photo CD – имеют несколько общих функций:

1. Преобразуют аналоговую (реальную) информацию в цифровые данные, которые могут использоваться компьютером.

2. Генерируют растровые изображения, состоящие из матриц черно-белых, серых полутоновых или цветных пикселов (элементов изображения).

Растровые изображения часто называют также битовыми изображениями, но между ними имеется важное различие. Термин “растровое изображение” описывает состоящие из пикселов изображения независимо от их цветовых характеристик. Битовые изображения (bitmap) содержат только черно-белые пикселы.

3. Считывают или производят выборку исходного изображения, измеряя значения градаций серого или цвета для каждого элемента выборки.

Входное разрешение сканера описывает плотность, с которой сканирующее устройство производит выборку информации в данной области (обычно на дюйм или на сантиметр) в ходе оцифровки. Хотя входное разрешение – один из основных факторов, определяющих качество сканирования, расхожая мудрость, гласящая, что более высокое входное разрешение автоматически ведет к более высокому качеству изображения, не всегда соответствует реальности. Важно лишь иметь правильное количество цифровой информации в изображении. И чтобы определить правильный объем информации, необходимо согласовать входное разрешение как с размером исходного изображения, так и с желательным размером выводимого изображения. (Для вывода на печать необходимо также знать пространственную частоту растра, измеряемую в линиях на дюйм, или lpi.)

Пикселы или точки?

Имеется значительная путаница в терминyах, используемых для описания входного разрешения сканирующих устройств. Она связана в основном с тем, что в сфере мультимедиа и настольных издательских систем один термин часто описывает несколько понятий. Наиболее употребительные термины, с которыми Вам, вероятно, придется столкнуться, – это ppi и dpi.

PPI (пикселы на дюйм) Слово “пикселы” может описывать несколько различных понятий: плотность информации, которую сканирующее устройство может вводить на дюйм (входное разрешение, или разрешение при сканировании); полный объем информации в растровом изображении (разрешение изображения); наконец, число дискретных горизонтальных и вертикальных элементов, которые может одновременно отображать компьютерный монитор (экранное разрешение). Важно различать эти варианты использования.

Программные интерфейсы многих оцифровывающих устройств описывают частоту дискретизации в ppi, или пикселах на дюйм. Многие цифровые и видеокамеры имеют единое фиксированное входное разрешение, а в сканерах обычно имеется диапазон возможных разрешений. При этом с ростом частоты дискретизации сканирующего устройства размер генерируемых пикселов уменьшается. Это легко понять, если мысленно попробовать упаковать 50 сардин в банку, предназначенную для 25 сардин стандартного размера. 50 сардин поместятся в ней только в том случае, если они вдвое меньше стандартных 25.

Термин “пикселы” может также указывать полный объем информации, которую оцифрованное изображение содержит по горизонтали и по вертикали (например, 800 х 600 пикселов). Этот вариант использования описывает скорее разрешение изображения, чем входное разрешение. Наконец, многие используют термин “пикселы” для описания экранного разрешения – числа горизонтальных и вертикальных дискретных визуальных элементов, которые может отображать компьютерный монитор, – например, 1024 х 768 пикселов. В отличие от размера пикселов, которые вводит сканирующее устройство, размер пикселов на компьютерном мониторе остается постоянным. Следовательно, монитор отображает все пикселы каждого изображения с единым фиксированным размером.

DPI (точки на дюйм) Многие журналисты и некоторые программные интерфейсы сканирования все еще используют термин dpi (точки на дюйм) для описания разрешения при сканировании, или входного разрешения. Однако с технической точки зрения число точек на дюйм описывает выходное разрешение, представляя горизонтальную плотность меток, которые имиджсеттеры и лазерные принтеры типа PostScript делают в ходе печати. Будьте внимательны и не путайте эти два термина – подразумевайте “ppi” всякий раз, когда видите в интерфейсе сканера “dpi”.

Оптическое разрешение

Оптическое разрешение описывает объем реальной информации, который может ввести оптическая система сканирующего устройства. Факторы, определяющие оптическое разрешение, зависят от типа оцифровывающего устройства. В планшетных, листовых, ручных сканерах и многих сканерах для обработки слайдов и диапозитивов максимальное оптическое разрешение зависит от двух факторов: количества отдельных датчиков в линейке(ах) ПЗС в перемещающейся сканирующей головке и максимальной ширины оригинала, который может обработать сканер. Например, линейка ПЗС из 5100 ячеек в сканере, принимающем оригиналы шириной до 8,5 дюймов, позволяет получить максимальное горизонтальное оптическое разрешение 600 ppi. Расстояние смещения сканирующей головки по оригинальному изображению определяет вертикальное разрешение, которое может быть выше, чем горизонтальное. В цифровых и видеокамерах, а также некоторых сканерах для обработки диапозитивов обычно используется прямоугольная матрица (а не перемещающаяся линейка) ПЗС, определяющая общее число пикселов, которые могут вводиться по любому направлению. В барабанных сканерах скорость вращения, яркость источника света, возможности шагового двигателя, и апертура объектива совместно определяют максимальное оптическое разрешение.

Интерполированное разрешение

С другой стороны, максимальное интерполированное разрешение устройства представляет кажущийся объем информации, который сканер может вводить с помощью алгоритмов, реализуемых процессором и/или программным обеспечением. Алгоритмы интерполяции не добавляют новых деталей в изображение; они просто усредняют значения цвета или градаций серого в смежных пикселах и вставляют между ними новый пиксел. Интерполированное разрешение часто в два или более раз выше, чем оптическое.

Остерегайтесь маркетинговых уловок – там, где важно качество, имеет значение только оптическое разрешение. Интерполяция добавляет “псевдоинформацию”, которая может быть приемлема для дешевых публикаций или компаний с ограниченными средствами, но никогда не будет работать в цветных изображениях большого формата, где жизненно важны детальная структура и широкий тоновый диапазон. Интерполяция также приводит к “смягчению” изображения и необходимости более серьезного увеличения контраста на границах между областями. Если Вы часто сканируете для высококачественной печати, то лишь выиграете, вложив дополнительные деньги в сканер с более высоким оптическим разрешением.

Разрядность битового представления, глубина цвета

Разрядность битового представления и глубина цвета выражают в степенях двойки максимальное число цветов или градаций серого, которые может считывать сканирующее устройство для каждого вводимого пиксела. Однобитный сканер (а также цветной или полутоновый сканер в черно-белом режиме) воспроизводит все тона исходного изображения как черный или белый (2 = 2 уровня). 8-битный полутоновый сканер может теоретически вводить 2 , или 256, различных уровней серого. А 24-битный цветной сканер производит 8-разрядную выборку на пиксел для каждого из трех цветовых каналов RGB, итого полное количество цветов = 16777216 (224). На рисунке в цветной вставке иллюстрируется связь между разрядностью битового представления и числом возможных уровней цвета или серого в оцифрованном изображении.

С ростом разрядности битового представления увеличивается и количество деталей изображения, которые может вводить сканирующее устройство, по крайней мере, теоретически. 24-битный “истинный” цвет формата RGB стал стандартом для сканирования и редактирования изображений частично потому, что магическое число 256 соответствует максимальному числу градаций яркости на цветовой канал, который может воспроизводить PostScript, – цифровой издательский стандарт для печати.

Барабанные сканеры

Из всех возможных сфер применения сканированных изображений – печати, презентаций, мультимедиа, деловых коммуникаций, видео – самые серьезные требования, по общему признанию, предъявляются к работе с цветными иллюстрациями для печати. Особенно это справедливо для фирм, занимающихся допечатной подготовкой цветных иллюстраций, дорогостоящей профессиональной рекламы, издателей ежегодных отчетов типа “500 баловней судьбы”, высококачественных книг по искусству и глянцевых журналов. Для профессионалов в этой области важен быстрый производственный цикл, сканирование большого объема изображений и жесткий контроль качества. В этом секторе рынка стандарт качества всегда определяли сканеры с вращающимся барабаном. Однако до самого последнего времени сам характер этой технологии, большие габариты оборудования, а также высокая квалификация персонала и пугающая цена (200000 долларов и выше, не считая эксплуатационных расходов) приводили к тому, что преимущества барабанных сканеров были доступны лишь обладателям самых тугих кошельков. Другие профессионалы издательского дела могли получать дорогие сканированные изображения с этих чудесных машин, только посылая оригиналы в специализированные цветоделительные фирмы.

Демократические веяния проникли в отрасль высококачественного сканирования пару лет назад с появлением “мини-барабанных” сканеров – сканеров с вращающимся барабаном, размеры которых уменьшились настолько, что эти устройства размещаются на рабочем столе. Они соединяются с компьютерами типа Macintosh, PC, работающими под Windows, или рабочими станциями, использующими UNIX. Эти устройства с открытой платформой во многом сохранили высокую производительность и все качество воспроизведения изображения их старших кузенов – больших барабанных сканеров, но стоят в несколько раз дешевле. Небольшие сервисные бюро, корпоративный маркетинг, реклама, профессионалы издательского дела и издатели журналов со средним бюджетом теперь могут приобщиться к “барабанному” качеству сканирования, даже если не всякий соглашается, что барабанные сканеры по своей природе лучше планшетных.

Планшетные сканеры

Планшетные сканеры – это рабочие лошадки в промышленности и наиболее популярный тип устройств ввода изображения. И не без причин: они доступны и просты в использовании, могут обрабатывать оригиналы различных размеров и обеспечивают приемлемое качество изображения для широкого диапазона приложений – издательского дела, мультимедиа и OCR.

Еще три-четыре года тому назад профессионалы цветной печати поглядывали свысока на непритязательный планшетный сканер, считая, что с его помощью можно получать изображения только для компоновки издания. Для печати они должны заменяться высококачественными изображениями с более высоким разрешением, сканированными помощью барабанного сканера в сервисном бюро или агентстве по допечатной подготовке цветных иллюстраций. Однако с тех пор планшетные сканеры стали более универсальными – сегодня они имеют более высокое оптическое разрешение, большую глубину цвета в битах, более широкий динамический диапазон и лучше поддерживают различные типы оригиналов. Из анализа цены и эффективности следует, что целесообразно разделить класс планшетных сканеров на подклассы сравнительно простых, промежуточных и высококачественных инструментов, а не сравнивать в целом планшетные сканеры с другими типами устройств для ввода изображений.

Листовые и многоцелевые сканеры

В области деловых коммуникаций типа OCR и архивации, а также дизайнерских агентствах, использующих отражающие оригиналы как шаблоны для создания новых оригиналов, листовые сканеры еще не сказали своего последнего слова. Листовые сканеры – обычно черно-белые (1-битные) или полутоновые (8-битные) инструменты, которые протягивают гибкий оригинал через ролики или другое стационарное устройство. Недавно на рынке появился новый класс многоцелевых деловых машин, удовлетворяющих типичные потребности сканирования в области деловых коммуникаций – они включают OCR, электронную почту, архивирование и факс. Часто в них имеется автоматический загрузчик документов для сканирования многостраничных документов, которые засоряют любое ведомство.

Ручные сканеры

Ручные сканеры обычно не интересуют профессионалов в области обработки изображений, потому что их область отображения, разрядность битового представления и диапазон плотности чрезвычайно ограничены. Тенденция быстрее-лучше-дешевле среди простых моделей планшетных сканеров привела к частичному вытеснению ручных сканеров с рынка. Однако ручные сканеры все еще имеют нишу среди пользователей PC, в основном в областях деловых коммуникаций (OCR) и настольных издательских средств – простых моделей или внутреннего использования. Эти компактные устройства также полезны для сканирования небольших отражающих оригиналов или поверхностей громоздких предметов (больших книг, шаблонов ковров, крышек мебели и т.д.), которые нелегко уложить на стекло планшетного сканера.

Распознавание текста

Сканер или клавиатура? Еще лет пять назад этот вопрос был спорным. Скептики утверждали, что компьютер допускает ошибок больше, чем человек. И были правы. Быстрее было ввести текст вручную, чем исправлять ошибки после распознавания. Но с недавнего времени система распознавания символов ABBYY FineReader допускает меньше ошибок, чем человек! А работает в 10 раз быстрее.

FineReader – это система оптического распознавания текстов. Она преобразует полученное с помощью сканера графическое изображение (картинку) в текст (т.е. в коды букв, “понятные” системе).

В чем отличие FineReader от других OCR-систем?

Основное отличие – в точности распознавания или, иначе говоря, в том, сколько программа допускает ошибок при вводе. Согласно официальным тестам FineReader допускает в несколько раз меньше ошибок, чем другие лучшие системы OCR для русских и английских текстов. Система FineReader продается в США и Канаде под торговой маркой Presto! OCR Pro. Система FineReader – это победитель по точности распознавания всех опубликованных сравнительных тестов в России, начиная с апреля 1995 года (момента выпуска FineReader 2.0) и по сегодняшний день. За последние несколько лет FineReader вошел в тройку сильнейших OCR систем в мире, получил 4 Editor's Choice (“Выбор редакции”) от именитых западных журналов.

Существуют следующие модификации FineReader:

FineReader Light

FineReader 4.0 Standard

FineReader 4.0 Professional

FineReader Рукопись

FineReader Банк

+380 (44) 232-72-46

+380 (99) 212-63-99

+380 (98) 081-14-77

+380 (63) 740-73-01

 

Сканеры:

Epson, Canon, Fujitsu, Plustek, Vupoint, Motorola, Интелком, Элар, Xerox, Штрих-м, Datalogic, Yashica, Kodak, Argox, Metrologic, HP

Литература:

"Сканеры и сканирование. Краткое руководство", Степаненко Олег Степанович

"Секреты цифрового сканирования со слайдов, пленок и диапозитивов", Дэвид Буш

Сканирование: Одесса, Донецк, Харьков, Львов , Днепропетровск

Обработка изображений


При использовании материалов этой страницы, прямая гиперссылка на нее обязательна

© 2008-2021 ScanKiev.com.ua