Проект по переводу в электронный вид генерального алфавитного каталога научной библиотеки им. Горького СПб Государственного Университета

Научная библиотека им. Горького СПбГУ – одна из крупнейших и старейших библиотек России. Сегодня в фонде насчитывается около 6,9 млн. томов. Наиболее ценной, с точки зрения исторического и культурного значения, является коллекция из 100 тыс. редких книг и 1 тыс. рукописей. Не менее ценным является генеральный алфавитный каталог русской и зарубежной литературы, насчитывающий порядка 3 млн. карточек, доступ к которым закрыт для обычных посетителей.

Проблема эффективного и общедоступного поиска библиотечных книг останется чрезвычайно актуальной до тех пор, пока каталоги крупнейших библиотек не будут преобразованы в электронные. Помимо этого достаточно остро стоят вопросы надежности, практичности и удобства работы с традиционными картотечными каталогами.

Научная библиотека им. Горького СПбГУ – одна из крупнейших и старейших библиотек России. Сегодня в фонде насчитывается около 6,9 млн. томов. Наиболее ценной, с точки зрения исторического и культурного значения, является коллекция из 100 тыс. редких книг и 1 тыс. рукописей. Не менее ценным является генеральный алфавитный каталог русской и зарубежной литературы, насчитывающий порядка 3 млн. карточек, доступ к которым закрыт для обычных посетителей. В 2006 году библиотека им. Горького приняла решение о создании полноценной электронной копии русской части генерального алфавитного каталога, чтобы сделать его открытым и доступным для всех желающих и облегчить поиск необходимых ресурсов среди большого объема информации.

Сотрудники библиотеки провели серьезное исследование рынка, прежде чем решить, кому они доверят свое “сокровище”. В результате, для проведения работ по сканированию библиотечного каталога была выбрана наша компания. Для нас данный проект представлял огромный интерес, и мы со всей ответственностью уже через несколько дней приступили к его подготовке.

Какие цели и задачи были поставлены перед нами:

Первоначально целью данного проекта являлось только создание электронной копии (сканирования) русской части генерального алфавитного каталога библиотеки. Создание электронного каталога не планировалось в текущем году в рамках данного проекта. Вопрос о создании электронного каталога предполагался как следующий этап, в связи с ограниченным бюджетом и сроками работ. Оценив условия проекта, наша компания сочла возможным создание электронного каталога в рамках выделенных сроков и бюджета, что и было предложено библиотеке. Библиотека приняла с радостью наше предложение, и было решено создавать данный каталог с возможностью поиска группы карточек по двум полям: по названию ящика и по названию разделителя, как первоначального, чтобы у сотрудников библиотеке и пользователей уже сейчас была возможность работать с электронными копиями карточек.

В итоге образовались новые цели и задачи проекта, которые включали в себя:

  • Организацию работ по сканированию русской части генерального алфавитного каталога (карточек и разделителей);
  • Проведение работ по созданию первоначального варианта электронного каталога.

Дополнительно к задачам были сформулированы обязательные требования проекта:

  1. Работы по сканированию должны производиться на территории библиотеки;
  2. Порядок следования карточек в ящике не должен быть нарушен;
  3. Ориентировочное количество карточек - 1,5 млн. шт.;
  4. Сканирование должно быть двустороннее, т.к. обратная сторона карточки содержит важную информацию для сотрудников библиотеки;
  5. Работы должны быть выполнены в срок до 5 месяцев.
  6. Были выданы образцы карточек, на основании которых мы должны были провести тестовое сканирование и выбор сканера.

1 Этап: Обследование

Анализ карточек показал, что:

  • Предварительная обработка и сортировка карточек не требуется;
  • Все карточки приблизительно одного формата;
  • Карточки различны по своим характеристикам, т.е. разного качества (гладкие, шершавые, глянцевые), разной толщины (от 0,03 до 4 мм), разного вида (рукописные, отпечатанные на принтере, отпечатанные на пишущей машинке), с разными типами служебных надписей (написанные ручкой синего, красного и голубого цвета, карандашом или фломастером).

Анализ системы biblio STOR-M показал, что:

  • Данная система по своим функциональным характеристикам полностью подходит для создания электронного каталога без дополнительных настроек;
  • Все отсканированные карточки будут помещаться в систему автоматически с помощью специально созданного конвертора.

После проведенного анализа нам предстояло выбрать оборудование и подобрать оптимальные настройки. Но прежде чем сделать это, мы должны были понять, что Заказчик хочет получить в конечном счете. Важна ли для него цветность, будет ли в дальнейшем проводиться автоматическое распознавание изображений карточек и другое.

Автоматического распознавания не требовалось в связи с тем, что карточки ветхие, с нанесенными на них рукописными надписями, сделанные на разлинованной бумаге, что в 80% случаев приводило бы к большому количеству ошибок. Цветность изображений также не интересовала, т.к. в дальнейшем предполагалось переводить карточку в текстовый вид.

Нам оставалось только определиться, в каком режиме – в “черно-белом” или “градациях серого” будет сканироваться картотека. Опираясь на свой опыт и итоги тестового сканирования, для получения оптимального качества изображений было принято решение сканировать картотеку в черно-белом режиме с разрешением 200 dpi (это связано с тем, что при сканировании в ч/б режиме количество ошибок получается всего на 1% больше чем в градациях серого, а памяти занимает в 1,5 раза меньше, что особенно ощутимо при таких больших объемах информации).

Модель сканера мы выбирали из линейки документных быстропроходных сканеров с производительностью от 30 тыс. листовдень, способностью сканировать бумагу различной толщины и возможностью подстраиваться под все типы карточек, используя различные настройки.


2 Этап: Проведение работ по сканированию каталога

Установив и настроив оборудование, мы приступили к сканированию каталога. Нам сразу стало понятно, что несмотря на тщательно подобранные настройки, ошибок не избежать. Разновидность карточек оказалась более обширной, чем нам было предоставлено для анализа. На основании этого у нас появилось три основных этапа работ по сканированию, под которые были выделены отдельные сотрудники.

I –Сканирование II – Поиск ошибок и пересканирование III – Редактирование

I –Сканирование. Ящики с карточками сканировались последовательно по алфавиту, на каждый ящик создавалась папка с номером и названием ящика, в которую сохранялись копии карточек и разделителей.

Трудности на этапе сканирования:

  1. Большой объем сканируемой картотеки повлек за собой значительную нагрузку на сканер, следствием чего явилась необходимость профилактических работ, в ходе которых с частотой один раз в месяц проводилось техническое обслуживание и иногда ремонт;

  2. Разнородность карточек в ящике требовала частого перенастраивания режима сканирования, т.е. перенастраивания сканера;

  3. Плотные карточки, изготовленные из толстого картона (или представляющие собой набор склеенных друг с другом тонких карточек), при прохождении через сканер часто застревали, из-за чего падала скорость работы и терялось время.

  4. Из-за ветхости карточек пыль и труха скапливались и забивали внутренние части сканера, что привело к частым ежедневным чисткам.

II – Поиск ошибок и пересканирование После сканирования всегда требуется проверка полученных изображений. Проверка проводилась на полное соответствие отсканированных изображений карточек оригиналу. При обнаружении ошибки карточка отмечалась в ящике с указанием № ошибки. Далее все помеченные карточки повторно сканировались уже на дополнительном менее скоростном сканере с тем же разрешением, но в градациях серого для получения более качественного результата.

Трудности на этапе поиска и пересканирования:

Большое разнообразие карточек привело к большому разнообразию ошибок. Ошибки были связаны не только с качеством изображения, но и с тем, что в процессе сканирования одна карточка накладывалась на другую. Такой тип ошибок очень плохо просматривается и чтобы не пропустить их, требуется усиленное внимание и дополнительные проверки.

III – Редактирование Под редактированием понимается замещение, т.е. когда на место карточки с ошибкой помещалась пересканированная карточка с тем же номером.

Трудности на этапе редактирования: трудность одна - не перепутать номера карточек и тем самым не нарушить порядок следования.

Все эти работы выполнялись на территории заказчика, следующие виды работ по повторной проверке, сортировке и внесении данных в систему проводились на нашей территории.


3 Этап: Внесение данных в электронную систему, закрытие проекта

Подготовительным этапом для заливки данных в систему являлась повторная проверка и сортировка. Сортировка – это разбиение электронного ящика на подпапки с одновременной проверкой на сдвоенные карточки и карточки с плохим качеством изображения. Последним видом работ явилась заливка данных в систему biblio STOR-M с помощью конвертора, настройка интерфейса системы и окончательная верификация данных.

Трудности на этапе сортировки:

После обработки уже сортированные ящики помещались на отдельный диск для хранения информации. Здесь мы столкнулись с проблемой нехватки дискового пространства в связи с дублированием массива данных на разных этапах работы (во избежание потерь данных с массивов отсканированных и откорректированных данных делались резервные копии).

По мере обработки уже отсортированные ящики заливались в систему с помощью конвертора, где в автоматическом режиме создавалась структура электронного каталога – папки – ящики, карточки - разделители. Конвертор был написан специально для данного проекта нашим техническим специалистом. Использование конвертора значительно ускорило процесс заливки данных в систему по сравнению с ручным внесением данных.

Параллельно велась работа по настройке системы, режимов вывода карточек, корректировка шаблона вывода данных в web среде.

Трудности на этапе заливки:

В связи с тем, что несколько раз изменялся вывод структура каталога и данные по полям ящиков и разделителей, изменялся и конвертор, т.е. переписывался его код.

После заливки всех отсканированных данных, система была установлена, настроена и отлажена на компьютерах, выделенных библиотекой. Полученное решение - электронный каталог генерального фонда библиотеки в первоначальном варианте позволяет:

  • Выполнять поиск по двум атрибутам: по названию ящика и по названию разделителя;
  • Просматривать прикрепленные изображения – карточки в электронном каталоге.

Все работы были сделаны в срок и с хорошим качеством. Каталог выложен для общего доступа на сайт библиотеки.

 

Библиотека им. Горького СПб Государственного Университета:

«С поставленной задачей команда компании «Алее Софтвер» справилась успешно. Хочется отметить высокий профессионализм специалистов подрядчика, отсутствие формализма при выполнении работ и стремление к конструктивному урегулированию всех возникающих вопросов».

Мы получили огромный опыт в сканировании библиотечного каталога, и готовы также успешно применять его в других проектах!