Новинка:

BOK



Створення імідж-каталогів в ДПНТБ Росії засобами ІРБІС

Імідж-каталоги є одним з найбільш ефективних засобів ретроконверсії карткових каталогів для бібліотек з великим ретрофондом (тобто тим фондом, який не відображено у повноцінному електронному каталозі) і являють собою електронну модель традиційних "паперових" каталогів, побудовану на основі оцифрованих (відсканованих) образів каталожних карток.
 
Рішення по створенню імідж-каталогів, які пропонуються більшістю розробників, не включають автоматичного розпізнавання текстів карток і будуються на основі, по-перше, індексування карткових роздільників і, по-друге, суворого збереження порядку слідування відсканованих образів карток (таким чином відповідні графічні файли повинні розміщатися в суворій відповідності з порядком розстановки карток у традиційному каталозі). Якщо при використанні таких рішень за основу беруться традиційні алфавітні каталоги, то в створюваних у результаті цього імідж-каталогах повністю відсутня можливість тематичного (змістовного) пошуку; якщо ж за основу беруться систематичні або предметні каталоги - то в результаті виходять імідж-каталоги, в яких відсутня можливість бібліографічного пошуку (за автором, колективом тощо).
 
У ДПНТБ Росії для створення імідж-каталогів використовувалося рішення, яке пропонується системою автоматизації бібліотек ІРБІС (розробка Асоціації ЕБНІТ), а саме - ІРБІС Імідж-каталог (який являє собою спеціалізовану версію ІРБІС64 Повнотекстові БД - [2]). Дане рішення будується, перш за все, на основі автоматичного ("на льоту") розпізнавання текстів каталожних карток. В якості програмного забезпечення для технології розпізнавання текстів використовується OCR-технологія фірми ABBYY. За рахунок цього:
 
  • По-перше, реалізується повнотекстовий пошук (з ранжируванням результатів, з урахуванням близькості слів, морфології та ін.), який, включаючи можливості бібліографічного пошуку для професіоналів, пропонує кінцевому користувачеві можливості повноцінного тематичного пошуку;
 
  • По-друге, не пред'являються жорсткі вимоги до порядку сканування і розміщення образів карток. У разі ж дотримання цього порядку повністю реалізується модель "паперового" пошуку за картковими розділювачами.
 
Але головною відмінною рисою ІРБІС Імідж-каталогу є те, що база даних імідж-каталогу функціонує не окремо, не як автономна система, а інтегрується в автоматизовані технології повноцінного електронного каталогу, а саме - у технології АРМів Каталогізатор і Книговидача системи автоматизації бібліотек ІРБІС64 [3], що дозволяє здійснювати введення структурованих даних (наприклад, здійснювати розпис примірників ретрофонду), коригування розпізнаних даних, видалення записів, списання та перевірку фонду, бронювання, видачу, повернення, продовження та ін.
 
ІРБІС Імідж-каталог включає три модулі:
 
- Адміністратор - для створення власне бази даних імідж-каталогу на основі сканованих образів каталожних карток (пакетна операція), саме в нього вбудований "движок" ABBYY;
- Оригінальний клієнт для кінцевого користувача імідж-каталогу;
- Web-шлюз для доступу до імідж-каталогу через Інтернет / Інтранет.
 
Додатково для ведення БД імідж-каталогу можуть використовуватися АРМи Каталогізатор, Комплектатор і Книговидача ІРБІС64.
Власне процес створення імідж-каталогу складається з двох етапів (які можуть виконуватися послідовно або паралельно з певним часовим лагом):
 
- Сканування карткового каталогу;
- Формування бази даних імідж-каталогу на основі сканованих образів каталожних карток, що включає процес автоматичного розпізнавання їх текстів.
 
Етап сканування являє собою суто виробничу задачу і припускає використання спеціального обладнання, яке дозволяє здійснювати сканування каталожних карток з високою швидкістю.
 
У ДПНТБ для цих цілей використовувалися високошвидкісні сканери "Елар скамакс 2600М" та "Kodak i 1440" з продуктивністю до 30 карток в хвилину.
 
У якості вихідних при створенні імідж-каталогів використовувалися службові алфавітні каталоги. Каталожні картки сканувалися з двох боків з дозволом 200 dpi в палітрі сірої шкали (8 - Bit GrayScale). В якості графічного формату використовувався формат JPEG. Образ однієї картки формувався у вигляді двох файлів з пов'язаними іменами: Qnnnn.JPG - лицьова сторона, Wnnnn.JPG - зворотний бік (де nnnn - порядковий номер картки в каталожномух ящику). Середній розмір файлу лицьового боку картки - 20-30 Кб, зворотній - 10-20 Кб. Образи (файли) карток з одного каталожного ящика розміщувалися в одній директорії (машинного носія) з ім'ям, що збігається з алфавітним роздільником ящика (роздільники всередині ящиків не використовувалися). Наприклад:
Авербух - Авешнікова
Авіавиміри - Аврам
 
Необхідно відзначити, що в іменах директорій (а отже і в назвах роздільників) не можна використовувати такі символи, як ":", "\", "/", "*", "?", Подвійні лапки. Також не можна використовувати символи "крапка" і "пробіл" в кінці назви.
 
Саме така система іменування директорій дозволяє організувати пошук в імідж-каталозі за розділювачами (тобто дозволяє створювати буквальну модель традиційного каталогу). Необхідність пошуку за розділювачами (тобто необхідність такої моделі) диктується такими міркуваннями:
 
- Процес розпізнавання тексту карток не дає абсолютного результату, через їхній поганий стан або низьку якість друку не весь текст розпізнається або частина тексту розпізнається невірно, можливі випадки, коли текст картки взагалі не розпізнається; (слід особливо відзначити, що рукописні картки або рукописні помітки на картках не розпізнаються). Це призводить до того, що при пошуку по тексту (тобто за словами розпізнаного тексту) деякі картки не будуть знаходитися. Якщо не забезпечити (в якості резервного) пошуку по розділювачам, то погано розпізнані каталожні картки ніколи не будуть знайдені в імідж-каталозі. Іншими словами - від пошуку за розділювачами в імідж-каталозі можна відмовитися тільки у разі абсолютної якості розпізнавання (що практично недосяжно);
 
- Є ситуації - пов'язані насамперед з бібліографічним пошуком, - коли пошук за розділювачами може виявитися більш ефективним, ніж пошук за словами тексту. Наприклад, пошук картки на періодичне видання (журнал) з назвою "Жизнь": пошук по такому слову як "жизнь" в імідж-каталозі досить великого обсягу призведе до дуже великої видачі, в якій буде непросто знайти потрібну картку; значно швидше вона буде знайдена по алфавітним розділювачам;
 
- Обов'язково знайдуться користувачі - серед яких можуть бути і читачі і бібліотечні працівники, - які з різних причин воліють діяти "по старинці", тобто пошуку за словами тексту вони нададуть перевагу пошуку за картковими розділювачами. Немає жодних підстав позбавляти їх такої можливості.
 
При скануванні карткових каталогів неминуче виникає питання: чи виключати з процесу сканування каталожні картки, відповідні "новим" виданням, тобто тим виданням, які вже відображені в повноцінному електронному каталозі. Слідуючи логіці, це слід було б робити, щоб виключити дублювання даних в імідж-каталозі та електронному каталозі, з іншого боку - процес відбору каталожних карток (вилучення "нових" карток з ящиків перед скануванням і їх повернення до ящиків після сканування) є надзвичайно трудомістким. У ДПНТБ Росії для всіх каталогів (крім каталогу "Вітчизняна книга") вирішили допустити дублювання, ніж збільшувати трудомісткість і отже - час виконання всього процесу сканування, тобто "Нові" каталожні картки не виключалися зі сканування.
 
У відповідності зі структурою службових каталогів незалежно один від одного сканувалися наступні каталоги (і відповідно - створювалися окремі масиви образів каталожних карток):

Назва Кількість карток (шт.) Об’єм файлів у Гб.
“Отечественная книга” 735582 ~124
“Отечественная периодика” 276777 ~47
“Зарубежная книга” 634259 ~107
“Зарубежная периодика” 399673 ~68
“Неопубликованные переводы” 429567 ~73
Загалом: 2475858 ~419
 
Другий етап роботи - процес формування бази даних імідж-каталогу - являє собою повністю пакетну обробку (разову) на комп'ютері, тобто не включає ніяких ручних операцій. Для виконання цієї роботи служить АРМ Адміністратор зі складу ІРБІС64 Повнотекстові БД з функцією розпізнавання. Час виконання робіт визначається обсягом вихідного масиву каталожних карток та швидкістю розпізнавання однієї картки. Час розпізнавання однієї картки на комп'ютері з середніми показниками (2 Гб ОЗУ, 2.4 Ггц) складає близько 1.5-2 сек. (Тобто для розпізнавання 10000 карток необхідно близько 6:00). У ДПНТБ Росії зворотна сторона каталожних карток розпізнаванню не піддавалася (оскільки в основному містить рукописні дані службового характеру).
 
Таким чином, в ДПНТБ Росії було створено п'ять імідж-каталогів (див. таблицю вище).
 
Для роботи з імідж-каталогом з боку кінцевого користувача (читача) пропонується дві можливості:
 
- Оригінальний клієнтський додаток на основі ІРБІС-Навігатора;
- Web-шлюз для доступу до БД імідж-каталогу через Інтернет / Інтранет (тобто за допомогою Web-браузера).
 
Користувальницький інтерфейс оригінального клієнтського додатка на основі ІРБІС-Навігатора (загальний вигляд) представлений на мал. 1.
 
Основним елементом інтерфейсу є вікно ("Я шукаю"), куди користувач вводить пошуковий запит природною мовою. Результат пошуку представляється в порядку убування релевантності знайдених документів (тобто першими показуються картки, які найбільше відповідають запиту). Кожен документ подається у вигляді зображення каталожної картки, в якому червоним кольором підкреслені слова тексту, відповідні вихідному запиту (мал. 2).
 
Передбачена можливість перегляду зворотного боку каталожної картки (на якій може знаходитися додаткова службова інформація, в т.ч. інвентарні номери примірників).
 
Принциповою є можливість пошуку схожих документів. Пошук за подібністю виконується на основі оригінального алгоритму, який складається з наступних логічних кроків (виконуваних, зрозуміло, автоматично):
 
- Відбираються всі слова тексту вихідного документа (картки);
- Виключаються незначущі (неінформативні) слова відповідно з фіксованим списком стоп-слів;
- Слова упорядковуються за зростанням їх частоти зустрічальності в загальному словнику слів БД імідж-каталогу;
- В якості найбільш інформативних беруться перші десять слів впорядкованого списку і на їх основі формується запит на пошук схожих документів.
001

 Мал.1 - Загальний вигляд клієнтського додатка на основі ІРБІС-Навігатора для пошуку в імідж-каталозі.

Кінцевий користувач має можливість перейти від будь-якого знайденого документа до наступного за порядком - під порядком розуміється порядок проходження відповідних каталожних карток у паперовому каталозі. Дана можливість незамінна у випадку, коли необхідно переглянути продовження документа на наступній картці (тобто коли бібліографічний опис розміщений на декількох каталожних картках).

 
Спеціальне посилання передбачене для формування електронного замовлення на видачу літератури. Для формування замовлення користувач повинен позначити відповідні документи і ввести свої ідентифікаційні дані. При цьому він також має можливість переглянути свій особистий запис (формуляр) з усіма відомостями про книговидачі.
 
При досить великій видачі результатів пошуку користувачеві пропонується можливість уточнити свій запит, тобто провести уточнюючий пошук серед документів, знайдених за останнім запитом.
 
Для виконання "традиційного" пошуку по алфавітним розділювачам пропонується додаткове вікно ("Алфавітний вхід до ІМІДЖ-КАТАЛОГу"), куди користувач може ввести алфавітний ключ (декілька символів або слів), - в результаті чого він переходить до послідовного перегляду каталожних карток з відповідної скриньки.
 
В якості додаткової можливості кінцевому користувачеві може бути запропонований пошук за тематичним навігатором. Під тематичним навігатором розуміється вербальна класифікаційна система ієрархічного типу і побудований на її основі користувальницький інтерфейс (навігатор). Використання для пошуку тематичного навігатора дозволяє, з одного боку, спростити пошук у разі широких тематичних запитів, а з іншого боку, - компенсувати відомі недоліки пошуку з використанням вільної (ненормованої) лексики ("шум" і неточність). -Див. мал. 3.
002

Мал.2 - Результат пошуку по імідж-каталогу.

Користувач має можливість здійснювати переходи відповідно з ієрархічними зв'язками класифікатора і горизонтальними посиланнями типу "дивися також", фрагментувати класифікатор і позначати для пошуку необхідні рубрики.
 
Для створення такої класифікаційної системи пропонується спеціальна структурна модель. Алгоритм пошуку за тематичним навігатором полягає в тому, що текст запиту формується не тільки на основі зазначених користувачем рубрик класифікатора, але і з використанням усіх нижчестоящих рубрик та пов'язаних з ними ключових слів (які "невидимо" для користувача присутні в структурі класифікатора).
 
Дана можливість ІРБІС Імідж-каталогу (тематичний навігатор) в ДПНТБ Росії поки не використовується.
 
Інтерфейс доступу до імідж-каталогу (через Web-шлюз) на сайті ДПНТБ Росії представлений на мал.4. Web-шлюз дозволяє реалізувати ті ж функції, що й оригінальний клієнт на основі ІРБІС-Навігатора.
 
Як зазначалося вище, відмінною особливістю ІРБІС Імідж-каталогу є те, що він дозволяє інтегрувати технологію ведення баз даних імідж-каталогу в середовище автоматизованих технологій повноцінного електронного каталогу, в результаті чого забезпечується можливість виконання в імідж-каталозі таких робіт як, списання та переміщення літератури , книговидача та ін. На мал.5 представлено інтерфейс АРМа Каталогізатор (зі складу ІРБІС64), за допомогою якого можна здійснювати ведення бази даних імідж-каталогу в повному обсязі автоматизованих технологій електронного каталогу, зокрема - вести структурування, опис видання на основі зображення каталожної картки (якщо в цьому є необхідність) або проводити коригування розпізнаного тексту.
003

Мал. 3 - Тематичний навігатор

АРМ Книговидача (мал. 6) дозволяє працювати з електронними замовленнями, які сформовані кінцевим користувачем імідж-каталогу. Замовлення читачів представляються у вигляді образів каталожних карток відповідних видань. Пропонується спеціальний режим, який дозволяє описувати видаваний примірник видання в момент його видачі ("на льоту"). На цій основі можна здійснювати розпис примірників імідж-каталогу в процесі книговидачі (а не робити це заздалегідь в повному обсязі в АРМі Каталогізатор).
 
У висновку можна відзначити, що створення імідж-каталогів є практично єдиним способом ретроконверсії карткових каталогів великих обсягів (обчислюваних сотнями тисяч карток). "Ручна" ретроконверсія методом клавіатурного введення - навіть із застосуванням технологій запозичення - виявляється неприйнятною як по трудомісткості, так і за термінами виконання. Єдиним "недоліком" імідж-каталогів є серйозні фінансові витрати, пов'язані з їх створенням (хоча можна припустити, що витрати на "ручне" введення, враховуючи його трудомісткість, в результаті виявляться схожими за витратами на імідж-каталог). При цьому треба розуміти, що основна частка витрат при створенні імідж-каталогу (приблизно 90%) приходиться на рішення виключно виробничої задачі - власне сканування каталожних карток.
 
Імідж-каталоги ДПНТБ Росії доступні через сайт бібліотеки за адресою http://library.gpntb.ru/cgi2/irbis64r_img/cgiirbis_64.exe?C21COM=F&;I21DBN=TEXT_FULLTEXT&P21DBN=TEXT
004

Мал. 4 - Доступ до Імідж-каталогу на сайті ДПНТБ Росії

005

Мал. 5 - Доступ до імідж-каталогу через АРМ Каталогізатор

006

Мал. 6 - Робота з імідж-каталогом через РМ Книговидача.

Список джерел

1. Сбойчаков К.О. Перспективы развития ИРБИС: применение системы смыслового анализа текстов для создания полнотекстовых хранилищ знаний в современной библиотеке // Научные и технические библиотеки – 2003. - № 10. – С. 77-83.
2. Бродовский А.И., Попов Е.В., Сбойчаков К.О. ИРБИС64 как инструмент создания и ведения полнотекстовых баз данных // Научные и технические библиотеки – 2005. - № 11. – С. 71-75.
3. Бродовский А.И., Сбойчаков К.О. Новое поколение системы автоматизации библиотек ИРБИС – ИРБИС64: от электронного каталога к полнотекстовым базам данных // Научные и технические библиотеки – 2005. - № 2. – С. 107-111.
 
ПП «АДІС «Матрікс Прес», маючи відповідні виробничі потужності - високопродуктивні сканери і кваліфікований персонал, - готова на договірній основі виконувати роботи по скануванню карткових каталогів для бібліотек та виконувати роботи зі створення імідж-каталогів "під ключ".

 

Підготував за матеріалами сайту www.elnit.org Коваленко О.В.

Авторські права © 2020 Матрикс Пресс. Усі права захищені.
Joomla! — безкоштовне програмне забезпечення, яке розповсюджується за ліцензією GNU Загальна Публічна Ліцензія.
2006-2012 © Український переклад Joomla! Україна.