UNIMARC и связанные данные

UNIMARC и связанные данные.

UNIMARC and linked data

Gordon Dunsire

Freelance consultant

Edinburgh, UK

E-mail: gordon@gordondunsire.com

Mirna Willer

University of Zadar

Department of Library and Information Science

Zadar, Croatia

E-mail: mwiller@unizd.hr

Meeting: 187 — Advancing UNIMARC:

alignment and innovation — IFLA

UNIMARC Programme (UNIMARC)

Абстракт.

Основная цель этой статьи – представить аргументы за и рекомендации для представления форматов UNIMARC для библиографических и авторитетных данных в RDF (Resource Description Framework), стандарте W3C для структурирования данных в Semantic Web и Linked Data Environment. Это делается в продолжение работ уже начатых соответствующими группами IFLA в отношении представления ISBD и концептуальных моделей FRBR, FRAD и FRSAD. Авторы настоятельно рекомендуют, чтобы PUC выступил с предложением о финансировании IFLA работ по представлению форматов UNIMARC в RDF как исследовательского и эволюционного проекта.

Введение и основные предпосылки.

«Выражение Linked Data относится к установлению наилучших способов публикации и связывания данных в Web-пространстве». ^[1] При таком подходе, данные представляются как простые выражения, использующие Resource Description Framework (RDF), и связанные посредством машиночитаемых идентификаторов, соответствующих синтаксису Uniform Resource Identifier (URI). Выражения RDF принимают форму трёхчастной subject-predicate-object структуры, где subject определяет предмет описания, predicate – специфический аспект описываемого предмета и object определяет или представляет значение этого аспекта. Поэтому выражение RDF обычно называют тройкой (triple). Основой тройки является predicate, который выражает RDF-свойство, а subject и object являются составляющими RDF-классов. Классы описывают предметы, в то время как свойства (properties) описывают взаимоотношения между этими предметами; классы и свойства – основные типы элементов RDF. Предмет (thing), описанный как класс, может представлять любой тип ресурса или сущности, в отношении которой мы собираемся построить выражение. Контролируемые термины, используемые как элементы object в тройках, могут представлять собой некий «словарь значений», созданный на основе Системы организации простых знаний (Simple Knowledge Organization System - SKOS^[2]) – [семейства формальных языков для представления тезаурусов, классификационных схем, таксономий, систем предметных заголовков и других типов структурированных словарей контролируемой лексики (Wikipedia). В оригинале: специального набора элементов RDF для простых тезаурусов и таксономий]. Object также может быть представлен буквенной строкой данных, таких как имя лица, область издания, и т. д., не поддерживаемой словарём или контролируемой терминологией. Тройка это по существу метаданные, то есть данные о данных, в этом случае – данные о предмете (subject) тройки.

Linked data должны, следовательно, представлять особый интерес для библиотечного сообщества, развивающего изощрённые, ориентированные на пользователя, подходы к библиографическим метаданным в форме каталогов, регулируемых согласованными на международном уровне стандартами. Характерная черта linked data – их ориентация на Web, Semantic Web, позволяющая производить разделение данных на глобальном уровне между множественными разнородными источниками. Опять же, это замечательная возможность для библиотек, которые обмениваются MARC-записями с 1960-х годов.

Библиотечные linked data, произведённые из существующих записей, созданных на основе международных стандартов, будут высокого качества и в большом количестве, представляя множество информационных ресурсов, предположительно интересующих пользователей Семантического Webа. Один только WorldCat OCLC содержит свыше 230 млн. библиографических записей^[3]. Анализ MARCовского содержания^[4] даёт свыше 13 миллионов подполей на, примерно, 420 тыс. записей. Полагая, что каждое подполе генерирует одну тройку (triple), получим в среднем 31 тройку на запись. Эта цифра не уменьшается за счёт дублетности внутри WorldCat, поскольку легко компенсируется за счёт записей, не входящих в WorldCat, что даст по крайней мере миллиард троек из всего наследия записей. Не менее важны данные, создаваемые библиотеками для авторитетного контроля, включая имена лиц, наименования организаций, места, предметные входы и т.п., по-видимому представляющие интерес для более широкой аудитории, нежели традиционные пользователи библиотек.

Возможность использования существующих библиотечных стандартов для создания новых троек (triples) и извлечения троек из унаследованных записей, требует их представления в RDF, или путём создания соответствующих RDF-элементов, или путём конвертирования в существующие элементы. Это не просто позволит Семантическому Webу извлечь выгоду из библиотечных метаданных, но должно улучшить взаимодействие между библиографическими сущностями, атрибутами и отношениями, описанными различными, но связанными стандартами. Атрибуты RDF должны выбираться из различных стандартов и объединяться внутри одного приложения с целью соответствия их функциональным требованиям, с использованием Dublin Core Application Profile^[5] или онтологии, выраженной в RDF/OWL^[6].

IFLA, как организация, определяющая стандарты, должна быть особенно заинтересована во внедрении Linked Data и Semantic Web, в силу своей обязанности развивать и поддерживать библиографические модели и стандарты, и обеспечивать библиотечному сообществу, таким образом, лучшее обслуживание пользователей в изменяющихся технологических условиях. Кроме того, поддерживая развитие, ведущее к представлению её международно-согласованных стандартов в RDF, IFLA обеспечивает подлинность и достоверность метаданных, созданных библиотеками, что исключительно важно в окружении, позволяющем «каждому сказать что угодно о любом ресурсе», в то же время продвигая свой бренд за границы библиотечного сообщества. Используя чётко определённые взаимоотношения, «можно путём компьютерной обработки создать Web доверия [Godlbeck and Parsia]. Организация системы доверия в Семантическом Webе позволит компьютерам более просто определять, какая информация исходит из авторитетных источников, а какая нет»^[7].

Первую инициативу пересмотра стандартов IFLA в контексте Web-технологий и сервисов можно отнести к 2006-му году, когда группа по пересмотру ISBD Секции каталогизации IFLA приняла к сведению рекомендацию своей группы по изучению Material Designations развивать XML схему для ISBD. С этой целью в 2008 году была организована ISBD/XML Study Group ^[8], однако, поскольку работа группы по пересмотру FRBR (FRBR Review Group ^[9]) над FRBR^[10], связанная с RDF началась годом раньше, Study Group приняла решение вместо общей XML разметки рассмотреть представление ISBD как такого в RDF. Этот трёхлетний проект ныне находится в финальной фазе и должен быть завершён к декабрю 2011^[11],[12]. FRBR Review Group продолжала свою работу по представлению моделей IFLA, расширив её до моделей для авторитетных данных (FRAD^[13]) и предметных авторитетных данных (FRSAD^[14]). Все три модели, так же, как и ISBD, созданы с использованием Open Metadata Registry (OMR)^[15].

Необходимо, однако, упомянуть, что все эти инициативы разрабатывались в тесной взаимосвязи друг с другом, подпитывая общее развитие представления стандартов IFLA в RDF. Необходимо также упомянуть, что проводилось исследование возможности применения RDA: Resource Description and Access, как содержательного стандарта для формата UNIMARC, в добавление к и наряду с ISBD в контексте Семантического Webа ^[16].

Последние, третьи, редакции форматов UNIMARC для библиографических и авторитетных данных были опубликованы соответственно в 2007^[17] и 2009^[18] годах, с последующими апдейтами, подготовленными постоянным комитетом IFLA по формату UNIMARC Permanent UNIMARC Committee (PUC). В третьей редакции формата UNIMARC для авторитетных данных уже внедрены специфические свойства модели FRAD^[19], с целью сближения с этой моделью, в то время как его сближение с FRSAD по прежнему ждёт своей очереди. Решения по сближению формата UNIMARC с FRBR, а также с новой, консолидированной редакцией ISBD^[20] – в процессе одобрения. Не говоря уже о том, форматы UNIMARC строго следуют другим стандартам IFLA, в случае библиографических данных – это, в частности, ISBD. Таким образом работа по представлению формата UNIMARC в RDF в особенности для библиографических данных – есть расширение работы ISBD/XML Study Group, которая формирует основу этой статьи.

Пространство имён формата UNIMARC.

RDF требует, чтобы классы и свойства имели машиночитаемые идентификаторы, соответствующие синтаксису Uniform Resource Identifier (URI)^[21]. Набор URI с базовой информацией о соответствующих классах и свойствах, опубликованный и используемый в единственном контексте, называется пространством имён. Все URI в пространстве имён составляются из общей строки символов, называемой базовым доменом, к которому добавляется строка отличия (distinguish string), называемая локальной частью. В частности, выгода такого подхода заключается в том, что базовый домен может приводиться в форме короткой аббревиатуры для пользователя и автоматически расширяться для машинной обработки. UNIMARC RDF элементы будут изначально создаваться и поддерживаться с использованием OMR, следуя тому же подходу, что и ISBD и семейство функциональных требований к моделям метаданных (FRBR, FRAD, FRSAD). В частности, OMR поддерживает многоязычные метки и другие аннотации. Это важное требование для IFLA стандартов, предназначенных для приложения в международном окружении и созданных для многоязычного взаимодействия. UNIMARC переведён с английского на китайский, хорватский, французский, итальянский, литовский, португальский, русский и т.д. языки. RDF по существу нейтрален по отношению к языкам, поскольку предназначен для машинной обработки, но допускает, чтобы к одному и тому же элементу приписывались метки, определения, примечания об области использования и другие аннотации. Долговременная инфраструктура, потребная для управления пространством имён IFLA будет исследоваться и развиваться IFLA Namespaces Technical Group, в соответствии с рекомендациями, данными в отчёте этой группы^[22].

Идентификация элементов формата UNIMARC через tag/subfield/character position.

В этой статье, для идентификации элементов формата UNIMARC, даваемой тегами(поля), кодами подполей, индикаторами и позициями символов в блоке 1—Блок кодированной информации, используются аббревиатурные коды по следующей схеме:

Тег + 1-ый индикатор + 2-ой индикатор + код подполя, при этом b – используется для обозначения отсутствующего индикатора, а также вместо значка #, обозначающего пробел. Разделитель подполя $ - не требуется, поскольку каждый аббревиатурный код относится к единственному подполю, и шесть позиций дают код подполя, например:

010bba = ISBN

2001ba = Основное заглавие (значимое заглавие)

2000ba = Основное заглавие (незначимое заглавие)

Для Блока кодированной информации аббревиатурный код формируется с добавлением позиций символов, например:

100bba8 = Тип даты публикации

100bba17-19 = Код целевого назначения

100bba34-35 = Графика заглавия

Домены пространства имён.

Одно, или больше пространств имён с соответствующими доменами потребуются для представления элементов формата UNIMARC и словарей в RDF.

Заимствование пространств имён.

Наилучшей практикой является формирование RDF-элементов и словарей из уже существующих пространств имён, где это возможно: это сохраняет время и силы на развитие элементов и словарей и на их поддержку, проще развивать приложения и сервисы, работающие с метаданными, это стимулирует mix-and-much подход к приложениям, это развивает web связанных элементов и linked data. Наиболее важно, однако, убедиться, что используемые заново элементы, жёстко связаны с использующими их стандартами, с тем, чтобы какие-либо изменения в их прямом или косвенном значении (семантическое соседство) непосредственно отражались в родственном пространстве имён, чтобы предотвратить семантический дрейф между двумя пространствами имён.

Библиографический UNIMARC следует за ISBD, который уже имеет опубликованное пространство имён для наборов своих элементов и словарей ( Область 0 – область формы содержания и типа носителя). Таким образом, у формата UNIMARC есть выбор:

1. Использовать классы и свойства ISBD, где это возможно, вместо создания своих собственных в пространстве имён библиографического формата UNIMARC. Это целесообразно только в том случае, если предлагаемые изменения в одном стандарте влекут за собой рассмотрение их влияния на другой, т.е оба стандарта управляются и поддерживаются «как один».

2. Представить все элементы библиографического формата UNIMARC в своём собственном пространстве имён формата UNIMARC и связать с эквивалентными классами и свойствами в пространстве имён ISBD. Эта возможность должна выбираться, если UNIMARC и ISBD продолжают развиваться отдельно, даже если между ними существует тесная взаимосвязь.

Этот выбор должен быть сделан до того, как начнётся самостоятельное развитие пространства имён для библиографического формата UNIMARC.

В таблице 1 приводится пример соответствия потенциальных свойств (properties) библиографического формата UNIMARC существующим свойствам (properties) ISBD.

Обратите внимание, что домен пространств имён как для properties формата UNIMARC, так и для ISBD не приводится ради краткости изложения.

UNIMARC	English label	ISBD property	English label
P205bba	has edition statement	P1008	has edition statement
P205bbb	has issue statement*	P1011	has additional edition statement
P205bbd	has parallel edition statement	P1009	has parallel edition statement
P205bbf	has statement of responsibility relating to edition	P1010	has statement of responsibility relating to edition
P205bbg	has subsequent statement of responsibility**	P1010	has statement of responsibility relating to edition

Таблица 1. Пример соответствия свойств библиографического формата UNIMARC существующим свойствам RDF ISBD. Библиографический формат UNIMARC, поле 205 Область издания.

* Различия в областях применения, например P205bbb, могут быть сглажены с использованием SKOS properties для альтернативных областей, как это делается для некоторых FRBR properties, имеющих различные области применения во FRAD.

** Пример, когда элемент формата UNIMARC более детален, чем элемент ISBD. Для сохранения элемента формата UNIMARC и более точной детализации, необходимо определение UNIMARC property в пространстве имён библиографического формата UNIMARC.

UNIMARC Authorities, как уже упоминалось «принимает во внимание атрибуты сущностей и их взаимоотношения, как определено в Functional Requirements for Authority Data: Conceptual Model (FRAD)» в следующих аспектах: «изменена терминология, определения полей и контрольного подполя $5, Управление связями […]. Блоки переименованы на 2—Блок точек доступа, 4—Блок вариантных точек доступа, 5—Блок связанных точек доступа и 7—Блок принятых точек доступа на других языках и/или в альтернативной графике, в то время как теги обозначают имена сущностей, которые представляют контролируемые точки доступа, такие как Имя лица, Наименование организации, Заглавие». Однако FRAD – это модель, в то время как UNIMARC/A – носитель содержания на уровне приложения, поэтому эквивалентность определений FRAD и UNIMARC/A необходимо проверить. К тому же, в отличие от ISBD, FRAD – это расширение FRBR и в свою очередь использует подходящие элементы пространства имён последнего. Необходимо заметить, что между форматами UNIMARC для библиографических и авторитетных данных существует внутренняя взаимосвязь, означающая, что UNIMARC/A развивается, следуя изменениям и добавлениям в библиографическом формате. Согласование между UNIMARC/A и UNIMARC/B определяется подполем $3 в полях точек доступа формата UNIMARC/B и специальным образом в разделе Guidelines for Use UNIMARC/A [ В российской версии, в разделе «Соответствие полей российских форматов для библиографических записей и для авторитетных / нормативных записей» прим. перев.]. Поэтому необходимо исследовать как позиционировать UNIMARC/A в отношении Блока ответственности 7—формата UNIMARC/B с одной стороны и FRAD с другой, чтобы определить взаимоотношение элементов для специфических случаев связанных данных. Например, если специфический элемент – точка доступа/входа в формате UNIMARC/B имеет соответствующую запись в UNIMARC/A, которая также должна быть опубликована в RDF, тогда между ними должна быть установлена цепочка связанных данных, иначе, точка доступа формата UNIMARC/B, например 700 – Имя лица – первичная ответственность, используемая без ссылки на UNIMARC/A через подполе $3, может быть представлена как буквенная строка.

Специфические пространства имён формата UNIMARC.

ISBD не охватывает точки доступа или заголовки и соответствующие им авторитетные записи, поэтому UNIMARC Authorities не имеет соответствующих ISBD классов и свойств. Поэтому требуется создать пространство имён для UNIMARC Authorities.

Пример в таблице 1 показывает, что элементы ISBD не доходят до уровня детализации элементов формата UNIMARC для библиографических данных, поэтому создание пространства имён, специфичного для UNIMARC Bibliographic, для элементов, не охватываемых ISBD также необходимо, независимо от использования элементов ISBD. UNIMARC Bibliographic и UNIMARC Authorities должны иметь отдельные пространства имён как отражение отдельной публикации текстов и различия в подобных кодах полей и подполей.

Предполагается, что пространства имён форматов UNIMARC должно следовать шаблонам, установленным IFLA Namespaces Task Group для ISBD и FRBR, FRAD и FRSAD.

Для элементов формата UNIMARC Authorities базовый домен пространства имён имеет вид:

http://iflastandards.info/ns/unimarc/unimarca/elements/

Для представления его пользователям может использоваться аббревиатура "unimarca". Обратите внимание, что это не URL, это «cool» URI.

Для элементов формата UNIMARC Bibliographic базовый домен пространства имён имеет вид:

http://iflastandards.info/ns/unimarc/unimarcb/elements/

Его аббревиатура "unimarcb".

Для словарей форматов UNIMARC используются отдельные базовые домены пространств имён для каждого словаря, следуя практике ISBD. Базовый домен состоит из строки специфического идентификатора словаря, добавленного к общему базовому домену для UNIMARCовских словарей:

http://iflastandards.info/ns/unimarc/terms/ + строка идентификатора словаря

Специфическая строка идентификатора словаря не может базироваться на tag/indicators/subfield/character position code, поскольку некоторые словари, например Графика, приписываются более чем к одному тегу и в UNIMARC/B, и в UNIMARC/A.

UNIMARC/A: 100bba21-22

UNIMARC/B: 100bba34-35

Вместо этого может использоваться аббревиатура названия словаря, например:

http://iflastandards.info/ns/unimarc/terms/graphicssmd как пространство имён для словаря для специфического обозначения материала в 116bba1.

В этом случае для представления пользователю может использоваться аббревиатура "unimarcgsmd".

Заметим, что нет необходимости использовать базовый домен, чтобы показать, взят ли данный словарь из библиографического формата, или авторитетного. Словари могут использоваться как object, обладающий соответствующими свойствами (properties), использующимися в тройке (triple), и использование словарей может быть представлено в application profile как схема кодировки словаря Vocabulary encoding scheme, связанная с соответствующими свойствами RDF. Такой подход изымает словарь из его специфического использования внутри формата UNIMARC и упрощает его использование другими сообществами в не-UNIMARCовских приложениях.

Application profiles.

Один, или более DC Application profile потребуются для формата UNIMARC для представления заимствованных элементов, если что-либо: ISBD или FRAD классы или свойства, использование совокупных выражений, составленных из двух или более свойств (как в ISBD), использование специфических словарей в качестве Vocabulary Encoding Schemes, или другое, вынуждает использовать элементы в правильно сформированной записи библиографического или авторитетного формата UNIMARC, такие как статус – обязательный или повторяемый элемент.

Как UNIMARC/B, так и UNIMARC/A определяют обязательные, повторяемые и неповторяемые элементы в записи формата UNIMARC. К обязательным элементам в обоих форматах относятся: 001 Идентификатор записи, 100 Данные общей обработки (только некоторые элементы совпадают в обоих форматах) и 801 Источник записи, в то время как специфичными для каждого формата являются: 200$a Основное заглавие в UNIMARC/B (помимо отдельных полей, специфичных для ресурсов различных типов) и 2—Блок точек доступа в UNIMARC/A. Оба формата определяют повторяемые и неповторяемые элементы на уровне идентификаторов полей и подполей, например 010 ISBN – повторяемое, в то время как 010$a Номер – неповторяемое в формате UNIMARC/B. В формате UNIMARC/A поле 220 – Точка доступа – Родовое имя – повторяемое, но только для альтернативной графики, в то время как 220$a Начальный элемент ввода – не повторяемое. Порядок следования идентификаторов подполей в записи формата UNIMARC не определён, поскольку определяется данными.

Мета-метаданные.

Данные о специфике UNIMARCовской записи содержатся в маркере записи и в 1—Блоке кодированной информации. Это мета-метаданные, то есть данные о метаданных. В RDF существует множество техник, которые могут использоваться для представления таких данных, например, квалификатор языка, который может добавляться к буквенной строке, например, заглавия, используемого как object в тройке, например «@en» означает, что строка – на английском языке, «@fr» - на французском и т.д. Эти техники не требуют специфических UNIMARCовских элементов и исключаются из дальнейшего обсуждения в этой статье.

Существуют также мета-метаданные, специфичные для записей UNIMARC, такие как например данные ISO 2709, структурированного формата обмена записями, такие как длина записи, коды применения, длина индикатора и т.д. Такие элементы не имеют значения, когда метаданные представляются в RDF как тройки.

Словари Блока кодированной информации.

Коды и соответствующие величины и определения, используемые в Блоке кодированной информации для описания ресурса (а не запись UNIMARC), наилучшим образом представляются как SKOS-словари, аналогично словарям области 0 ISBD.

Код формата UNIMARC для словарного выражения (term-code) может использоваться как локальная часть его URI. Например:

http://iflastandards.info/ns/unimarc/terms/graphicssmd#a = "collage"

Когда term-код выражен числом, ему должна предшествовать буква, например T (term), чтобы избежать проблем в XML с локальной частью, начинающейся с числового символа, что соответствует практике ISBD.

Использование term-кода таким образом сохраняет языковую независимость URI, позволяет избежать перегрузки URI семантикой, а также позволяет избежать путаницы, если выражение (английское) изменяется в будущем (скажем, с "collage" на "mixed-media two-dimensional sculpture").

Сам по себе UNIMARCовский код вполне может быть представлен через skos:notation свойство. В следующих примерных тройках, использующих это свойство, URI используется как subject, а term code как величина объекта (object) :

<http://iflastandards.info/ns/unimarc/terms/graphicssmd#a> skos:notation "a".

(или, используя аббревиатуру пространства имён: unimarcgsmd#a skos:notation "a".)

<http://iflastandards.info/ns/unimarc/terms/publicationdatetype#f> skos:notation "f".

<http://iflastandards.info/ns/unimarc/terms/titlescript#ca> skos:notation "ca".

Подобным образом выражение (term) само по себе может быть представлено с использованием skos:prefLabel свойства с добавлением языкового квалификатора. Например:

<http://iflastandards.info/ns/unimarc/terms/graphicssmd#a> skos:prefLabel "collage"@en.

<http://iflastandards.info/ns/unimarc/terms/publicationdatetype#f> skos:prefLabel

"monograph, date of publication uncertain"@en.

<http://iflastandards.info/ns/unimarc/terms/titlescript#ca> skos:prefLabel "Cyrillic"@en.

Таблица 2 даёт полный пример словаря Блока кодированной информации с метками на английском, итальянском и португальском языках, взятых из официальных переводов формата UNIMARC.

N	PrefLabel@en	PrefLabel@it	PrefLabel@pt	Definition@en	ScopeNote@en
a	collage	collage	colagem	An original work created by affixing various materials (paper, wood, newspaper, cloth, etc.) to a surface.
b	drawing	disegno	desenho	An original visual representation (other than a print or painting) made with pencil, pen, chalk, or other writing instrument on paper or similar non-rigid support.
c	painting	pittura	pintura	An original visual representation produced by applying paint to a surface.
d	photomechanical reproduction	riproduzione fotomeccanica	reprodução fotomecânica	Any picture produced in imitation of another picture through the use of a photographic process to transfer the image to a printing surface.	A snapshot made to document a painting or a Xerox copy of a print are considered photomechanical reproductions. Art reproductions, postcards, posters, and study prints are included here.
e	photonegative	fotonegativo	negativo fotográfico	A piece of film, a glass plate, or paper on which appears a "negative" image, i.e. directly opposite to a "positive" image (photoprint), slide, or transparency. Used to produce a positive print.	Does not include negative photoprints, photoprints that are a combination of negative and positive images, photographs or solarized prints, all of which are considered to be techniques used when making photoprints.
f	photoprint	riproduzione fotografica	positivo fotográfico	A positive image made either directly or indirectly on a sensitised surface by the action of light or other radiant energy.	The term "photoprint" is used here as a more precise term than "photograph", which technically can cover both the print and the negative. Radiographs and opaque stereographs are included here.
h	picture	immagine	imagem	A twodimensional visual representation accessible to the naked eye and generally on an opaque backing.	This term is used when a more specific designation is unknown or not desired.
i	print	stampa	gravura	A design or picture transferred from an engraved plate, wood block, lithographic stone, or other medium.	Generally, there are four types: planographic print, relief print, intaglio print, and stencil print.
k	technical drawing	disegno tecnico	desenho técnico	A cross section, detail, diagram, elevation, perspective, plan, working plan, etc., made for use in an engineering or other technical context.
m	master	master	matriz	Any plate, mould, matrix, die etc. which allows the reproduction of the same impression.
z	other nonprojected graphic type	altro tipo di documento grafico non proiettabile	outro material gráfico nãoprojectável	[Types other than collage, drawing, painting, photomechanical reproduction, photonegative, photoprint, picture, print, technical drawing, master.]	Includes mixed media productions made by a combination of freehand and printing techniques when one or the other does not predominate. In some cases, where mixed media are applied, one must decide whether the creator intends the item to be a photoprint (even though it is painted over the photographic image). Hand colouring is considered a technique applied to a printing process; this aspect is covered by a character position 3. Computerproduced graphics and the various duplication masters (including spirit masters and transparency masters) are included here.

Таблица 2. Полный пример словаря Блока кодированной информации: словарь 116bba0 = Кодированные данные для изобразительных материалов: Специфическое обозначение изобразительного материала (Колонка N = код, также является частью URI).

Термины, определения и примечания о содержании взяты из следующих источников:

@en: http://archive.ifla.org/VI/8/unimarc-concise-bibliographic-format-2008.pdf

@it: http://unimarc-it.wikidot.com/116

@pt: http://www.ifla.org/files/uca/Unimarc_bib_3%C2%AAed_abrev.pdf

В заголовки Определения и Примечания о содержании включена разметка [Definition@en, ScopeNote@en] чтобы показать их происхождение из английского текста.

Использование внешних SKOS словарей.

Некоторые из наборов кодированных величин формата UNIMARC в точности базируются на внешних словарях или терминологии. Например, язык инципита в 036bbaz или язык документа в различных местах поля 101 используют трёхсимвольный код, взятый из Приложения А, которая есть ни что иное, как список формата MARC для языков. Этот список доступен как SKOS-словарь^[23], который может использоваться непосредственно в любой тройке формата UNIMARC. Коды географических регионов в 660bba также доступны в SKOS^[24].

Для обозначения страны публикации в 102bba используется 2-х символьный код из Приложения В, который является стандартом ISO 3166-1. Он не совпадает со списком стран формата MARC, который Библиотека Конгресса опубликовала как SKOS-словарь^[25]. Однако RDF-представление ISO 3166-1 – доступно^[26], хотя требуется дальнейшее исследование его применимости для формата UNIMARC.

Доступность SKOS-представлений для других внешних словарей, используемых в формате UNIMARC необходимо проверить. Если никаких SKOS-представлений найти нельзя, Постоянный Комитет по формату UNIMARC должен бы вступить в контакт с собственником словаря, чтобы обсудить его развитие и целесообразное представление в RDF.

Некоторые внутренние словари формата UNIMARC могут уже иметь подходящие SKOS-представления, даже если они не в точности базируются на внешних словарях и терминологиях. Возможный пример – набор символьных кодов, используемых в 100bba26-29. То есть какое-нибудь другое сообщество может уже иметь SKOS-представление подобного словаря, который содержит все выражения и коды, используемые форматом UNIMARC, и если так, UNIMARC может заимствовать необходимые SKOS URI. Это также требует дальнейшего исследования и проверки, например с использованием онтологических поисковых машин, таких как Swoogle.

Кодировка дат.

Кодированные элементы, которые представляют даты в определённом формате, могут быть представлены с использованием rdfs:range свойства. Например, даты публикации 1 и 2 в поле данных общей обработки библиографического формата UNIMARC могут использовать тройки (следуя соглашению URI, данному ниже):

unimarcb:100bba09-12 rdfs:range xsd:gYear.

unimarcb:100bba13-16 rdfs:range xsd:gYear.

Классы формата UNIMARC.

Как и в случае ISBD, есть только один класс, который необходимо рассмотреть для библиографического формата UNIMARC, за исключением классов для синтаксических схем кодировки, необходимых для внедрения внешних элементов, как сказано ниже. Это ISBD-класс Resource, который можно использовать как домен для всех RDF-свойств библиографического формата UNIMARC. Нет необходимости создавать UNIMARC-класс для Resource.

Классы для формата UNIMARC/Authorities требуют дальнейшего исследования, особенно в отношении FRAD/FRSAD. Пространство имён FRAD имеет классы для всех сущностей FRAD, таких как Bibliographic Entity, Имя/название, Идентификатор, Контролируемая точка доступа, Правила и организация, а также подклассы для Имени лица, Наименования организации, Родового имени и Названия произведения (Name of a Work); в нём также имеются подкласс для Наименования организации, поскольку его определение отличается от определения FRBR и класс для Рода, который не определён как сущность в опубликованном документе FRBR. Пространство имён FRAD однако не включает классов для других сущностей, таких как Лицо, Произведение, Выражение, Воплощение и т.д., поскольку они уже опубликованы в пространстве имён FRBR. В ходе анализа выясняется, что классы FRBR не удовлетворяют всем типам возможных классов формата UNIMARC/Authorities: Лицо, Наименование организации, Произведение могли бы рассматриваться как идущие в одном ряду, но есть примеры, где некоторые типы сущностей формата UNIMARC/Authorities, или кандидаты в классы, требуют проведения специального анализа. Таково например Место, которое в FRBR определено просто как «A location», что может соответствовать Территориальному или географическому наименованию формата UNIMARC/Authorities, но не вполне Месту, как точке доступа, которое было вначале определено для записи места (страны или города), но впоследствии расширено, чтобы включить Место и дату публикации, исполнения и т. д. , к тому же, поскольку UNIMARC/Authorities – общий формат для авторитетных записей Имён/Наименований и Предметных авторитетных записей, класс «Место» должен рассматриваться и в контексте FRSAD. Другой пример – это Произведение/Выражение: UNIMARC/Authorities определяет среди типов его сущностей следующие: Заглавие, Типовое заглавие, Имя/Заглавие, Имя/Типовое заглавие, но в 3-ей редакции он не делает различия, относится ли данный тип сущности к Произведению или к Выражению. FRAD имеет подкласс для Имен, относящемуся к Произведению, но если UNIMARC определяет новый тип сущности Выражение, то необходимо добавить к его пространству имён подкласс Имя, относящееся к Выражению. Возможные классы вне областей, охватываемых FRBR и FRAD, это такие сущности UNIMARC/A, как Торговая марка, Форма, Жанр и Физические характеристики, которые FRSAD сознательно исключает из своего рассмотрения.

Свойства в формате UNIMARC.

В общем случае элементы формата UNIMARC тег/индикаторs/подполе будут представлены как RDF-свойства, в соответствии с практикой ISBD.

Не все элементы UNIMARC подходят или целесообразны для представления в качестве RDF-свойств. Это относится к элементам мета-метаданных, рассмотренным выше. Однако другие данные в маркере записи, такие, как тип записи (в обоих форматах) в действительности являются метаданными. Несмотря на то, что часть информации, содержащейся в маркере, должна быть представлена в теле записи, это не всегда так, поэтому некоторые элементы маркера записи потребуют RDF-представления. Это такие элементы, например, как Библиографический и Иерархический уровни в UNIMARC/B, или Тип сущности в UNIMARC/A, и это требует дополнительного исследования.

Аббревиатурные коды тег/индикаторы, используемые в настоящей статье, могут формировать локальную часть URI. Разделение элементов URI через слэш «/», предпочтительнее, чем через хэш «#», в тех случаях, когда имеется большое количество свойств. Локальная часть должна предваряться буквой, чтобы избежать проблем с XML. ISBD использует P (property) для свойств, и UNIMARC может следовать этому соглашению. Например, URI для Области издания может быть:

http://iflastandards.info/ns/unimarc/unimarcb/elements/P205bba

(или, используя аббревиатуру пространства имён: unimarcb:P205bba)

Такой подход не зависит от языка, избавляет от семантической нагрузки URI и позволяет избежать путаницы, если "заголовок " (caption)связан с изменениями тега, индикатора или подполя.

Сам по себе caption может быть представлен с использованием rdfs:label-свойства и языкового квалификатора RDF. Заголовок (caption) может потребовать синтеза из отдельных заголовков. Следуя практике ISBD, метки RDF-свойств могут быть сделаны вербальными, путём предварения заголовка словом has. Например,

unimarcb:P205bba reg:name "hasEditionStatement".

Таблица 3 даёт полный пример RDF-свойств взятых из одного поля без индикаторов.

URI	Label@en	Name
P205bba	has edition statement	hasEditionStatement
P205bbb	has issue statement	hasIssueStatement
P205bbd	has parallel edition statement	hasParallelEditionStatement
P205bbf	has statement of responsibility relating to edition	hasStatementOfResponsibilityRelatingToEdition
P205bbg	has subsequent statement of responsibility	hasSubsequentStatementOfResponsibility

Таблица 3. Полный пример RDF-свойств, представляющих поле формата UNIMARC без индикаторов: Область издания.

Как уже обсуждалось, каждая уникальная комбинация индикаторов и подполя внутри поля составляет отдельное RDF-свойство с подходящей отдельной меткой. Метод достижения этого – снабжать заголовок подполя индикатором «caption», как показано в таблице 4:

URI	Label@en	Name
P206bba	has mathematical data statement (unstructured)	hasMathematicalDataStatementUnstructured
P206bbb	has statement of scale (unstructured)	hasStatementOfScaleUnstructured
P206bbc	has statement of projection (unstructured)	hasStatementOfProjectionUnstructured
P206bbd	has statement of coordinates (unstructured)	hasStatementOfCoordinatesUnstructured
P206bbe	has statement of zone (unstructured)	hasStatementOfZoneUnstructured
P206bbf	has statement of equinox (unstructured)	hasStatementOfEquinoxUnstructured
P2060ba	has mathematical data statement (structured)	hasMathematicalDataStatementStructured
P2060bb	has statement of scale (structured)	hasStatementOfScaleStructured
P2060bc	has statement of projection (structured)	hasStatementOfProjectionStructured
P2060bd	has statement of coordinates (structured)	hasStatementOfCoordinatesStructured
P2060be	has statement of zone (structured)	hasStatementOfZoneStructured
P2060bf	has statement of equinox (structured)	hasStatementOfEquinoxStructured

Таблица 4. Полный пример RDF-свойств, представляющих поле формата UNIMARC с одним двоичным индикатором: Область специфических сведений: картографические материалы - математические данные.

Когда в поле используются оба индикатора, со множеством значений для каждого индикатора, число потенциальных RDF-свойств существенно увеличивается за счёт комбинаторного взрыва, как показано в таблице 5:

URI	Label@en
P210bba	has place of publication, distribution, etc. (sequence of publication data not applicable or earliest available publisher; produced in multiple copies, usually published or publically distributed)
P210b1a	has place of publication, distribution, etc. (sequence of publication data not applicable or earliest available publisher; not published or publically distributed)
P2100ba	has place of publication, distribution, etc. (intervening publisher; produced in multiple copies, usually published or publically distributed)
P21001a	has place of publication, distribution, etc. (intervening publisher; not published or publically distributed)
P2101ba	has place of publication, distribution, etc. (current or latest publisher; produced in multiple copies, usually published or publically distributed)
P21011a	has place of publication, distribution, etc. (current or latest publisher; not published or publically distributed)

Таблица 5. Частный пример RDF-свойств, представляющих поле формата UNIMARC с двумя многозначными индикаторами: Публикация, распространение и др.

Общее число потенциальных свойств для этого примера вычисляется как 3 (число значений первого индикатора) умножить на 2 (число значений 2-го индикатора) и умножить на 8 подполей = 48.

В формате UNIMARC есть поля с гораздо большим числом комбинаций:

327 Примечания о содержании: 4 x 2 x 12 = 96

620 Место и дата публикации, исполнения и т. д.: 7 x 3 x 15 = 315

621 Место и дата, связанные с историей экземпляра: 7 x 3 x 16 = 336

852 Местонахождение и шифр хранения: 7 x 4 x 16 = 448

Выяснение, не являются ли отдельные комбинации нереальными и не требующими отдельных свойств, требует дополнительного исследования.

Совокупные выражения.

Каждое повторяющееся поле с более чем одним подполем формирует совокупное. выражение (aggregated statement). Необходимо сохранять подполя вместе для каждого вхождения поля, чтобы они не смешивались.

Например:

010bba: Международный стандартный номер книги – Номер + 010bbb: Международный стандартный номер книги – Уточнения.

Совокупные выражения представляются в RDF через Syntax encoding schemes (SES) с необходимостью следования практике ISBD. Заимствование ISBD элементов, представляющих собой сами по себе совокупные выражения, избавляет от необходимости развития эквивалентов формата UNIMARC.

Заключение и рекомендации.

Вовлечение IFLA в деятельность по публикации её международно-согласованных стандартов в RDF, как первый шаг к признанию библиотечных метаданных в качестве авторитетных и достоверных для Семантического Webа, уже произошло. Однако, хотя эти первые шаги охватывают все три концептуальные модели, FRBR, FRAD и FRSAD и библиографический стандарт ISBD, необходима дальнейшая работа. Эта статья, представляя некоторые решения и поднимая вопросы для будущего анализа, доказывает необходимость представления форматов IFLA UNIMARC, как для библиографических, так и авторитетных данных, таким же образом. Авторы также доказывают, что координация работы по представлению стандартов IFLA должна проводиться более тесно, поскольку на практике они рассматриваются и используются согласованно, а также потому, что так их будущее развитие станет более эффективным и экономичным. Другой аспект работы по представлению стандартов в RDF, тот, что это позволяет взглянуть с новой точки зрения на сами стандарты, их структуру, точность в словесных выражениях и определениях, последовательность, взаимодействие с другими родственными библиотеками и различными сообществами, имеющими дело со стандартами метаданных, что вызвано новой технологической парадигмой Семантического Weba.

Рекомендации Постоянному Комитету по формату UNIMARC для дальнейшего обсуждения и утверждения:

- Утвердить метод идентификации элементов и словарей формата UNIMARC.

- Принять решение по поводу изначального создания и поддержки элементов и словарей формата UNIMARC в OMR.

- Поддерживать и продвигать перевод классов и свойств формата UNIMARC на национальные языки.

- Принять решение заимствовать ли существующее пространство имён ISBD для формата UNIMARC/B, или представить [в RDF] элементы UNIMARC/B и правильно связать с существующими классами и свойствами ISBD.

- Глубже исследовать - производить ли заимствование существующих пространств имён FRAD/FRBR и FRSAD или представить [в RDF] все элементы UNIMARC/A и правильно связать с существующими FRAD/FRBR/FRSAD классами/подклассами и свойствами.

- Утвердить шаблон для пространств имён элементов и словарей UNIMARC/B и UNIMARC/A.

- Обсудить и рассмотреть требования к Application Profiles для формата UNIMARC.

- Исследовать возможность SKOS представлений внешних словарей для формата UNIMARC.

- Изучить внутренние словари формата UNIMARC с точки зрения возможности их SKOS представлений. Рассмотреть предложения к владельцам внешних словарей о развитии их SKOS-представлений.

- Глубже исследовать целесообразность классов формата UNIMARC/A в отношении UNIMARC/B, FRAD/FRBR и FRSAD.

- Глубже исследовать «комбинаторный взрыв» свойств формата UNIMARC, определить, не являются ли некоторые ситуации невозможными и не требующими отдельных свойств.

- Рассмотреть и одобрить заимствование совокупных элементов ISBD, которые представляются в RDF с использованием Syntax encoding schemes (SES), которые избавляют от необходимости развития самостоятельных UNIMARCовских эквивалентов.

- Провести обзор родственных инициатив в развитии MARC21, в особенности Bibliographic Framework Transition Initiative, недавно анонсированной Библиотекой Конгресса^[27].

Авторы статьи настоятельно рекомендуют, чтобы PUC обратился в IFLA с просьбой о выделении финансирования развития представления формата UNIMARC в RDF, в качестве исследовательского и эволюционного проекта.

Библиография.

^[1] Bizer, Christian; Tom Heath, Tim Berners-Lee. Linked data – the story so far. // International Journal on Semantic Web and Information Systems (IJSWIS), vol. 5, issue 3. (2009). Pre-print available at: http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf

^[2] W3C. SKOS Simple Knowledge Organization System - home page. 2010. Available at:

http://www.w3.org/2004/02/skos/

^[3] OCLC. WorldCat facts and statistics. 2011. Available at:

http://www.oclc.org/worldcat/statistics/default.htm

^[4] Moen, William E.; Penelope Benardino. Assessing metadata utilization: an analysis of MARC

content designation use. // International Conference on Dublin Core and Metadata Applications, DC-2003--Seattle Proceedings. Available at:

http://dcpapers.dublincore.org/ojs/pubs/article/view/745/741

^[5] Coyle, Karen; Thomas Baker. Guidelines for Dublin Core application profiles. 2009. Available at: http://dublincore.org/documents/profile-guidelines/index.shtml

^[6] W3C OWL Working Group. OWL 2 Web Ontology Language: document overview. 2009. Available at: http://www.w3.org/TR/owl2-overview/

^[7] Graves, Mike; Adam Constabaris, Dan Brickley. FOAF: connecting people on the Semantic Web. //Knitting the Semantic Web / Jane Greenberg, Eva Méndez, editors. Binghampton, NY: The Howarth Information Press, 2007. P. 196.

^[8] IFLA. Cataloguing Section. ISBD Review Group, ISBD/XML Study Group. 2008. Available at: www.ifla.org/en/node/1795

^[9] IFLA. Cataloguing Section. FRBR Review Group. Meeting Report Durban, August 21, 2007. Available at: www.ifla.org/files/cataloguing/frbrrg/meeting_2007.pdf

^[10] Functional requirements for bibliographic records: final report / IFLA Study Group

on the Functional Requirements for Bibliographic Records. München: Saur, 1998. Amended 2009, available at: www.ifla.org/en/publications/functional-requirements-for-bibliographic-records

^[11] Dunsire, Gordon; Mirna Willer. Standard library metadata models and structures for the Semantic Web. // Library hi tech news, vol. 28, no. 3. (2011), pp. 1-12. Available at:

http://dx.doi.org/10.1108/07419051111145118

^[12] Willer, Mirna; Gordon Dunsire, and Boris Bosančić. ISBD and the Semantic Web. // JLIS.it Journal of Library and Information Science. Italy, vol. 1, no. 2, (2010), pp. 213-236. Available at: http://dx.doi.org/10.4403/jlis.it-4536

^[13] Functional requirements for authority data : a conceptual model / edited by Glenn E. Patton ; IFLA Working Group on Functional Requirements and Numbering of Authority Records (FRANAR). Final report, December 2008 / approved by the Standing Committees of the IFLA Cataloguing Section and IFLA Classification and Indexing Section, March 2009. München: K. G. Saur, 2009. Also available at:

www.ifla.org/publications/functional-requirements-for-authority-data

^[14] Functional requirements for subject authority data (FRSAD) : a conceptual model / edited by

Marcia Lei Zeng, Maja Žumer and Athena Salaba ; IFLA Working Group on Functional Requirements for Subject Authority Records (FRSAR). Berlin/München: De Gruyter Saur, 2011. Final report available at: www.ifla.org/files/classification-and-indexing/functional-requirements-for-subjectauthority-data/frsad-final-report.pdf

^[15] Open Metadata Registry. No date. Available at: http://metadataregistry.org/

^[16] Dunsire, Gordon. UNIMARC, RDA and the Semantic Web. In: International Cataloguing and Bibliographic Control (ICBC), vol. 39, no. 2 (April/June 2010). Based on a paper presented to the World Library and Information Congress: 75th IFLA General Conference and Assembly, 23-27 August 2009, Milan, Italy; available at: www.ifla.org/files/hq/papers/ifla75/135-dunsire-en.pdf

^[17]UNIMARC Manual: Bibliographic Format / edited by Alan Hopkinson. 3rd edition. München: Saur,2007.

^[18] UNIMARC Manual: Authorities Format / edited by Mirna Willer. 3rd edition. München: Saur, 2009.

^[19] Willer, Mirna. Foreword to the third edition. // UNIMARC Manual: Authorities Format / edited by Mirna Willer. 3rd edition. München: Saur, 2009. Pp. 7-9.

^[20] International standard bibliographic description (ISBD). Consolidated edition. Draft as of 2010-05-10. Available at: www.ifla.org/files/cataloguing/isbd/isbd_wwr_20100510_clean.pdf. Standard edition is expected to be published by IFLA 2011.

^[21] Semantic Web Education and Outreach (SWEO) Interest Group. Cool URIs for the Semantic Web. 2008. Available at: http://www.w3.org/TR/cooluris/

^[22] IFLA Namespaces Task Group. IFLA namespaces - requirements and options. 2010. Available at:

http://www.ifla.org/files/classification-and-indexing/ifla-namespaces-requirements-optionsreport_corrected.pdf

^[23] Library of Congress. No date. MARC list for languages. Available at:

http://id.loc.gov/vocabulary/languages.html

^[24] Library of Congress. No date. MARC list for geographic areas. Available at:

http://id.loc.gov/vocabulary/geographicAreas.html

^[25]Library of Congress. No date. MARC list for countries. Available at:

http://id.loc.gov/vocabulary/countries.html

^[26]Martin, Earle. ISO 3166 RDF representation. 2005. Available at:

http://downlode.org/Code/RDF/ISO-3166/

^[27] Library of Congress. Bibliographic Framework Transition Initiative. 2011. Available at:

http://www.loc.gov/marc/transition/