Изучение ресурсов Семантической паутины (Web3)

Семанти́ческие веб-се́рвисы (англ. Semantic Web Services, SWS; иногда Semantic Web Web Services, SWWS) — законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для автоматизированного поиска, композиции и выполнения с учетом их семантики. Часто называются в тематической литературе «динамической составляющей семантической паутины»

Технически семантический веб-сервис отличается от обычного веб-сервиса тем, что пользователю предоставляется не только описание интерфейса (обычно на языке WSDL) в терминах типов передаваемых сервису данных, возвращаемых значений и генерируемых ошибок, но и описание его семантики, т.е. того, что сервис делает, его предметной области, назначения и т.п. WSDL-описания сервисов изначально были предназначены для машинной обработки, кроме того, стандарт WSDL допускает наличие в этих описаниях произвольного дополнительного XML-содержимого, которое должно игнорироваться программами, не предполающими обработки этого содержимого — таким образом, метаданные не приходится выносить из WSDL-файлов.

Консорциум W3 предполагает использование для описания веб-сервисов тех же языков разметки, что и для статической части семантической паутины (RDF, RDF Schema, OWL), а также онтологии OWL-S, описывающей базовую терминологию предметной области. OWL-S состоит из четырех онтологий — базовой онтологии, онтологии сервиса, онтологии модели сервиса, онтологии процесса. Можно рассматривать OWL-S как семантическое расширение UDDI-описания веб-сервиса.

При использовании этой онтологии и языков разметки, семантика сервиса характеризуется семантикой четырёх его характеристик (IOPE, по первым буквам названия каждой характеристики):

входные параметры (англ. inputs);
выходные параметры (англ. outputs);
предварительные условия (англ. preconditions);
эффекты выполнения (англ. effects).

СЕМАНТИЧЕСКИЙ ВЕБ: ОТ ИДЕИ - К ТЕХНОЛОГИИ

За чуть более чем 10 лет своего существования Web настолько развился, что близок к состоянию "переполнения", как это ни парадоксально звучит.

Две основные причины порождают две основные проблемы Internet. Первая причина - рост объемов информационного наполнения, порожденный популярностью и дешевизной Web-технологий, а вторая - формат представления информации в Сети, который ориентирован преимущественно на людей и лишь в некоторых случаях допускает автоматическую обработку программными агентами.

В результате, во-первых, возникает проблема нахождения необходимой пользователю информации в любом виде - объемы Web-пространства не позволяют оперативно обновлять базы данных информационно-поисковых систем (не говоря уже о невозможности достижения 100-процентного охвата), а во-вторых в автоматизированном режиме практически невозможно выделить смысл информационных сообщений, например, по названию какой-либо конкретной статьи, представленной в Internet, можно найти сотни ссылок на эту статью, в массиве которых сама статья теряется.

Поэтому дальнейшее развитие Internet многие ученые связывают с концепцией Семантического Web (Semantic Web), которая во многом благодаря унификации обмена данными предположительно даст возможность интегрировать в Internet даже объекты реального мира. Концепцию Семантического Web выдвинул Тим Бернерс-Ли, один из основоположников Worl-Wide Web и председатель WWW-консорциума (W3C) на международной конференции XML-2000, прошедшей в 2000 году в Вашингтоне.

Основная идея этого проекта заключается в организации такого представления данных в сети, чтобы допускалась не только их визуализация, но и их эффективная автоматическая обработка программами разных производителей. Путем таких радикальных преобразований концепции уже традиционного Web предполагается превращение его в систему семантического уровня. По замыслу создателей Семантический Web должен обеспечить "понимание" информации компьютерами, выделение ими наиболее подходящих по тем или иным критериям данных, и уже после этого - предоставление информации пользователям.

При автоматической обработке информации в рамках Семантического Web взаимодействующие друг с другом сервисы на основе анализа смысловых связей между объектами и понятиями, хранящимися в Сети должны отбирать лишь ту информацию, которая будет реально полезна пользователям.

По определению консорциума W3C Семантический Web представляет собой расширение существующей сети Internet, в котором информация представляется в четком и определенном смысловом значении, дающем возможность людям и компьютерам работать с более высокой степенью взаимопонимания и согласованности. Семантический Web предусматривает объединение разнообразных видов информации в единую структуру, где каждому смысловому элементу данных будет соответствовать специальный синтаксический блок (тэг). Тэги должны составлять единую иерархическую структуру, на основе которой и должен функционировать Семантический Web. По словам Бернерса-Ли, в рамках проекта "Семантический Web" разрабатываются языки для выражения информации в форме, доступной для машинной обработки, на которых можно будет описывать как данные, так и принципы трактования этих данных. Это должно привести к тому, что правила выводов, существующие в какой-либо одной системе представления знаний, будут передаваться по сети другим подобным системам. В процессе реализации концепции Семантического Web получили широкое развитие синтаксические методы представления информации языковыми средствами XML и его дополнений, предназначенных для описания типовых свойств элементов XML- документов, их структуры и семантики: рекомендации W3C, регламентирующие DTD (Document Type Definition), XML Schema, XQuery (язык запросов к базам XML-данных) и т.д.

Другая ветвь Семантического Web связана с направлениями, близкими к области искусственного интеллекта, и названа онтологическим подходом. Этот подход включает в себя средства аннотирования документов, которыми могли бы воспользоваться компьютерные программы - Web-сервисы и агенты при обработке сложных пользовательских запросов.

XML - синтаксическая основа Семантического Web

Первым специализированным инструментом Семантического Web, оказался язык XML (еХtensible Markup Language), отнесенный в итоговом рейтинге компании IDG за 2001 год к числу главных технологических достижений, способных изменить в ближайшие годы весь компьютерный мир.

Как язык XML представляет собой достаточно универсальную синтаксическую основу, обеспечивающую как представление данных, так и задание отношений между ними. Кроме того, XML представляет собой открытую семантически ориентированную технологию, предоставляющую широкие возможности работы с метаданными.

Исходная версия XML, разработанная в консорциуме W3C под руководством Джона Босака, была опубликована в феврале 1998 г. и с тех пор развилась до уровня метаязыка, на базе которого определяются сотни новых предметно-ориентированных языков (к примеру, MathML, XLink, SMIL, XSL и др.)

В отличие от HTML, создававшегося для гипертекстовых документов с фиксированной структурой и составом тегов, XML предназначен для разметки документов произвольной структуры. XML-документы могут содержать сбалансированные деревья вложенных открывающих и закрывающих тегов, каждый из которых может включать в себя несколько пар "атрибут - значение". Однако XML как язык сам по себе ничего не говорит о семантике понятий, составляющих его синтаксические структуры.

Язык XML позволяет создавать свои собственные тэги - скрытые метки, которыми можно снабжать Web-страницы или разделы текста на страницах для описания их информационного наполнения. Например, тег <идентификатор> содержание </идентификатор>, который пользователь затем должен наполнить актуальной информацией, например: <DateOfBirth> 30-09-1987 </DateOfBirth>. Такой подход применим практически для всех областей, например, библиотекари могли бы определить собственные теги для обмена данными о книгах, в частности, <ISBN>, <Author> (<Автор>), <Price> (<Цена>) и т.д., а затем сохранить эти определения в некоторых схемах. После чего XML-ориентированные библиографические программы смогут автоматически обрабатывать такие документы. При этом XML, на самом деле, "не понимает" и не "розъясняет" содержания документов. Компьютерные программы могут использовать XML-теги, но при этом в программах должно быть на алгоритмическом уровне заложено "понимание" их назначения.

Поскольку в XML не существует фиксированного словаря тегов, то они могут определяться независимо для каждой программы. В XML это было изначально предусмотрено с помощью определения типа документа DTD (Document Type Definitions), накладывающего ограничения на используемые теги и задающегот грамматику, которая указывает допустимые комбинации и вложения имен тегов, имен атрибутов и т.д. Сегодня практически в каждой отрасли знаний имеется свой, постоянно расширяющийся список DTD. В XML применяется два вида указания на DTD:
- декларации внутренних подмножеств DTD-определений, помещаемых посредственно в XML-документ. При этом команду определение DTD заключается в квадратные скобки, например: <!DOCTYPE rootElement [declarations]>;
- ссылки на внешние DTD-определения, например, <!DOCTYPE wml PUBLIC "- //WAPFORUM//DTD WML 1.1//EN" "http://www.wapforum.org/DTD/wml_1.1.xml">

Указание PUBLIC во втором случае свидетельствует о том, что DTD является общедоступным описанием, в частности стандартом языка WML.

Язык DTD позволяет определить логическую структуру документа, т.е.:
- указывать порядок следования элементов;
- определять вложенность элементов;
- устанавливать количество возможных элементов;
- устанавливать типы атрибутов;
- определять сущности и нотации.

Вместе с тем, языку DTD присущи два серьезных недостатка - ограниченность описания типов данных и синтаксис, отличный от XML. Поэтому в настоящее время консорциум W3C настоятельно рекомендует заменять использование DTD новым стандартом - XML-схем (XML Schema), который был утвержден в 2001 году (http://www.w3.org/TR/xmlschema-formal/).

Ведущие производители программного обеспечения во всем мире приняли концепцию XML-схем и внедрили ее в своих продуктах. Так корпорация Microsoft предоставила в доступ на условиях бесплатного лицензирования схемв Microsoft Office 2003 XML разработчикам. В настоящее время по адресу www.microsoft.com/office/xml/default.mspx доступны XML-схемы:
- SpreadsheetML для Microsoft Office Excel 2003;
- FormTemplate Schemas для Microsoft Office InfoPath 2003;
- WordprocessingML для Microsoft Office Word 2003;
- DataDiagramingML для Microsoft Office Visio 2003.

По мнению представителей корпорации, доступность схем значительно облегчит реализацию поддержки возможности обмена данными между разрабатываемыми программами и приложениями офисного пакета.

Еще одно безусловное преимущество XML заключается в использовании им современного стандарта кодировки символов Unicode, который позволяет комбинировать тексты, написанные на всех основных языках мира (в том числе, имеется поддержка кириллицы), в одном документе. Тем самым XML дает возможность с легкостью обмениваться информацией вне национальных границ.

Поскольку XML является технологическим стандартом, можно говорить и о хороших дальнейших перспективах его использования и в качестве стандарта системы управления знаниями.

Сегодня во всем мире XML вступил в фазу широкомасштабного внедрения. С помощью этой технологии осуществляется управление информацией, классификационным схемам, индексирование.

Реализации Семантического Web

Уже сегодня практически все известные компании уровня IBM, Adobe или Sun Microsystems, активно используют технологию Семантического Web в своих продуктах для решения задач управления данными.

Компания Microsoft инвестирует сотни миллионов долларов в проект взаимодействующих сетевых ресурсов .NET, который отражает их представление о ближайшем будущем Internet. Создаваемая система позволяет проводить автоматизированный обмен сетевыми ресурсами между отдельными программами, приложениями, базами данных, пользователями, основываясь на XML, как на ключевой технологии.

В Европе ведется проект, подобный Семантическому Web, - "Сеть знаний", Knowledge Web (http://kw.dia.fi.upm.es/semanticportal/jsp/frames.jsp). Эта сеть ориентирована на нужды информационных технологий в промышленности, науке и образовании, а Семантический Web (поддерживаемый и в Европе - SWAD-Europe, www.w3.org/ 2001/sw/Europe/) больше рассчитан на электронную коммерцию и упрощение работы пользователей сети Интернет.

Недавно в рамках идеологии Семантического Web была разработана в School of Electronics & Computer Science (ECS) Университета Саутгемптона была разработана система mSpace. Программное обеспечение этой системы представляет собой набор мощных инструментов, позволяющих собирать данные из различных источников и организовывать информацию по категориям и дающих возможность пользователю свободно ориентироваться в ней.

Разработчики приводят следующий пример. Например, если в Google набрать "классическая музыка", то поисковик выдаст ссылки на сайты, так или иначе касающиеся классической музыки. Если же искать "классическую музыку" на mSpace, то будет выдан список композиций, которые можно тут же скачать. Другой пример - по запросу "Гарри Поттер" пользователь получит не просто набор ссылок, а отсортированный отчет, в котором часть ссылок будет лежать в графе "фильмы", другая часть - в колонке "книги", а третья - в колонке "рецензии". Семантический Web предоставит пользователю возможность выбирать, в каком направлении исследовать информацию, а не просто выдавать самое релевантное по общему алгоритму.

Перспективы

Может быть благодаря Семантическому Web Internet сможет выйти из намечающегося кризиса, связанного с "проблемой размерности". Появилась надежда, что компьютеры смогут обрабатывать данные в соответствии с их смыслом, следуя по гипер- ссылкам, ведущим к определениям ключевых терминов и правилам логических выводов. Полученная в результате инфраструктура даст отправную точку для разработки автомати- зированных Web-сервисов, интеллектуальных агентов, ведь сама идея Семантического Web основана на стремлении "научить" компьютерные программы, Web-службы и роботы поисковых систем и агентов "осмысленно" оперировать той информацией, для которой последние были созданы.

Семантический Web обещает вполне ощутимые преимущества, дополнительные сервисы. Навигация в Сети станет более осмысленной, а поиск - более точным. Сами пользователи смогут создавать страницы Семантического Web, давать собственные определения и вводить новые правила вывода, используя стандартное для этой сети программное обеспечение.

Семантический Web - это не какая-то отдельная сеть, а расширение и эволюция уже существующей, но при этом информация снабжена точно определ╦нным смыслом, позволяющим человеку и программам успешно взаимодействовать. Сегодня происходит активная интеграция новых элементов Семантической Сети в структуру традиционного Web. Семантический Web уже вполне готов к широкому внедрению в корпоративном секторе, он перерос границы чисто исследовательского проекта, все его основополагающие технологии становятся стандартами, а крупные участники рынка высоких технологий внедряют их в прикладные программы корпоративного уровня.

В настоящее время на Семантический Web работает множество научных подразделений по всему миру, совершенствуя и разрабатывая нове протоколы, технологи, среды программирования, агентовы, языки, пользовательские интерфейсы, методы распределенного поиска знаний. Прогнозируется, что работоспособная глобальная версия Семантической сети появится уже в этом десятилетии. О реальности этого прогноза свидетельствует публикация и утверждение WWW-консорциумом в феврале 2004 года финальных версий двух основных спецификаций Семантического Web. Это пересмотренная версия RDF (в нее добавлены описания тестов, позволяющие приложениям на разных языках программирования понимать друг друга, а также средства стыковки RDF и XML) и OWL.

В заключение назовем лишь некоторые из множества событий, происшедших за год, прошедший со "дня рождения" Семантического Web:

10 февраля 2004 г. - Консорциум W3C публикует ключевые компоненты глобального проекта Семантического Web: рекомендации RDF и Web Ontology Language (OWL). Многие эксперты считают эту дату официальным днем рождения Семантической Сети.

2 августа 2004 г. - Рабочая группа Semantic Web Best Practices and Deployment издала первую версию спецификации значений OWL, состоящую из двух частей: "набор значений" и "распределение значений". В спецификации представлен обширный набор различных элементов языка OWL, причем авторы предлагают всем заинтересованным лицам и организациям включаться в процесс доработки и пополнения этого набора.

22 ноября 2004 г. вышел в свет еще один комплект документации, посвященной технологиям Семантического Web. Рекомендации OWL-S: Semantic Markup for Web Services посвящены созданию онтологий и применению языка OWL как элемента Web- служб для автоматизации процессов компоновки, исследования, активизации и мониторинга ресурсов Сети.

Уроженец Великобритании, изобретатель World Wide Web Тим Бернерс-Ли (Tim Berners-Lee), который сейчас живет в США, в 2004 году за это свое изобретение получил от королевы Великобритании Елизаветы II рыцарский титул. В апреле 2004 года за это же изобретение сэр Тим Бернерс-Ли стал первым лауреатом новой премии Millennium Technology Prize, денежный эквивалент которой составляет 1 млн евро. Кроме того, он признан "Величайшим Британцем 2004 года".

Тим Бернерс-Ли закончил Королевский Колледж Оксфордского Университета, после чего поступил на работу в CERN (Европейский Центр Исследований Элементарных Частиц). Там в 1980 г. он написал программу Enquire, предназначенную для хранения информации, в которой использовались случайно устанавливаемые связи и которая стала предтечей WWW. Позднее в 1989 году он ввел термин Web и создал язык гипертекстовой разметки HTML. Затем в 1990 году появились первый HTTP-сервер и первый Web-браузер. Всемирная паутина WWW, как система доступа к информации, начала работать в 1991 г.

В 1994 г. Бернерс-Ли, в то время сотрудник Массачусетского технологического института (США), основал и возглавил некоммерческую организацию консорциум World Wide Web Consortium (W3C), которая занимается техническими проблемами развития и функционирования Web.

В настоящее время Тим Бернерс-Ли возглавляет разработку концепции Семантического Web.

Создать бесплатный сайт с uCoz