CВОДНЫЙ ОТЧЕТ ПО ПРОЕКТУ № В0022

"Центр коллективного пользования для тестирования, нормативной и методической поддержки суперкомпьютерных вычислений в области открытых систем"

1.4 База данных и поисковая система 

          Количество информации по проблеме ИВРНО в сети Интернет экспоненциально нарастает. Существуют как англоязычные так и русскоязычные профессиональные Интернет-сайты, посвященные тем или иным аспектам высокопроизводительных вычислений.  Вместе с тем само это обилие информации часто приводит к затруднениям при необходимости найти в сети Интернет информационный ресурс, посвященный той или иной проблеме, актуальной в данный момент для пользователя. Эти факторы приводят к необходимости создания как базы данных по проблеме ИВРНО, так и автоматизированной поисковой системы.

1.4.1. Поисковая система

Универсальные поисковые Интернет-сайты в данной ситуации не дают адекватного решения именно в силу своей универсальности. Число ресурсов, выдаваемых универсальными контекстными поисковыми машинами в ответ на простой запрос, часто слишком велико для рационального использования, эти ресурсы, как правило,  не структурированы. Эффективным решением в этой ситуации может быть создание специализированного проблемно-ориентированного поискового каталога, в сочетании с системой атрибутно-контекстной навигации и каталогизации информационных ресурсов. Кроме того, большое значение, которое придается проблеме ИВРНО в рамках ФЦП "Интеграция" делает актуальным создание Интернет-портала методической поддержки работ в области высокопроизводительных вычислений с анонсированием типовых аппаратно-программных и технологических решений,  существующих и разрабатываемых стандартов,  новостным блоком, дискуссионным форумом  и другими присущими Web-порталам элементами.

В рамках выполнения проекта осуществлена разработка проблемно-ориентированной поисковой машины по проблеме ИВРНО, базирующейся на  принципах построения объектно-ориентированных распределенных информационных хранилищ слабоструктурированных ресурсов с Интернет доступом. Создано алгоритмическое и программное обеспечение информационного хранилища по проблемам ИВРНО, понимаемого как  совокупность разнородных информационных ресурсов, хранящихся на различных сайтах сети Интернет, объединенных единой системой администрирования, метаописания, атрибутно-контекстного поиска и аналитической обработки. Разработана модель информационного хранилища, соответствующая стандарту X500.

Показано, что реляционные модели плохо приспособлены для представления графовой модели каталога в X500. Предложена более эффективная по скорости выполнения запросов и простоте использования объектно-ориентированная модель каталога. Сам каталог реализован как в виде объектно-ориентированной базы данных, так и в виде совокупности XML-файлов. XML - реализация позволяет строить открытые каталоги информационных ресурсов по проблеме ИВРНО на различных Интернет-сайтах и естественным образом организовывать обмен информацией между ними.

            С учетом принятой объектно-ориентированной модели данных информационного хранилища, может быть предложена следующая структура программного обеспечения информационного Интернет-хранилища:

·        подсистема управления каталогом;

·        подсистема управления информационными ресурсами;

·        система автоматической каталогизации;

·        система объединения хранилищ;

·        система атрибутно-контекстного поиска.

Первые четыре из них относятся к системе администрирования информационного хранилища, в то время как последняя обеспечивает обработку всего спектра клиентских запросов к информационному хранилищу.

Все программные модули системы построены на базе технологии сервлетов.

Система управления каталогом служит для создания и администрирования каталога информационного хранилища. Она должна обеспечивать создание, перемещение и удаление узлов каталога, присвоение имен узлам каталога (и изменение этих имен в случае необходимости), проверку корректности графа каталога и используемых имен и ряд других вспомогательных функций.

Задача системы управления информационными ресурсами состоит в обеспечении присвоения каждому информационному ресурсу в хранилище корректного значения атрибутов, определяющих, во-первых, его местонахождение в каталоге, а во-вторых – его описание. Первая задача может быть решена либо с помощью процедуры автоматической рубрикации информационного ресурса либо с помощью ручной процедуры рубрикации. Автоматическая рубрикация описывается  в следующем разделе и подразумевает, что для каждого узла дерева ресурсов (т.е. для каждой рубрики каталога) задается набор ключевых слов и правил, позволяющих построить формализованную процедуру отнесения ресурса к той или иной рубрике (рубрикам) каталога. Ручная рубрикация предполагает работу эксперта с каждым определяемым ресурсом и его отнесение к той или иной рубрике в соответствии с решением эксперта. Система управления ресурсами  в «ручном» режиме должна позволять осуществлять присвоение информационным ресурсам как классификационных атрибутов (т.е. "привязку" информационных ресурсов к узлам дерева каталога), так и описательных атрибутов, изменение этих атрибутов, удаление атрибутов и ссылок на информационные ресурсы из базы данных и ряд других вспомогательных функций.

            В условиях интенсивного роста числа информационных ресурсов по проблемам ИВРНО в сети Интернет и их постоянного обновления большую роль играет автоматизация каталогизации информационных ресурсов и присвоения им адекватных значений классификационных атрибутов.  Автоматическая система каталогизации (структура каталога приведена в следующем разделе) информационных ресурсов по проблемам ИВРНО, предложенная  в проекте, основана на  процедуре статистической оценки распределения вероятностей ключевых слов по обучающей выборке информационных ресурсов, классификация которых произведена экспертами. 

Система объединения хранилищ должна осуществлять экспорт каталогов в XML файлы, импорт XML файлов в базу данных каталога, определять непротиворечивость различных каталогов и строить общий каталог информационного хранилища на их основе.

Задача системы поиска ресурсов состоит в определении по запросу клиента полного перечня информационных ресурсов хранилища, удовлетворяющих условиям  поиска. Большинство поисковых Интернет-систем, реализует либо атрибутный (перемещение по рубрикам каталога), либо контекстный (распознавание слов содержащихся в тексте ресурса) поиск. Кроме того, поиск по атрибутам обычно сводится к перемещению по отдельным веткам дерева каталога. Поиск по нескольким атрибутам одновременно (как это делается в развитых базах данных) обычно не реализуется. В данной НИР предлагается реализация поисковой системы, совмещающей контекстный и атрибутный поиск, а также позволяющей осуществлять отбор значений нескольких атрибутов одновременно при перемещении по дереву каталога.

В рамках выполнения проекта создана также система персонализации доступа к информационному хранилищу, позволяющая любому пользователю поисковой системы по проблемам ИВРНО сохранять результаты поиска в собственном отводимом ему на сервере  каталоге, детализировать поиск, отслеживать изменения на интересующих его Интернет-сайтах, вести собственный архив-хранилище документов.

            Создан и поддерживается в актуальном состоянии Web портал по проблеме ИВРНО, доступный по адресу http://www.informika.ru/text/inftech/highcalc/

Портал содержит следующие основные разделы и подразделы:

  • Научно-методическая поддержка
  • Модели и методы программирования
      • Средства разработки параллельных программ
      • Операционные системы
      • Параллельные языки
      • Средства распараллеливания
      • Трансляторы для суперкомпьютеров
      • Утилиты и библиотеки
      • Тесты производительности
      • Научные программы
  • Учебные материалы
      • Книги
      • Журналы
      • Конференции
  • Тесты эффективности
  • Аппаратные средства
  • Процессорные платформы
  • Коммуникационное и сетевое оборудование
  • Суперкомпьютерные платформы
  • Кластерные объединения
  • Нормативные базы и стандарты
      • Организации и рабочие группы
      • Аппаратные средства
      • Программные средства
      • Сетевые средства

1.4.2. База данных нормативных документов 

            Для удобства ознакомления с нормативными документами, связанными с разработкой переносимых компьютерных программ, на сервере Центра открытых систем была создана база данных стандартов IEEE и ISO, касающихся информационных технологий и технологии открытых систем.

            Помимо номера стандарта и его названия на английской языке, в базе данных содержится гипер-ссылка на один из ресурсов сети Интернет, где можно более подробно ознакомиться с содержанием документа.

            В настоящее время база данных содержит 26 стандартов IEEE, и 93 стандарта ISO.

Доступ к базе осуществляется по URL: http://www.cplire.ru/rus/casr/projects/centre/dbase.html