Оглавление
2.
Классификация информационных ресурсов. Классификация Web ресурсов
5.Визуализация
многомерных данных
6.Модели
данных для индексации текстовых и графических информационных ресурсов.
8.
Информационные агентства и каталоги.
1 .Основные понятия дисциплины “Мировые информационные ресурсы”: информационные ресурсы, документ, информация, сведения, данные, формат данных, структура данных, типы данных.
Информационные ресурсы – это отдельные документы, массивы документов, которые входят в состав информационных систем.
Документ – это материальный объект с зафиксированной на нем информацией, предназначенный для передачи во времени и пространстве в целях хранения и общественного использования.
Информация – это сведения, независимо от формы их представления, усваиваемые субъектом в форме знаний.
Сведения - это набор сигналов физических процессов воспринимаемых субъектом через органы его чувств. (Субъектом может быть человек или машина, которая предназначена для восприятия сигналов).
Cведения, полученные путём измерения, наблюдения, логических или арифметических операций представленные в форме, пригодной для хранения, передачи и обработки называются данными.
Данные различаются по:
1. Формату данных – характеристика данных, способствующая оптимальному их использованию и определяющая структуру и способ их хранения, диапазон возможных значений и допустимые операции, которые можно выполнять над этими данными. (Графический документ, электронный формат и т.д.)
2. Структуре данных – это организационная схема, в соответствии с которой данные упорядочены с тем, чтобы их можно было максимально эффективно интерпретировать или выполнять над ними различные операции.
Ниже
приведено несколько классификаций.
Реляционные данные - это данные из реляционных баз (таблиц).
Многомерные данные - это данные, представленные в многомерных кубах
OLAP.
Измерение (dimension) или ось
- в многомерных данных - это собрание данных
одного и того же типа. Измерения позволяют структурировать многомерную базу данных.
По
критерию постоянства своих значений в ходе решения задачи данные могут быть:
· переменными;
· постоянными;
· условно-постоянными.
Переменные данные - это такие данные, которые изменяют свои значения в
процессе решения задачи.
Постоянные данные - это такие данные, которые сохраняют свои значения в
процессе решения задачи (математические константы, координаты неподвижных объектов) и не зависят от внешних факторов.
Условно-постоянные данные - это такие данные, которые могут иногда изменять
свои значения, но эти изменения не зависят от процесса решения задачи, а
определяются внешними факторами.
Данные,
в зависимости от тех функций, которые они выполняют, могут быть справочными,
оперативными, архивными.
Следует
различать данные за период и точечные данные. Эти различия важны при
проектировании системы сбора информации, а также в процессе измерений.
Данные за период характеризуют некоторый период времени. Примером данных за период могут быть: прибыль предприятия за
месяц, средняя температура за месяц.
Точечные данные представляют значение некоторой переменной в
конкретный момент времени. Пример точечных данных:
остаток на счете на первое число месяца, температура в восемь часов утра.
Данные
бывают первичными и вторичными (агрегированными). Вторичные данные -
это данные, которые являются результатом определенных вычислений, примененных к
первичным
данным. Вторичные данные, как правило, приводят к ускоренному
получению ответа на запрос пользователя за счет увеличения объема хранимой
информации.
Метаданные (Metadate) - это
данные о данных.
В
состав метаданных могут входить: каталоги, справочники, реестры.
Метаданные
содержат сведения о составе данных, содержании,
статусе, происхождении, местонахождении, качестве, форматах и формах
представления, условиях доступа, приобретения и использования, авторских,
имущественных и смежных с ними правах на данные и др.
Мировые информационные ресурсы обычно подразделяются на три сектора:
- сектор деловой информации;
- сектор научно-технической и специальной информации;
- сектор массовой потребительской информации.
Сектор деловой информации подразделяется на группы:
1. Биржевая и финансовая информация. Эта информация о котировках ценных бумаг, валютных курсах, учетных ставках, рынках товаров и капиталов. Информация предоставляется биржами, брокерскими компаниями и специальными службами финансовой информации.
2. Статистическая информация:
- числовая;
- экономическая;
- демографическая;
- социальная.
Эта информация представляется в виде прогнозов, моделей, рядов динамики государственными службами и компаниями, занятыми исследованиями, разработками и консалтингом.
3. Коммерческая информация. Это информация по компаниям, фирмам, корпорациям, направлениям их работы, финансовым состоянием, ценам на продукцию и услуги, связи, сделки и руководителям.
4. Деловые новости в области экономики и бизнеса. Коммерческая информация используется предпринимателями при решении следующих задач:
- выбор поставщиков, партнеров и размещение заказов;
- при выходе на рынок с новым товаром;
- при поиске покупателей;
- при слиянии и приобретении компании;
- при маркетинговых исследованиях по анализу рынка.
Сектор научно-технической и специальной информации включает: документальную, библиографическую, реферативную и полнотекстовую информацию о фундаментальных и прикладных исследованиях и профессиональную информацию для юристов, врачей, инженеров и остальных групп.
Сектор массовой потребительской информации включает новости и справочную информацию, потребительскую развлекательную информацию.
Рис. Схема классификации Web ресурсов
Портал – это Web сайт, сочетающий в себе функции навигационного сайта и информационного ресурса по различным темам.
Информационные сайты - обеспечивают доступ пользователей к документам определенной тематики.
Корпоративные сайты, а так же сайты электронной коммерции – дают доступ к коммерческой информации (информации о товарах, услугах, производителях), а также возможность удаленного заказа, оплаты и приобретения товаров и услуг.
Web интерфейс – это сайты, которые через стандартные Web страницы предоставляют доступ к сервисам Internet (электронной почты, телеконференций и другим).
Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины периодически посещают web-страницы и заносят информацию о них в гигантские базы данных. Это позволяет пользователю по ключевым словам, найти необходимую информацию.
Существует два вида информационных баз данных о web-страницах: поисковые машины и каталоги.
Поисковые машины: (spiders, crawlers) постоянно исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.
Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Конструкция страниц значения не имеет.
Модели поиска информации
В настоящее время используется несколько подходов к представлению информации в базах данных для обеспечения последующего поиска этой информации. Рассмотрим два наиболее популярных подхода. Первый базируется на теории множеств, а второй на векторной алгебре. Оба подхода достаточно эффективны на практике, однако у них есть общий недостаток, который следует из основного упрощающего предположения, заключающегося в том, что смысл документа, его основное содержание определяется множеством ключевых слов — терминов и понятий, входящих в него. Конечно же, такие подходы частично ведут к потере содержательных оттенков текстов, зато позволяют выполнять быстрый поиск и группировку документов по формальным признакам. Сегодня эти подходы — самые популярные. Следует заметить, что существуют и другие методы, например семантические, в рамках которых делаются попытки выявить смысл текста за счет анализа грамматики текста, использования баз знаний и различных тезаурусов, отражающих семантические связи между отдельными словами и их группами. Очевидно, что такие подходы требуют больших затрат на поддержку баз знаний и тезаурусов для каждого языка, тематики и вида документов.
Булева модель поиска
Булева модель является классической и широко используемой моделью представления информации, базирующейся на теории множеств, и, следовательно, моделью информационного поиска, базирующейся на математической логике. Популярность этой модели связана, прежде всего, с простотой ее реализации, позволяющей индексировать и выполнять поиск в массивах документов большого объема. В настоящее время популярным является объединение булевой модели с алгебраической векторно-пространственной моделью представления данных, что обеспечивает, с одной стороны, быстрый поиск с использованием операторов математической логики, а с другой стороны — качественное ранжирование документов, базирующееся на весах входящих в них ключевых слов.
В рамках булевой модели документы и запросы представляются в виде множества морфемных основ ключевых слов, будем их в дальнейшем называть термами. Пусть документальный массив С состоит из множества документов d\, ...,dn, а документ dv содержит множество различных термов T(di). Обозначим через r=UM „T(dj) словарь массива С, представляющий собой множество всех
термов, встречающихся в документах из С, и через T(dt) — словарь документа d%. В булевой модели запрос пользователя представляет собой логическое выражение, в котором ключевые слова (термы запроса) связаны логическими операторами AND, OR и NOT. В различных поисковых системах в Internet пользователи могут пользоваться умолчаниями, не используя в явном виде логических операций, а просто перечисляя ключевые слова. Чаще всего по умолчанию предполагается, что все ключевые слова соединяются логической операцией AND (— в этих случаях в результаты поиска включаются только те документы, которые содержат одновременно все ключевые слова запроса. В тех системах, в которых пробел между словами приравнивается к оператору OR, в результаты поиска включаются документы, в которые входит хотя бы одно из ключевых слов запроса.
При использовании булевой модели база данных включает индекс, организуемый в виде инвертированного массива, в котором для каждого терма из словаря базы данных содержится список документов, в которых этот терм встречается.
В индексе могут храниться также значения частоты вхождения данного терма в каждом документе, что позволяет сортировать список по убыванию частоты вхождения. Классическая база данных, соответствующая булевой модели, организована таким образом, чтобы по каждому терму можно было быстро получить доступ к соответствующему списку документов. Кроме того, структура инвертированного массива обеспечивает его быструю модификацию при включении в базу данных новых документов. В связи с этими требованиями, инвертированный массив часто реализуется в виде В-дерева.
Существует несколько подходов к формированию архитектуры поисковых систем, соответствующих булевой модели и нашедших свое воплощение в реальных системах. Одной из наиболее удачных реализаций структуры базы данных информационно-поисковой системы на мэйнфреймах фирмы IBM была признана модель данных системы STAIRS (Storage and Information Retrieval System), которая, благодаря изначально удачным архитектурным решениям до сих пор продолжает развиваться. База данных информационно-поисковых систем этой традиционной архитектуры состоит из следующих основных таблиц [27]:
• текстовой, содержащей текстовую часть всех документов;
• таблицы указателей текстов, включающей указатели местонахождения документов в текстовой таблице, а заодно и форматные поля всех документов;
• словарной, содержащей все уникальные слова, встречающиеся в полях документов, т.е. те слова, по которым может осуществляться поиск. Слова могут быть связаны в синонимические цепочки;
• инверсной, содержащей списки номеров документов и координаты всех вхождений отдельных слов в полях документов.
Процессы, происходившие при поиске информации в базе данных STAIRS, сегодня реализуются средствами современных СУБД и ИПС документального типа. Поиск термина в базе данных осуществляется следующим образом.
1. Происходит обращение к словарной таблице, по которой определяется, входит ли слово в состав словаря базы данных, и если входит, то определяется ссылка на цепочку появлений этого слова в документах.
2. Выполняется обращение к инверсной таблице, по которой определяются координаты всех вхождений терма в текстовую таблицу базы данных.
3. По номеру документа происходит обращение к записи таблицы указателей текстов. Каждая запись этого файла соответствует одному документу в базе данных.
4. По номеру документа осуществляется прямое обращение к фрагменту текстовой таблицы — документу — и последующий его вывод.
5. В случае, когда обрабатывается выражение, состоящее не из одного слова, а из некоторого словосочетания, в результате отработки поиска по каждому слову запроса формируется массив записей, соответствующих вхождению этого термина в базу данных. После окончания формирования массивов результатов поиска происходит выявление релевантных документов путем выполнения теоретико-множественных операций над записями этих массивов.
5.3.2. Векторно-пространственная модель
Большинство известных информационно-поисковых систем и систем классификации информации в той или иной мере основываются на использовании векторной модели описания данных (Vector Space Model) [66, 68]. Векторная модель является классической алгебраической моделью. В рамках этой модели документ описывается вектором в некотором евклидовом пространстве, в котором каждому используемому в документе терму ставится в соответствие его весовой коэффициент (значимость), который определяется на основе статистической информации о его вхождении в отдельном документе или в документальном массиве. Описание запроса, который соответствует необходимой пользователю тематике, также представляет собой вектор в том же евклидовом пространстве термов. В результате для оценки близости запроса и документа используется скаляр'ное произведение соответствующих векторов описания тематики и документа.
В рамках этой модели с каждым термом ц в документе d) (и запросе q) сопоставляется некоторый неотрицательный вес wy. Таким образом, каждый документ и запрос могут быть представлены в виде ^-мерного вектора Щ/Ц _ i,... к, где к — общее количество различных термов во всех документах. Согласно векторной модели, близость документа af, к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена как скалярное произведение соответствующих векторов описаний. При этом весовые коэффициенты отдельных термов можно вычислять множеством различных способов.
Один из возможных простейших (но эффективных) подходов — использовать в качестве веса терма wi; в документе d, нормализованную частоту его использования fregtj в данном документе.
Щ = tfij = freqij / max] frequ i
Этот подход не учитывает частоту вхождения отдельного терма во всем информационном массиве, так называемую дискриминационную силу терма. Поэтому в случае, когда доступна статистика использований термов во всем информационном массиве, более эффективно следующее правило вычисления весов:
щ = tf A-idfy = tfij
xlog N / щ,
где iii — число документов, в которых используется терм /), а Л' — общее число документов в массиве.
Обычно значения весов wtj нормируются (дополнительно делятся на квадратный корень из суммы весов всех термов, входящих в документ), что позволяет рассматривать документ как ортонормированныи вектор. Такой метод взвешивания термов имеет стандартное обозначение — tfxidf, где tf указывает на частоту использования термина в документе (term frequency), a idf — на величину, обратную числу документов массива, содержащих данный терм (inverse document frequency).
Когда возникает задача определения тематической близости двух документов или документа и запроса, в этой модели используется простое скалярное произведение sim(di, d2) двух векторов \\mi\\i = \,.., * и \&'i2\ - 1,.., А. которое, очевидно, соответствует косинусу угла между векторами-образами документов d\ и d2. Очевидно, sim(di,d2) принадлежит диапазону [0, 1]. Чем больше величина simidu d2) — тем более близки документы dl и d2. Для любого документа d, имеем sim(di,di)= 1. Аналогично мерой близости запроса q r документу dL считается величина sim{q, dt).
Векторно-пространственная модель представления данных автоматически обеспечивает системам, построенным на ее основе, такие возможности:
• обработку сколь угодно больших запросов;
• простую реализацию режима поиска документов, подобных уже найденным;
• сохранение результатов поиска в некотором виртуальном массиве с последующим уточняющим поиском в нем.
5.3.3. Гибридные модели поиска
Несмотря на то что приведенные выше модели являются классическими, в чистом виде они применяются только в моделях систем. На практике чаще всего используются гибридные подходы, в которых объединены возможности булевой и векторно-пространственной моделей и зачастую добавлены оригинальные методы семантической обработки информации. Чаще всего в информационно-поисковых системах процедура поиска выполняется в соответствии с булевой моделью, а результаты ранжируются по весам в соответствии с моделью векторного пространства.
Термин "OLAP" неразрывно связан с термином
"хранилище данных" (Data Warehouse). Приведем определение, сформулированное
"отцом-основателем" хранилищ данных Биллом Инмоном:
"Хранилище
данных - это предметно-ориентированное, привязанное ко времени и
неизменяемое собрание данных для поддержки процесса принятия управляющих
решений".
Чтобы обеспечить анализ накопленной информации,
организации создают хранилища данных - интегрированные коллекции сведений из
различных оперативных систем. Эти хранилища - основа построения систем принятия
решений. Хранилищам данных свойственны следующие черты.
Предметная ориентированность. Информация в
хранилище организована в соответствии с основными аспектами деятельности
предприятия (заказчики, продажи, склад и т. п.); это отличает хранилище данных
от оперативной БД, где данные организованы в соответствии с процессами (выписка
счетов, отгрузка товара и т. п.). Предметная организация данных способствует
как упрощению анализа, так и повышению скорости выполнения аналитических
запросов.
Интегрированность. Обычно
оперативные БД хранят неинтегрированные данные.
Семантически одни и те же данные в разных базах могут быть выражены в разных
единицах измерения. Кроме того, данные могут быть закодированы по-разному
(например, логическое значение «Истина» может храниться как 1, -1, .Т, или
как-то еще). Такие данные практически непригодны для анализа конечным
пользователем. При загрузке в хранилище данные должны быть проверены, очищены и
приведены к единому виду. Анализировать такие интегрированные данные намного
проще.
Привязка ко времени. Данные, выбранные их оперативных БД, накапливаются в
хранилище в виде «исторических слоев», каждый из которых относится к
конкретному периоду времени. Это позволяет анализировать тенденции в развитии
бизнеса. С технической точки зрения привязка ко времени означает, что таблицы в
явном виде имеют в своем составе «временной ключ» либо данные распределены по
нескольким таблицам, каждая из которых относится к определенному времен ному
периоду (году, кварталу и т. п.).
Неизменяемость. Попав в хранилище, данные «залегают» в свой
«исторический слой» и уже никогда не меняются. Это еще одно отличие хранилища
от оперативной БД, в которой данные постоянно меняются, «дышат», и один и тот
же запрос, выполненный дважды с интервалом в 10 минут, может дать разные
результаты. Стабильность данных облегчает их анализ.
Эти свойства сформулировал «отец-основатель» хранилищ
данных Билл Инмон (Bill Inmon) в книге «Building the Data Warehouse»
в 1992 году.
Зачем строить хранилища данных - ведь они содержат
заведомо избыточную информацию, которая и так "живет" в базах или
файлах оперативных систем? Ответить можно кратко: анализировать данные
оперативных систем напрямую невозможно или очень затруднительно. Это
объясняется различными причинами, в том числе разрозненностью данных, хранением
их в форматах различных СУБД и в разных "уголках" корпоративной сети.
Но даже если на предприятии все данные хранятся на центральном сервере БД (что
бывает крайне редко), аналитик почти наверняка не разберется в их сложных,
подчас запутанных структурах. Автор имеет достаточно печальный опыт попыток
"накормить" голодных аналитиков "сырыми" данными из
оперативных систем - им это оказалось "не по зубам".
Таким образом, задача хранилища - предоставить
"сырье" для анализа в одном месте и в простой, понятной структуре.
Ральф Кимбалл в предисловии к своей книге "The Data Warehouse
Toolkit" пишет, что если по прочтении всей книги
читатель поймет только одну вещь, а именно: структура хранилища должна быть
простой, - автор будет считать свою задачу выполненной.
Есть и еще одна причина, оправдывающая появление
отдельного хранилища - сложные аналитические запросы к оперативной информации
тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы
сервера.
На мой взгляд, под хранилищем можно понимать не
обязательно гигантское скопление данных - главное, чтобы оно было удобно для
анализа. Вообще говоря, для маленьких хранилищ предназначается отдельный термин
- Data Marts (киоски
данных), но в нашей российской практике его не часто услышишь.
Основные компоненты
- Основные компоненты хранилища данных таковы (рис.
9-4):
- оперативные источники данных;
- средства переноса и трансформации данных;
- метаданные;
- реляционное хранилище;
- OLAP-хранилище;
- средства доступа и анализа данных.
Рис. 9-4.
Структура хранилища данных.
Понятие визуализации данных описывает графические изображения, генерируемые программой, в которой контент изображения определяется считыванием цифровых данных. Обычно данные представлены в числовой форме, но существуют и программы, способные визуализировать понятия, заложенные в текстовых документах. Такие программы организуют геометрические фигуры - точки, линии, круги и прямоугольники - таким образом, чтобы они представляли собой интерпретацию считываемых программой данных. Атрибуты - относительное расстояние, размер и цвет - отражают отношения между геометрическими фигурами. Визуализация данных завоевала значительную популярность в среде бизнес-пользователей, поскольку она поддерживает ряд важных бизнес-задач - например, процессы принятия решений, управление знаниями и управление бизнес-процессами. В последние годы программное обеспечение в области визуализации данных для бизнес-пользователей развивается под действием трех тенденций:
Разработка сложных видов диаграмм. Большинство визуализаций данных построено на основе диаграмм стандартного типа. Это либо элементарные секторные диаграммы, либо сложные графики рассеяния. За последние годы перечень видов диаграмм, поддерживаемых программами, существенно расширился.
Повышение уровня взаимодействия с визуализацией пользователя. Пару лет назад большая часть визуализаций представляла собой статичные диаграммы, предназначенные исключительно для просмотра. Сегодня на передний план выходят динамические диаграммы, уже сами по себе являющиеся пользовательским интерфейсом, в котором пользователь может напрямую и интерактивно манипулировать визуализацией, подбирая новое представление онлайновой информации.
Увеличение размеров и сложности структур данных, представляемых визуализацией. Элементарная секторная диаграмма или гистограмма визуализирует простые последовательности числовых информационных точек. Однако новые усовершенствованные типы диаграмм способны визуализировать тысячи таких точек и даже сложные структуры данных - например, нейросети.
Рисунок 1
демонстрирует график этих тенденций, одновременно встраивая в их контекст ряд
функциональных свойств, общих для всех программ визуализации данных. Этот
график отражает и тенденцию перехода от форм элементарной визуализации данных (rudimentary data visualization, RDV) к усовершенствованным формам (advanced data visualiztion,
ADV) - на Рисунке 1 это показано перемещением от нижнего левого к верхнему
правому углу изображения. Элементарные формы визуализации данных (секторные
диаграммы, гистограммы и презентационная графика) присутствовали в программах
многие годы, тогда как более современные формы (с интерактивными пользовательским интерфейсами, возможностями drill-down и взаимодействия с данными) достаточно новы.
Пунктирные линии на Рисунке 1 показывают жизненный цикл элементарных и
усовершенствованных форм визуализации данных, выделяя три этапа этого цикла:
созревание, развитие и активизацию.
База данных информационно-поисковых систем традиционной архитектуры состоит из следующих основных таблиц [27]:
• текстовой, содержащей текстовую часть всех документов;
• таблицы указателей текстов, включающей указатели местонахождения документов в текстовой таблице, а заодно и форматные поля всех документов;
• словарной, содержащей все уникальные слова, встречающиеся в полях документов, т.е. те слова, по которым может осуществляться поиск. Слова могут быть связаны в синонимические цепочки;
• инверсной, содержащей списки номеров документов и координаты всех вхождений отдельных слов в полях документов.
Основными типами ресурсов в Интернет являются: форматированный текст (для форматирования используется HTML код), графические изображения (форматы: JPEG, GIF, PNG, SWF), аудио файлы(форматы: WAV, MIDI, MP3, RA), видео. Ресурс любого из этих типов может стать объектом поиска. Поэтому под информационным ресурсом можно понимать некий файл, имеющий внутреннюю структуру согласно спецификации одного из объявленных типов и находящийся на специальном сервере (информационный источник) в Интернет. Для организации поиска информации в сети Интернет в сети Интернет в Поисковых системах предусмотрена подсистема индексации, которая периодически просматривает ресурсы Интернет и осуществляет выборку страниц, подлежащих индексации. В зависимости от реализации системы, ресурсы могут выбираться либо из списка (указанного пользователем) либо искаться поисковым роботом произвольным образом.
Загруженные страницы подлежат разбору, в результате которого осуществляется выбор конструктивных элементов (содержащих наиболее информативные данные о данном ресурсе). Собранная информация сохраняется в базе данных. Кроме того, система индексирования должна обеспечивает переиндексацию (обновление информации) ресурсов, поскольку ресурсы в сети со временем могут изменяться.
Важное знать, какие параметры необходимы для индексации ресурса.
Для графических данных это, прежде всего, высота и ширина изображения, тип изображения и его размер (это технические параметры изображения, которые никак не отражают его содержание). Наиболее важными являются параметры, отражающие тематическую принадлежность изображения. В первую очередь – это имя изображения. Имя, в случае его осмысленности, наилучшим образом отражает содержание изображения. Следующим показателем может служить имя страницы, на которой найдено изображение и заголовок этой страницы (тэг TITLE). Еще одним параметром является поясняющий текст для рисунка. В случае наличия элемента ALT в тэге IMG, поясняющий текст может послужить хорошим материалом для поиска.
Таким образом, индексации должны подлежать следующие параметры:
1) Название файла изображения;
2) Тип изображения (тип файла);
3) Имя изображения;
4) Адрес к изображению– URL;
5) Размер изображения (высота и ширина);
6) Имя
страницы, на которой найдено изображение и заголовок этой страницы (тэг TITLE);
7) Поясняющий
текст под изображением – ALT.
Наибольший интерес представляет поиск по какому-то слову или понятию . В данном случае в поиске можно задействовать следующие параметры: имя изображения , имя страницы , заголовок страницы и пояснение к изображению .
Пусть найдено изображений. Необходимо просчитать , где - функция, которая определяет положение результата поиска. Чем больше , тем выше должен находиться результат поиска.
Здесь , , и - весовые коэффициенты, которые определяют значимость нахождения понятия в каждом из параметров , , и . Установка соответствующих коэффициентов способствует повышению релевантности результатов запросов. - наиболее релевантный результат запроса. - наименее релевантный результат запроса. - результат не соответствует запросу, т.е. изображение по запросу не найдено.
Варьируя коэффициенты , , и можно добиться лучших или худших результатов поиска. В случае, когда только один коэффициент не равен нулю, поиск производится только по этому коэффициенту. Например, в случае , , и , поиск производится только по имени файла изображения.
7 Релевантность и критерий выдачи документов в основных
моделях поиска.
Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу. Если по запросу пользователя получено N документов, представляющих собой объединение двух множеств документов: соответствующих запросу (пусть их количество — Nt) и не соответствующих (их количество — N2), т.е. N=Ni+Nz, тогда релевантность, как степень соответствия, определяется по формуле P=(Nl/N) х 100%, а шум — по формуле S= (Л'2/Л0 х 100% = 100% - Р. Если же обозначить количество соответствующих запросу документов в исходном массиве как R, то отношение (Лу/?) х 100% будет определять полноту поиска.
Проиллюстрируем эти понятия. Допустим, исходный массив содержит 100 документов, из которых 50 соответствуют запросу. Если в результате поиска будет выдан всего один документ, который при этом будет соответствовать запросу, релевантность выдачи будет равна 100%, шум — 0, а полнота — всего 2%. В другом, крайнем, случае, если будут выданы все 100 документов, релевантность результатов поиска составит 50%, шум — 50%, а полнота — все 100%. Подобные рассуждения позволяют констатировать следующее: чем выше в системе релевантность, тем ниже полнота, и, соответственно, чем ниже релевантность, тем полнота выше.
Это определение характерно для формальной релевантности, однако на практике используется другое, неформальное понятие — пертинентность [23]. Для пользователя пертинентность, как соотношение объема полезной для него информации к общему объему полученной информации, имеет решающее значение (рис. 2.2). При этом следует учитывать, что формальный запрос к системе является предметом творческого осмысления информационной потребности и не всегда точно отражает последнюю. Неумение большинством пользователей правильно формулировать запросы и получать приемлемые объемы отклика породило в конце XX века мнение об Internet как об огромной информационной свалке.
Сведения об информационных ресурсах России содержатся в следующих изданиях.
1.Каталог "Базы данных России". Выпускается научно-техническим Центром "Ин-формрегистр" Комитета при Президенте Российской Федерации по политике информатиза-ции. Каталог переиздается ежегодно.
2.Электронный справочник "Базы данных России" Поставляет НТЦ Информрегистр.
3.Каталог информационных ресурсов России. Выпускается ежеквартально МБИТ (Международным бюро информации и телекоммуникаций.
4.Базы данных по информационным ресурсам. Выпускается МП "Данные -
информация - знания".
Помимо перечисленных баз данных и каталогов существует еще значительное число различных организаций, предлагающих пользователю информацию об информационных ресурсах России.
РТЦ "Информрегистр" проводит испьггания и сертификацию баз данных.
Объединением "Росинформресурс" при Правительстве Российской Федерации вы-пускается ежемесячный журнал "Информационные ресурсы".
Спрос на информацию определяет развитие в первую очередь информационных сис-тем в области биржевой и финансовой информации.
информационные агентства.
На российском рынке в настоящее время успешно функционируют отечественные и зарубежные информационные агентства.
6.1.1 Агентство экономической информации ПРАЙМ-ТАСС
Группа компаний РБК
Информационное агентство Reuter
Информационно-издательский концерн Dow Jones and Co Ins