Оглавление
1. Введение. Цель и задачи дисциплины. 1
3. Классификация мировых информационных ресурсов по секторам информации. 1
4. Индексация информационных ресурсов. Модели поиска информации. 2
5. Функциональная архитектура системы управления информационными ресурсами 2
6. Принципы управления информационными ресурсами 3
8. Критические факторы успеха. Ключевые индикаторы цели 3
9. Закономерности, присущие информационным системам. Правило Парето. 4
10. Закономерности, присущие информационным системам. Закон Зипфа. 4
11. Закономерности, присущие информационным системам. Закономерность Брэдфорда. 5
12. Закономерности, присущие информационным системам. Прогноз Мура и информационная сфера. 5
13. Скрытый web. Проблемы скрытого web. 6
16. Методы прогнозирования. Наивные методы. 7
17. Методы прогнозирования. Экспертные методы. 9
18. Фракталы в информационном пространстве. 9
19. Проблемы и феномены Интернет и информационных ресурсов. 9
20. Системы автоматического ответа на вопросы. 10
21. Методы латентно-семантического анализа. 10
23. Портал управления знаниями. 12
Информационные ресурсы это отдельные документы, массивы документов, которые входят в состав информационных систем.
Документ это материальный объект с зафиксированной на нем информацией, предназначенный для передачи во времени и пространстве в целях хранения и общественного использования.
Информация это сведения, независимо от формы их представления, усваиваемые субъектом в форме знаний.
Данные - это сведения, полученные пут¨м измерения, наблюдения, логических или арифметических операций представленные в форме, пригодной для хранения, передачи и обработки. ( Пример данных автомат, собирающий космические измерения, записывающий на носитель и эти данные в последствии будут использованы уч¨ными.)
Сведения - это набор сигналов физических процессов воспринимаемых субъектом через органы его чувств. (Субъектом может быть человек или машина, которая предназначена для восприятия сигналов).
Cведения, полученные пут¨м измерения, наблюдения, логических или арифметических операций, представленные в форме, пригодной для хранения, передачи и обработки, называются данными.
Данные различаются по:
1)Формату данных характеристика данных, способствующая оптимальному их использованию и определяющая структуру и способ их хранения, диапазон возможных значений и допустимые операции, которые можно выполнять над этими данными.
(Графический документ, электронный формат и т.д.)
2)Структуре данных это организационная схема, в соответствии с которой данные
упорядочены с тем, чтобы их можно было максимально эффективно интерпретировать
или выполнять над ними различные операции.
Информация это сведения, независимо от формы их представления, усваиваемые субъектом в форме знаний.
Документ это материальный объект с зафиксированной на нем информацией, пред
назначенный для передачи во времени и пространстве в целях хранения и общественного использования, содержащий реквизит.
Реквизит документа обязательные характеристики, которые должен содержать документ для его однозначной идентификации.
Документ в электронной форме это документ, представленный в форме набора состояний элементов вычислительной техники или иных средств обработки, хранения, передачи информации, допускающий преобразования в форму, пригодную для однозначного восприятия человека.
Информационный продукт это документированная информация, подготовленная в соответствии с потребностями пользователей и представленная в форме товара.
Основные особенности информационного продукта, отличающие информацию от других товаров:
Информационная система это организационно упорядоченная совокупность документов (информационных продуктов) и информационной инфраструктуры. (Примеры информационных систем - библиотеки, архивы, фильмотеки, базы данных, Internet.)
Информационные ресурсы это отдельные документы, массивы документов, которые входят в состав информационных систем.
В интернет-поисковых машинах наиболее популярна плоская "векторная" модель. Запрос в ней состоит из нескольких слов через пробел. Из этих слов составляется правило отбора документов. Когда количество ресурсов в сети было еще невелико, некоторые машины могли работать по заданным словам с логическим оператором ИЛИ, что, безусловно, вело к значительному расширению понятия релевантности результатов. На сегодня большинство машин работает по принципу наличия в документе всех слов запроса. Причем некоторые накладывают еще более строгие ограничения, требуя по умолчанию, чтобы все слова стояли рядом, например, в одном предложении. Но все равно, на такие запросы выпадает, как правило, огромное количество документов, поэтому вся содержательная алгоритмическая нагрузка ложится на функцию ранжирования. 99% пользователей никогда не просматривают больше двух страниц результатов поиска, поэтому чрезвычайно важно, какие документы ИПС поставит на первые позиции. В большинстве алгоритмов ранжирования в том или ином виде используется "векторный" подход, учитывающий частотность терминов запроса в документе. Однако, лучшие поисковые системы комбинируют векторный подход с другими принципами ранжирования, основанными не только на содержании документа, но и на метаинформации о нем (популярность сайта и пр.).
При поиске по интернету на сегодня практически нет альтернативы плоской поисковой модели. Это связано с тем, что большинство пользователей никогда не будут утруждать себя составлением сложных запросов. Именно поэтому авторы лучших машин ставят перед собой цель удовлетворения массового вкуса неквалифицированного клиента, пытаясь угадать по короткому запросу, что пользователь имел в виду, и что может ему подойти, зачастую в ущерб полноте поиска. В простом поиске по сети полнота выдачи не всегда важна - запрос может подразумевать лишь первичную, ознакомительную информацию, либо точечный ответ. А если количество "мусора" окажется слишком велико, пользователь может не добраться до действительно релевантного документа. Более того, в таких системах зачастую даже отсутствует публичное описание критериев отбора документа, пользователю полагается нечто, что должно удовлетворить массовый спрос в 90% случаев.
Для обеспечения поисковых возможностей профессиональному пользователю служит так называемая "логическая" или "булева" модель поиска. Она позволяет составлять запросы с логическими операторами, вложенной скобочной структурой, ограничениями контекста и т.д. Пользователь в терминах упоминания слов и их расположения в тексте четко описывает системе то, какие документы ему подходят, а какие нет. При этом он ожидает от системы прямого выполнения открыто объявленных правил работы ИПС.
Системы управления информационными ресурсами имеют четыре уровня функциональных возможностей. Каждый уровень решает множество задач, определенных так, чтобы обеспечить подготовку данных (сбор, обработка, представление), необходимых для управления элементами, составляющими существо уровня.
Рисунок 1 - четыре уровня функциональных возможностей системы управления:
Управляемые объекты. Объектами управления являются устройства, системы и/или "что-нибудь еще", что может требовать некоторой формы контроля и управления. Примеры управляемых объектов включают маршрутизаторы, концентраторы, серверы и приложения, подобные СУБД Oracle, Lotus Notes или электронной почте. Важно понимать, что управляемый объект не тождественен фрагменту программных или аппаратных средств, а должен быть описан как некоторая функция, реализуемая информационной средой.
Агент управления. Для того, чтобы как-то взаимодействовать с объектом, необходим некоторый посредник. Маршрутизатор или приложение обычно не имеет "тумблеров". Однако имеется множество разных параметров, которые задают режим функционирования. Роль посредника между объектом и системой управления играет специальный компонент, называемый агентом. Его назначение переводить команды системы управления на язык, понятный управляемому объекту, и наоборот.
Диспетчер управления. Агенты управления порождают некоторую информацию о состоянии управляемых объектов. Диспетчер (менеджер) управления собирает, обрабатывает фактическую информацию от отдельных управляемых элементов, при необходимости производя специальные виды обработок (корреляцию событий и т.п.) и определенным образом сохраняет ее для последующего использования.
Интерфейс пользователя. Простейшее использование собранной информации это ее отображение и предоставление инструментария для работы администратора с ней (интерфейс пользователя). Задача этого интерфейса обеспечить доступ к накопленной актуальной информации (сигналы тревоги реального времени, важные события, графики состояния системы и ее элементов, анализ тенденций, отчеты и т.д) сотрудникам ИТ-отдела с целью поддержки согласованного, коллективного представления о происходящем в системе. Если этого не сделать, то реальная цель создания (распределенной в общем случае) системы управления будет потеряна. Собранные данные не означают что-либо, до тех пор, пока не будут использованы для принятия обоснованных решений относительно работы информационной системы.
Эти четыре компонента информационной системы образуют то, что можно назвать областями управления, то, на чем система управления должна сосредоточить "свое внимание"
Швейцарский ученый Вильфредо Парето (Vilfredo Federico Damaso Pareto) в свое время предпринял попытку математически обосновать взаимозависимость различных экономических и социальных факторов, к которым сегодня можно было бы отнести и Internet.
К основным трудам В. Парето принято относить двухтомный "Курс политической экономии" (1897), "Учение политической экономии" (1906) и "Трактат по общей социологии" (1916).
Анализируя общественные процессы, он рассматривал социальную среду как пирамиду, наверху которой находятся немногие люди, составляющие элиту. В результате кропотливых исследований ученый сформулировал математическую зависимость между величиной дохода и количеством получающих его лиц. В 1906 году Парето установил, что 80% земли в Италии принадлежит лишь 20% ее жителей.
В результате обобщения обширного статистического материала Парето пришел к выводу, что параметры этого полученного им распределения примерно одинаковы и не различаются принципиально в разных странах и в разное время. "Кривая распределения доходов отличается замечательной устойчивостью, она меняется незначительно, хотя обстоятельства времени и места сильно преображаются", писал Парето в "Социалистических системах". Распределение доходов по Парето описывается уравнением N = A/XP+1, где X величина дохода, N численность людей с доходом, равным или выше X, А и р коэффициенты уравнения. В математической статистике это распределение получило имя распределения Парето, при этом имеют место естественные ограничения на коэффициенты: Х> 1, р > 0.
Распределение Парето обладает свойством устойчивости (stable distribution), т.е. сумма двух случайных переменных, имеющих распределение Парето, также будет иметь это распределение.
Ученый показал, что замеченное им правило применимо и в многих других областях, и сформулировал правило, называемое "Законом Парето", или "Принципом 80/20". На практике полезна такая трактовка правила Парето: первые 20% усилий дают первые 80% желаемого результата. Необходимо только найти требуемые ресурсы и реализовать их. Например, при информационном поиске достаточно определить 20% необходимых ключевых слов, что позволит найти 80% требуемых документов, а затем расширить поиск или воспользоваться опцией "найти похожие" для полного решения задачи. Эта важная закономерность сегодня формулируется по-разному:
80% функциональности приходится на 20% модулей;
80% работы выполняет 20% людей;
80% посещений Web-сайта приходится лишь на 20% его Web-страниц;
80% пива выпивает 20% людей.
Применительно к современной экономике приведенный выше закон Парето сегодня трактуется так: "20% потребителей покупают 80% товаров определенной марки, представляя обобщенную группу целевых потребителей данного товара". Поэтому компании при продвижении своих продуктов и услуг на рынок проводят маркетинговые мероприятия, ориентируясь именно на эти 20% клиентов ("стрельба по целям"), а не на весь рынок в целом ("стрельба по площадям"), поскольку такая стратегия рыночной деятельности более эффективна.
В науке уже давно известны закономерности, свойственные всем текстам, с учетом которых (явным или неявным образом) были построены многие современные информационно-поисковые системы, а также системы автоматической классификации и глубинного анализа текстов (Text Mining).
В 1949 году профессор филологии из Гарварда Джордж Зипф (George К. Zipf) собрал достаточный статистический материал и экспериментально показал, что распределение слов естественного языка подчиняется закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех используемых в нем слов, а затем проранжировать эти слова расположить их в порядке убывания частоты вхождения в данном тексте и пронумеровать в возрастающем порядке, то для любого слова произведение его порядкового номера в этом списке (ранга) и частоты его вхождения в тексте будет величиной постоянной. Эта закономерность называется первым законом Зипфа.
Частным случаем законов Зипфа и Вейбулла также является закономерность Брэдфорда, связанная с распределением не слов в текстах, а статей, документов или Web-сатраниц, соответственно, в рамках тематических каталогов, баз данных или Web-сайтов.
Основной смысл закономерности С. Брэдфорда (химика, который в свое время исследовал количество публикаций в научных журналах) заключается в следующем: если научные журналы расположить в порядке убывания числа помещенных в них статей по конкретному предмету, то полученный список можно разбить на три зоны таким образом, чтобы количество статей в каждой зоне по заданному предмету было одинаковым. Эти три зоны составляли:
профильные журналы, непосредственно посвященные рассматриваемой тематике (ядро);
журналы, частично посвященные заданной области;
журналы, тематика которых весьма далека от рассматриваемого предмета.
С. Брэдфорд установил, что, по сравнению со второй зоной, количество журналов в третьей зоне будет примерно во столько раз больше, во сколько раз число наименований во второй зоне больше, чем в ядре. Иными словами,
РЗ /Р2 =Р2/Р1 =N,
где Р1 число журналов в 1-й зоне, Р2 во 2-й, РЗ в 3-й зоне. Однако из приведенной формулировки не совсем ясно, как определяется число журналов, образующих ядро, а также чему равна величина N. На эти вопросы и позволяет ответить анализ свойств ранговых распределений (например, Зипфа или Вейбулла).
Очевидно, что закономерность Брэдфорда (как и закон Зипфа) можно использовать и при построении словарей ключевых слов по некоторой тематике.
В 1965 году один Из учредителей компании Intel Гордон Мур предсказал, что плотность транзисторов в интегральных схемах и, соответственно, производительность микропроцессоров будут удваиваться каждый год. В течение трех последних десятилетий этот прогноз, названный "законом Мура", более или менее выполнялся, хотя достаточно быстро был скорректирован удвоение должно происходить каждые два года. В соответствии с известным законом Мура, к 2010 году "железо" самого современного компьютера превзойдет по своим возможностям человеческий разум, а затем, в самом ближайшем будущем, это станет по силам и программному обеспечению.
Еще недавно было принято считать, что закон Мура относится исключительно к микросхемам. При этом предполагалось, что в сфере коммуникаций и Internet закон Мура не действует, так как эти области часто построены на использовании более старых технологий, не способных масштабироваться на таком же уровне, как и современные вычислительные технологии. Несмотря на небольшой спад на рынке высоких технологий, который длится уже около трех лет, развитие коммуникационного оборудования, широкого спектра устройств, таких как оптические, сенсорные, механические и даже биологические, все-таки подтвердило, что прогноз Мура распространяется на все большее количество областей.
Сегодняшнее расширение Internet, стремительный рост объемов пересылаемых данных, развитие электронной коммерции и беспроводной связи, а также внедрение цифровых технологий в бытовую технику можно рассматривать как следствие все того же закона Мура.
Было замечено, что рост документальной информации, вполне подчиняются закону Мура, т.е. средства автоматизации обработки и сетевые технологии способствуют многократному дублированию информации, т.е. эффекту автоматического порождения новых документов на основании существующих.
В 2003 году в мире было заархивировано свыше 5 млрд гигабайт новой информации, а электронным путем передано примерно 18 млрд гигабайт информации. На одного человека в среднем за год пришлось примерно 800 Мбайт новых данных.
Чаще всего пользователь находит на необходимые ему новые источники в Сети через информационно-поисковые системы, такие как Google, Yahoo! или "Яндекс", которые для многих стали "де-факто" стандартными. Однако кроме видимой для поисковых систем части вэб-пространства существует огромное количество страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам в принципе возможен (хотя иногда "слегка прикрыт" паролями). Как правило, эти вэб- страницы доступны в Интернет, однако выйти на них трудно, а порой невозможно, если не знать точного адреса. Эти ресурсы уже десять лет как имеют собственное название - "скрытый" (deep) вэб, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им источники, недоступные для обычных поисковых систем. Сегодня такие ресурсы называют также невидимым (invisible) вэб. Они чаще всего охватывают динамически формируемые вэб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей.
В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в вэб-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические вэб-станицы, формируемые из баз данных, и запустив ее получила неожиданные данные. Выяснилось, что для традиционных поисковых систем огромная часть Сети попросту невидима. Топология паутины - "галстук-бабочка".
В ноябре 1999, Андрей Бредер (Andrei Broder) и его соавторы из компаний AltaVista, IBM и Compaq совершили прорыв, математически описав "карту" реасурсов и гиперсвязей вэба. Исследования опровергли расхожее мнение, будто Интернет - это единое густое пространство. Проследив с помощью поискового механизма AltaVista свыше 200 млн. вэб-страниц и несколько млрд. ссылок, размещенных на этих страницах, ученые пришли к следующим выводам о структуре вэб-пространства, котороая соответствует, по их мнению, ориентированному графу с топологией "галстука-бабочки" (Bow Tie), в котором вершины соответствуют страницам, а ребра - соединяющим страницы гиперссылкам. В рамках этой модели задача анализа структуры связей между отдельными вэб-страницами было обнаружено наличие:
- центральное ядро (28% вэб-страниц) - компоненты сильной связности (SCC) или узел галстука, составляют вэб-страницы, взаимосвязанные так тесно, что,следуя гиперссылкам, из любой из них в конечном счете можно попасть на любую другую.
- 22% вэб-страниц - это "отправные вэб-страницы" (IN). Они содержат гиперссылки, которые в конечном счете ведут к ядру, но из ядра к ним попасть нельзя.
- столько же - 22% - "оконечных вэб-страниц" (OUT), к которым можно прийти по ссылкам из ядра, но нельзя вернуться назад.
- 22% вэб-страниц - отростки - полностью изолированы от центрального ядра: это либо "мысы", связанные гиперссылками со страницами любой другой категории, либо "перешейки", соединяющие две вэб-страницы, не входящие в ядро.
Четыре основных множества - более 90% исследуемых вэб-страниц, топологически относящихся к одной компоненте связности - обусловили название модели - "галстук- бабочка" (Bow tie).
Сегодня весьма актуальной является задача мониторинга ресурсов Internet, которая тесно связана с достаточно популярным в последние десятилетия контент-анализом.
Контент-мониторинг это содержательный анализ информационных потоков с целью получения необходимых качественных и количественных срезов, который производится постоянно,
Впервые этот метод был применен в 1910 году социологом Максом Вебером (Max Weber), чтобы проанализировать охват прессой политических акций в Германии.
В 30-40-е Герольд Ласвелли годы использовал подобную методику для изучения содержимого пропагандистских сообщений военного времени.
Начиная с 60-х годов, с появлением средств автоматизации и текстов в электронном виде, получил начальное развитие контент-анализ информации больших объемов баз данных и интерактивных медиа-
средств.
В Контент-анализе используют различные методы отбора данных к которым относят:
В контент-анализе применяются такие математические методы, как:
дисперсионный анализ для выявления влияния отдельных, независимых факторов на наблюдаемый признак;
кластерный анализ для классификации объектов и описывающих их признаков;
причинный анализ для моделирования причинных отношений между признаками с помощью систем статистических уравнений;
регрессионный анализ для исследования регрессионной зависимости между зависимыми и независимыми признаками;
корреляционный анализ для выявления зависимости между числовыми случайными величинами, одна из которых зависит и от ряда других случайных факторов.
В простейшем виде идею контент-мониторинга можно сформулировать как постоянное выполнение узко очерченного своими задачами контент-анализа беспрерывных информационных потоков. Подчеркнем, что именно беспрерывное воспроизведение во времени процесса обработки входных данных есть самой характерной особенностью контент-мониторинга. Собственно контент-анализ выступает здесь как составная, а контент-мониторинг имеет собственную проблематику и собственные пути решения прикладных задач.
Отличительная особенность такой работы состоит, прежде всего, в обслуживании узкого круга потребителей со специфической сферой задач, которые требуют оперативного решения. Это, в свою очередь, требует четкой постановки информационно-аналитических задач и тесного контакта между заказчиками и службами поиска и анализа информации.
Для решения поставленных задач нужно в полном объеме предусмотреть набор параметров и их количественные характеристики, обнаружить причинно-следственные связи между ними и включить методологические принципы исследования в описание функционирования технических систем. Сама подготовка информационно-аналитических материалов состоит из ряда последовательных процедур, начиная от упорядочения списка первоисточников для просмотра, разработки методик отбора и классификации материалов, их автоматической обработки и заканчивая анализом занесенной в базы данных (БД) информации и формированием результатов мониторинга прессы.
У автоматизированной технологии контент-мониторинга существует несколько важных особенностей:
Процедура контент-анализа публикаций направлена на выделение из текста фрагментов, которые отвечают наименьшему, но целостному модулю информации в границах исследуемой проблемы.
Планирование и проведение многих мероприятий на современных предприятиях требует наличия прогнозов качественного и количественного характера, касающихся эволюции рыночной конъюнктуры. Проблема прогнозирования последнее время приобретает все более сложный характер, так как среда деятельности фирм становится турбулентной и неопределенной. Задачи прогнозирования не являются прерогативой какого-то конкретного подразделения на фирме. По большому счету все подразделения должны заниматься прогнозированием параметров своей будущей деятельности, но особенно это касается маркетинговых служб, так как львиная доля всех прогнозов деятельности фирмы сводится к определению спроса (потребления) и факторов, влияющих на его состояние. Правильность прогноза и возможность его применения во многом зависят от наличия информации у лиц, принимающих решение. В свою очередь, вид информации предопределяет возможность использования метода, который будет использоваться для осуществления прогноза.
Методы прогнозирования можно классифицировать по двум измерениям: степень субъективизма и степень формализации структуры анализа. Отсюда появляются два полярных класса методов субъективные и объективные, а также наивные и причинно-следственные методы. Типология этих методов приведена на рисунке:
Наивные методы
Наивные методы это нижняя ступень группы экспертных методов и они характеризуются двумя основными деталями: высокая скорость прогноза и абсолютная зависимость результата от личности прогнозиста. Соответственно, применяются такие методы, когда нет времени на сбор информации или когда к ней нет доступа. Очевидно, что риски таких прогнозов весьма высокие и оценить вероятность ошибки зачастую просто невозможно (вероятность правильности прогноза 50 50).
Ниже перечислены основные методы представители данной группы.
1). Интуитивный прогноз. Прогноз, который производит аналитик или лица, принимающие решения на основе собственного опыта и интуиции.
2). Метод интроспекции. Аналитик ставит себя на место субъекта, чье поведение прогнозируется, и пытается представить, как будет вести себя данный субъект. При использовании метода имеется опасность приписывания собственных взглядов субъекту, на самом деле имеющему другую точку зрения.
3). Различные виды аналогий. Историческая аналогия или прогноз на основании анализа подобных событий, происходящих в другом историческом периоде. Географическая (пространственная) аналогия или прогноз на основании анализа подобных событий, происходящих в другом географическом регионе. Рыночная, товарная и другие виды аналогий. Прогнозирование с использованием данных пробного маркетинга (пробного рынка). Прогноз на основании анализа событий, происходивших с подобным товаром (анализ ЖЦТ и его отдельных стадий) и т.д.
4). Исследование намерений. Изучение намерений субъектов, чье поведение прогнозируется (методом неструктурированного опроса, анализа публикаций и т.п.). Могут изучаться намерения потребителей, операторов рынка и т.д. При изучении намерений потребителей более достоверен прогноз на основании намерений потребителей-организаций, поскольку они действуют в соответствии с рационально обоснованным планом.
5). Исследование мнений. Изучение мнений субъектов, сведущих в том или ином вопросе, связанном с объектом прогнозирования, но не способных проанализировать весь круг проблем. Могут изучаться мнения менеджеров, сбытовых агентов, работников торгово-посреднических организаций и т.п.
Экспертные методы предполагают изучение мнений экспертов, имеющих обширные опыт и знания об объекте прогнозирования. Причем экспертами могут выступать личности, имеющие опыт в любой области.
Ценность полученных экспертных оценок зависит от квалификации эксперта и может быть неодинакова, поэтому иногда применяют взвешивание мнений экспертов. Таким образом, при подведении итога исследования и разработки прогноза у исследователя есть выбор, каким образом сформировать прогноз, особенно если его представляет группа экспертов.
Считается, что вероятность правильных оценок тем выше, чем меньше разброс мнений (что может быть определено путем вычисления среднеквадратичного отклонения). Однако нередки ситуации, когда эксперты, дающие более достоверные прогнозные оценки, оказываются в меньшинстве. Также вероятность правильных оценок косвенно определяется исходя из устойчивости мнений экспертов. Если оценки экспертов резко меняются от одного тура к другому, то вероятность ошибки прогноза велика. Окончательная оценка прогноза выводится как:
средняя арифметическая простая или взвешенная
медиана
правило «диктатора», когда один человек будет выражать мнение всей группы;
демократический подход, когда эксперты должны прийти к общему мнению самостоятельно, за один или несколько туров (метод Дельфи).
К основным экспертным методам можно отнести:
1). Индивидуальный экспертный анализ. Эксперт производит анализ на основе собственного опыта, знаний и интуиции. Эксперт в ходе анализа может использовать те или иные методы маркетингового анализа, как неформальные, так и формальные.
2). Мозговой штурм. Метод реализуется группой аналитиков в два этапа. Первый этап носит название «конференции идей». Конференция идей занимает обычно 1-1,5 часа. Специалисты выдвигают различные идеи, касающиеся трактовки анализируемой ситуации. Идеи протоколируются, но не обсуждаются, не критикуются. После перерыва, на втором этапе идеи обсуждаются, оцениваются и выбираются те из них, которые признаются наиболее верными.
3). Метод группового обсуждения. Путь составления прогнозов это попросить экспертов предсказать поведение других в данных ситуациях. Точность прогнозов экспертов может быть проверена применением структурированных методов, таких как процедура Дельфи. Метод Дельфи это итеративная процедура исследования, в которой эксперты рассматривают прогнозирование как проблему, получают анонимный ответ по прогнозам, сделанный другими экспертами, и потом делают другие прогнозы. Главный принцип прогнозы экспертов должны быть совершенно независимыми друг от друга.
Термин фрактал (от латинского слова fractus дробный), был предложен
Бенуа Мандельбротом в 1975 году для обозначения нерегулярных самоподобных
математических структур. Популярная сегодня фрактальная геометрия получила свое
название лишь в 1977 году благодаря его книге «The Fractal Geometry of Nature». В
работах ученого использованы научные результаты многих ученых, работавших в этой
же области (прежде всего, Пуанкаре, Кантора, Хаусдорфа). Основное определение
фрактала, данное Мандельбротом, звучало так: "Фракталом называется структура,
состоящая из частей, которые в каком-то смысле подобны целому".
В настоящее время информационное пространство в целом, ввиду его объемов и
динамики изменения, принято рассматривать как стохастическое. Во многих моделях
информационного пространства изучаются структурные связи между тематическими
множествами, входящими в это пространство. При этом численные характеристики этих
множеств подчиняются гиперболическому закону (с возможными степенными
поправками). Сегодня в моделировании информационного пространства все чаще
используется фрактальный подход, базирующийся на свойстве самоподобия
информационного пространства, т.е. сохранение внутренней структуры множеств при
изменениях их размеров или масштабов их рассмотрения извне.
Самоподобие информационного пространства выражается, прежде всего в том, что
при его лавинообразном росте в последние десятилетия, частотные и ранговые
распределения, получаемые в таких разрезах, как источники, авторы, тематика
практически не меняют своей формы. Поэтому применение теории фракталов при анализе
информационного пространства позволяет с общей позиции взглянуть на закономерности,
составляющие основы информатики. Например, тематические информационные массивы
сегодня представляют развивающиеся самоподобные структуры, которые по своей сути
являются стохастическими фракталами, так как их самоподобие справедливо на лишь
уровне математических ожиданий, например, распределения кластеров по размерам.
В информационном пространстве возникают, формируются, растут и
размножаются кластеры группы взаимосвязанных документов. Системы, основанные на
кластерном анализе, самостоятельно выявляют новые признаки объектов и распределяют
объекты по новым группам.
Не так давно в Интернет появился сервис Touchgraph (www.touchgraph.com),
который наглядно демонстрирует появление кластерных образований, сформированных
подобием информационных объектов, в частности, Web-сайтов (Touchgraph Google
Browser). Ниже представлен пример такой визуализации:
Объединение Web-сайтов по признаку подобия
Чем же определяется природа фрактальной структуры информационного
пространства, порождаемым такими кластерными структурами? С одной стороны,
параметрами ранговых распределений, а, с другой стороны, механизмом развития
информационных кластеров, который отражает природу информационного пространства.
Появление новых публикаций увеличивает размерность уже существующих кластеров и
является причиной образования новых.
Фрактальные свойства характерны для кластеров информационных Web-сайтов, на
которых публикуются документы, соответствующие определенным тематикам. Эти
кластеры, как наборы тематических документов, представляют собой фрактальные
структуры, обладающие рядом уникальных свойств. теме.
С появлением и развитием сети интернет и ее ИР в корне изменились тенденции и темпы роста инф. пространства. С достаточной очевидностью стали провялятся многие явления не известные ранее которые стали называться феноменами современных информационных ресурсов.
Системы автоматических ответов на вопросы пользователей, задаваемых на естественном языке, задумывались еще на заре кибернетики. Некоторые практические наработки в этой Области были получены в эпоху расцвета идеологии экспертных систем (80-90-е годы XX века). В последние годы в связи с развитием технологии Text Mining о таких системах говорят все чаще, прежде всего в связи с возможностью их практической реализации. Нередко в качестве базы знаний в этих системах предполагается использовать ресурсы Internet, обработанные современными средствами глубинного анализа текстов.
В настоящее время разработана уже первая версия системы, получившая название "Ask MSR", которая способна не только проводить поиск в Сети, но и извлекать из найденных Web-страниц полезную информацию, текст с фактами, которые используются для ответа на вопрос пользователя. При этом ответ системы представляет собой одно слово или предложение. В настоящее время система Ask MSR является всего лишь моделью, однако уже имеются планы по выводу ее на рынок под названием AnswerBot.
Латентно-семантический анализ, или индексирование, (LSA/LSI) это теория и метод извлечения "скрытых" контекстно-зависимых значений термов и структуры семантических взаимосвязей между ними путем статистической обработки больших наборов текстовых данных. Этот метод широко используется в области поиска и в задачах классификации информации.
Данный подход позволяет автоматически распознавать смысловые оттенки слов в зависимости от контекстов их использования. Он использует выявленные показатели тематической близости термов (см. выше), которые затем применяются для вычисления оценок тематической близости документов.
Метод LSA широко применяется в факторном анализе. Задачей факторного анализа является выделение главных факторов из пространства элементарных.
Матричный латентно-семантический анализ
Математический аппарат данного метода базируется на сингулярном разложении матриц. Метод позволяет выявить скрытые семантические связи при обработке больших массивов документов.
Элементы этой матрицы содержат значения частоты использования отдельных термов в документах.
Анализ гипертекстовых ссылок
В Internet помощь в определении авторитетности источника может оказать анализ топологии ссылок между документами. Для этого были разработаны 2 алгоритма ранжирования Web-страниц:
PageRank
HITS
PageRank подсчитывает общий авторитет документа, а HTTPS определяет авторитет документа.
Оба алгоритма предназначены для решения "проблемы избыточности", а также для добавления точности результатам поиска.
1. Основными задачами конкурентной разведки, которые ставятся перед информационными подразделениями бизнес-корпораций, как правило, являются:
1) Сбор и своевременное обеспечение надежной и всесторонней информацией руководства и бизнес-подразделений о «внешней» и «внутренней» среде предприятия.
2) Выявление факторов риска, угроз, которые могут затронуть экономические интересы бизнеса или помешать его нормальному функционированию.
3) Выявление новых возможностей и других факторов, влияющих на получение конкурентных преимуществ.
4) Выработка прогнозов и рекомендаций влияния конкурентной среды на деятельность бизнес-структуры.
5) Усиление благоприятных и локализация неблагоприятных факторов конкурентной среды на деятельность бизнес-структуры.
2. Информация характеризуются качественными, количественными и ценностными показателями. К качественным характеристикам обычно относят: достоверность (чистоту), объективность и однозначность информации. К количественным характеристикам [2] ее полноту (отсутствие невыясненных пробелов) и релевантность (степень соответствия существу поставленных вопросов и задач). Ценностными характеристиками являются стоимость и актуальность информации. Процесс превращения сырых данных в знания и доведение их до конечных потребителей принято называть разведывательным циклом. В своем классическом понимании разведцикл принято делить на пять основных этапов:
1) Целеуказание, планирование, определение источников информации;
2) Сбор, добыча данных;
3) Обработка разведданных превращение их в разведывательную информацию;
4) Анализ и синтез развединформации превращение ее в знания выводы, рекомендации, решения;
5) Доведение информации до конечных потребителей.
3. У конкурентной разведки в последние десятилетия появилось и развилось до невиданных ранее масштабов новый информационный источник Web-пространство сети Интернет. Сегодня по оценкам экспертов Интернет по количеству информации находится на первом месте, опережая СМИ, отраслевые издания и получаемые от коллег новости, специальные обзоры, закрытые базы данных [3]. При этом в открытых источниках и специализированных базах данных, доступных в Интернет, содержится большая часть информации, необходимой для проведения конкурентной разведки.
4. Назовем некоторые проблемы и задачи, которые ставятся перед конкурентной разведки в Web. Наиболее существенной проблемой является то, что колоссальные объемы информации в Интернет затрудняют поиск и выбор действительно нужных сведений.
Второй проблемой является то, что информация в Интернет имеет явно выраженный динамичный характер: информация на сайтах размещается, модифицируется и удаляется во времени. Частичное решение этих проблем возможно при применении систем контент-мониторинга информационных потоков в Интернет. Использование при сборе информации в Интернет системы контент-мониторинга в среднем увеличивает число найденных релевантных документов в 20 раз.
Еще одной проблемой является поиск информации в «скрытом» Web-пространстве, где, как было замечено выше, содержится несравнимо большее количество данных, потенциально интересных для конкурентной разведки, чем в открытой части всемирной Сети. Американский журнал Business 2.0 опубликовал список из семи технологий, которые должны "изменить мир" в ближайшем будущем. Среди них WiFi-мобильники, WiMax, Ajax, и поиск в невидимой сети в «скрытом» веб. В связи с этим интересно заметить, что две последние технологии крайне полезны для нужд конкурентной разведки.
5. Не вся потенциально открытая "несекретная" информация является хорошо доступной, скорее наоборот. Извлечение необходимой в каждом конкретном случае информации является сложной задачей. По мнению экспертов, только порядка 10-15% нужной информации имеется в Интернете в готовом виде, остальные 85-90% можно получить в результате сравнения, интеграции и анализа многочисленных разрозненных в данных.
6. Традиционно конкурентная разведка опирается на такие источники информации,: как опубликованные документы открытого доступа, которые содержат обзоры товарного рынка, информацию о новых технологиях, создании партнерств, слияниях и приобретениях, объявлениях о рабочих вакансиях, о выставках и конференциях, и т.п. Поэтому в последнее время все более популярны базы данных на основе архивов СМИ, в том числе и сетевых. В России, например, большой популярностью пользуются крупнейшие архивная базы данных СМИ "ИНТЕГРУМ", «МЕДИАЛОГИЯ»,. В Украине эту нишу занимает система контент-мониторинга Интернет СМИ InfoStream®, содержащая свыше 50 миллионов документов.
К разряду "скрытого" веб, например, относится и крупнейшая в мире полнотекстовая онлайновая информационная система LEXIS-NEXIS, которая содержит более 2 миллиардов документов с глубоким архивом до 30 лет по бизнес-информации и более 200 лет по юридической информации. Каждую неделю в архивы добавляется еще 14 млн. документов. В отличие от неструктурированных массивов "поверхностного" Web, пользователи Lexis-Nexis могут использовать мощные инструменты поиска для получения достоверной и классифицированной информации.
7. Общей проблемой при обращении за информационными справками в западные агентства, имеющие представительства на территории СНГ, является то, что, как правило, информация, предоставляемая в отношении западных нерезидентов, намного обширнее и качественнее, чем информация предоставляемая в отношении отечественных фирм. В связи с чем в таких случаях целесообразно обращаться к «родным» информационным компаниям дешевле и качественнее.
Актуальность конкурентной разведки в последнее время значительно возросла. Это связано с такими процессами, как глобализация экономики, а следовательно и конкуренции, виртуализация экономики, развитие информационных технологий.
Широкому внедрению систем компьютерной конкурентной разведки способствуют и законодательные акты. Создаются и развиваются программы и системы, позволяющие выполнять углубленный поиск и анализ данных. В Internet пример - T2 Business Analysis Console. Она позволяет изучить конкуретное окружение и спрогнозировать развитие ситуации на базе информации интернет.
Сегодня задачи КР стимулируют развитие систем управления знаниями, глубинного анализа данных и текстов. С другой стороны, наиболее развитые из этих систем в явном виде содержат аналитические блоки, специально ориентированные на задачи конкурентной разведки. Поэтому у пользователей имеется широкий выбор средств автоматизации аналитической деятельности, причем уровни функциональности таких систем могут быть очень разнообразными.
Примеры таких систем:
Hummingbird Enterprise(Канада).
Documentum(США) предназначенная для управления неструктурированной информацией, хранящейся в виде файлов различных форматов.