Clarabridge Document Analytics — инновационный инструмент для ситуационного анализа национальных проектов

Содержание:
Все дело в открытых источниках
Вчера, сегодня, завтра
Что нужно для счастья?
Что делать?
Несколько слов об эффективности

Все дело — в открытых источниках

Специфика национальных проектов состоит в том, что в силу их социального характера, они получают широкое освещение в открытых источниках. В СМИ и Интернет содержится информация, которой в полном объеме нет ни в одном внутреннем документе, поэтому анализ данных из открытых источников дает каком-то смысле уникальные результаты.

Основная проблема для полноценного анализа в том, что нужная информация распределена по различным СМИ и Интернет-ресурсам и находится в неструктурированном виде (то есть в виде обычного текста, а не в базе данных).  Проблему обработки больших объемов неструктурированной (текстовой) информации — а ведь в России более 2 тыс. СМИ — сложно эффективно решить вручную, даже если нанять несколько десятков аналитиков. Человеческий фактор вносит в анализ большую долю необъективности. Кроме того, ручная обработка не отвечает современным требованиям оперативности. Поэтому возникает необходимость в автоматизации анализа.

Второй аспект — необходимость сопоставления с внутренней информацией, то есть интеграции внешний и внутренних источников. В идеале аналитику необходима единая аналитическая система, где содержатся данные из структурированных и неструктурированных источников как из внутренних, так и из внешних документов.

Вопрос анализа внутренних документов частично решен: разработаны необходимые формы отчетности, определены требования к системе, ведущие интеграторы осуществляют локальные разработки и внедрения. Поэтому степень определенности задач по работе с внутренней информацией достаточно высока, регулярно поступает отчетность — и таким образом информация уже структурирована на уровне ввода.

Что касается открытых источников, проблема анализа неструктурированной информации в СМИ и Интернете остается открытой. Объективно, эта информация неструктурированна по определению. И структурировать ее — задача, носящая характер вызова.

Вчера, сегодня, завтра

Вчера анализ неструктурированной информации из СМИ и Интернет проводился преимущественно вручную. «Руками» извлекали информацию из документов, структурировали («забивали» в базу данных). И только после этого к уже структурированным данным можно было применить средства автоматические или полуавтоматические средства анализа. Как правило, последние базировались на MS Office — инструментах Excel, Access, Word. Типичная картина: сидит несколько человек, анализирует несколько десятков СМИ. Процесс не носил характера интенсивной обработки данных. Выполнялся только специфический анализ, для которого можно было использовать средства MS Office.

Сегодня процесс анализа неструктурированной информации начинает в корне меняться. Во-первых, количество СМИ увеличилось в десятки раз и продолжает увеличиваться. На данный момент в России порядка 2 тыс. изданий, включая региональные. А это уже совсем другие объемы работ. Во-вторых, на рынке устоялись инструменты BI и Data Mining, позволяющие проводить 5 популярных  типов анализа, таких, как многомерный анализ, анализ временных рядов, выборочный анализ, анализ рынка, непоследовательный анализ. Теперь обработку данных удобнее проводить с помощью этих инструментов. Однако BI и Data Mining работают только с базами данных, а не с текстами, поэтому задача структуризации остается открытой.

Ситуация с извлечением информации улучшилась ненамного. Конечно, стало меньше ручной обработки данных за счет появления инструментов, позволяющих структурировать и извлекать сущности (персоны, организации), — поисковых систем. Несмотря на это эффективность работы в целом остается достаточно низкой, так как до сих пор нужно вручную находить связи между сущностями, проводить анализ зависимостей, извлекать факты и события.

Объективно технологии по извлечению (или «добыче») информации все больше тяготеют к тому, чтобы связать источники документов с инструментами анализа BI и Data Mining. Конечному пользователю нужны результаты, нас основе которых можно принимать решения, руководство к действию. В частности, это может быть реализовано и визуализировано в виде отчетов BI и Data Mining. Стали реальностью технологии, которые напрямую поставляют данные из источников к инструментам анализа.

Хороший пример — Clarabridge Document Analytics (www.clarabridge.ru), которая учитывает необходимость подключения  к разным источникам, дает возможность извлекать и анализировать информацию, загружать эти данные в аналитические инструменты, позволяя решать различные задачи. По сути дела Clarabridge Document Analytics закрывает нишу, занимаемую сейчас заказными разработками, которые делаются «на коленке» и являются слишком прихотливыми (в одном учреждении работают, в другом нет), или просто ручной обработкой данных. Это коробочный продукт, который работает в любых условиях в любых организациях и может быть настроен таким образом, как это удобно пользователя.

Именно такие продукты будут «делать погоду» завтра. На рынке будут широко представлены аналогичные четко сфокусированные коробочные разработки серверной компоновки. Они позволят работать с неограниченным числом источников неструктурированных данных, будут гибко настраиваться под различного рода задачи и автоматизировать весь цикл от поиска информации и добычи данных до анализа и визуализации.

Что нужно для счастья?

Как может выглядеть типовое решение для задачи анализа хода нацпроектов на основе информации из СМИ и Интернет?

    Как правило, пользователи предъявляют к решению такие требования:
  • иметь возможность подключаться к источникам как неструктурированной информации, так и структурированных данных;
  • оперативно и максимально объективно обрабатывать большие объемы информации;
  • представлять результаты анализа в удобном виде.

Первая задача частично решена. С точки зрения интеграции неструктурированных источников она может быть частично закрыта корпоративными поисковыми системами (corporate search). «Поисковик» может проиндексировать документы и централизовать доступ к ним. В данном случае корпоративная поисковая система — точка входа для всех источников. Пользователь всегда может получить указание, где находится тот или иной материал.

Вторую задачу — добычи информации — можно решить при помощи инструментов извлечения данных (information extraction). Это системы классификации и рубрикации, инструменты дополнительной обработки данных, позволяющие единообразно представлять форматы дат, денег, адресов и т.п. Так называемые «экстракторы» могут использоваться отдельно или входить в состав платформенного решения, как, например, в  случае Clarabridge Document Analytics, которая «по умолчанию» содержит встроенные инструменты извлечения информации. Данный вариант предпочтителен для крупных государственных предприятий и учреждений.

Что касается инструмента анализа (третья задача), такие средства, как BI и DataMining позволяют не только применять стандартные средства анализа, но и интегрировать информацию из структурированных и неструктурированных источников.

Трехкомпонентное решение: средство поиска — средство добычи информации — средство анализа, — является оптимальной технологической связкой для решения таких комплексных задач, как анализ хода нацпроектов (мониторинг нацпроектов).

Что дает связка анализа и извлечения? Очень глубокий анализ, когда аналитик может идти до факта, до структуры факта, видеть, что стоит за тенденцией, понимать и анализировать причины. Такая система дает ответ на вопрос аналитика «Почему?». Например, почему идет рост митингов протеста? Система автоматически анализирует всю доступную информацию и может показать, что, например, принятое губернатором решение противоречит конституции или лоббируются конкретные интересы. Хотя в явном виде этих фактов в источниках нет, система способна сопоставлять разрозненные данные и «проявлять» скрытые факты. С большим процентом вероятности можно определить, является ли публикация заказной, существует ли связь конкретного факта с регионом или событием.

Что делать?

Сценарий использования системы, построенной по логике такой технологической связки, выглядит следующим образом. Первый шаг - определение объектов мониторинга. Это могут быть нацпроекты, их задачи, регионы, социальные группы, крупные производства, организации, коммерческие структуры, персоны, которые могут влиять на ход интересующих событий, и т.д. Выбранные объекты вводятся в систему в виде справочников и классификаторов (рубрикаторов, которые определяют категорию объектов и производят их сортировку). Например, можно осуществить сортировку по регионам.

Затем система настраивается на источники данных. Как правило, для этого достаточно «поставить» поисковую систему, которая уже подключена к нужным источникам.

Третий шаг — система по добыче информации настраивается на тип интересующих фактов и событий. Как правило, создаются специальные шаблоны, которые позволяют распознавать желаемые факты в тексте. После этого запускается процесс мониторинга.  Регулярное обновление информации в системе происходит автоматически. Результатом цикла обновления является структурированная, актуальная информация в базе данных, готовая к анализу такими средствами, как BI и Data Mining. Так как объекты мониторинга в базе связаны с регионами, друг с другом, со временем, то не составляет труда проанализировать тенденции в разрезе по регионам, событиям и другим классификаторам, которые существуют в системе.

В итоге получается готовое решение для оперативного анализа хода национальных проектов. По существу система позволяет эффективно проводить ситуационный анализ, широко распространенный в мире. Этот тип анализа практически идеально подходит для мониторинга нацпроектов. При этом используемые технологии являются достаточно зрелыми и удобными для того, чтобы сразу начинать работу.

Несколько слов об эффективности

Эффективность такого рода решения обеспечивается следующими свойствами Clarabridge Document Analytics.

  • Возможность извлечения фактов из различных источников позволяет осуществлять одновременную обработку фактов из всех доступных источников (внешние и внутренние, структурированные и неструктурированные, в том числе, при необходимости печатные документы в отсканированном виде) и помещать их в единое хранилище.
  • Автоматизация рутинных операций поиска/извлечения на больших объемах данных. Интеллектуальная обработка информации осуществляется в автономном режиме. Это очень удобно при работе с открытыми источникам, когда количество обрабатываемых документов может достигать десятков и сотен тысяч.
  • Высокая скорость и точность полученной информации с индикацией источника. Возможность запуска по таймеру обеспечивает регулярное и оперативное обновление информации. Кроме того, можно диагностировать причину проявившихся тенденций в режиме оn-line.
  • Информативное и наглядное представление результатов анализа. Система анализирует полученную информацию и представляет результаты в наглядном виде. Существует возможность доступа к системе отчетности Online из любой точки, где есть доступ в Интернет, или получения отчетов в файлах форматов Word и Excel.
  • Гибкая настройка системы. Существует возможность самостоятельно менять настройки: объекты и параметры поиска, регулярность мониторинга, количество анализируемых источников, формы визуального представления полученных результатов и т.д.

Clarabridge Document Analytics — это флагманский инструмент для полноценного ситуационного анализа, который был разработан 2 года назад. При этом ведется постоянная работа по расширению его  функциональности и улучшению производительности. Система работает на русском языке, она надежна, многофункциональна и удобна в использовании. Возможно, со временем на рынке будут появляться инструменты-аналоги, однако на сегодняшний день система уникальна для российского рынка.

Clarabridge Document Analytics — это инновационная технологическая платформа, позволяющая полностью автоматизировать процесс сбора и анализа данных из неструктурированных источников информации (Интернет, архивы, СМИ, электронная почта), это эффективное средство для анализа и систем поддержки принятия решений, позволяющее в сжатые сроки внедрить «под ключ» все необходимые технологии с учетом интеграции с существующими системами и базами данных.

Особенность системы Clarabridge Document Analytics — фокусировка на единой аналитической среде для конечного пользователя.

Структура  Clarabridge Document Analytics

Структура  Clarabridge Document Analytics

Как работает система на базе Clarabridge Document Analytics?

Система хорошо зарекомендовала себя для решения задач, связанных с ситуационным анализом. Например, с ее помощью можно проводить количественный анализ активности социальных групп по отношению к тому или иному событию, а также частотный анализ для выявления новых соцгрупп.

Мониторинг активности социальных групп по количественным показателям

Мониторинг активности социальных групп по количественным показателям

Система позволяет проводить сравнительный анализ показателей  в крупных муниципальных объединениях (КМО) и по России, сопоставляя данные из структурированных и неструктурированных источников.

Сравнительный анализ уровней рождаемости и смертности по КМО и России

Сравнительный анализ уровней рождаемости и смертности по КМО и России

Результатом использования технологической связки: поиск — извлечение — анализ,  представленной в системе Clarabridge Document Analytics, является автоматизация всего процесса работы с неструктурированной информацией, серьезная экономия на человеческом ресурсе, смена характера работы аналитика (от «выкапывания» фактов до их проверки и анализа). Существенно увеличивается скорость обработки информации. Для сравнения:  если взять за ориентир 1 статью размером 150-300 Кб текста, аналитик способен обработать 200 статей в день, эксперт-аналитик — 400, технологии извлечения — примерно 20 тысяч статей для однопроцессорной конфигурации машины.

Уже сегодня в СМИ и Интернет различного рода информации о ходе приоритетных национальных проектов более чем достаточно. Поэтому можно смело утверждать, что использование инновационных технологических инструментов для анализа является адекватным и своевременным. Но, в любом случае, решать Вам.

Вернуться на главную страницу обзора

Версия для печати

Опубликовано в 2006 г.

Toolbar | КПК-версия | Подписка на новости  | RSS