Обзор подготовлен

версия для печати
BI-инструменты нужны гражданам Информационного общества

BI-инструменты нужны гражданам "Информационного общества"

Применение современных инструментов публикации и совершенствование методик и технологий работы с государственной статистикой и данными мониторингов позволит гражданам получать и понимать информацию, которая поможет им лучше ориентироваться в политической жизни страны, текущей экономической ситуации. Государство при этом выполнит важную функцию – информирования своих граждан.

Зачем нужна статистика массам

Не вызывает сомнения, что информация, статистическая и мониторинговая, нужна руководству страны или корпорации для осознанного принятия решений. Более новой является мысль, что такая информация нужна также и обычному гражданину.

Каждый гражданин является субъектом политических процессов, потому что является избирателем. Некоторые граждане имеют активную позицию и участвуют в партийной или общественной деятельности. Другие – журналистами и нуждаются в материалах для своих статей.

Каждый гражданин является субъектом экономики. Некоторые, потому что предпринимают – создают и управляют собственными предприятиями, личным бизнесом, выращивают овощи на продажу. Другие – потому что нанимаются на работу в то или иное предприятие, меняют место жительства по экономическим причинам, получают пенсию, размер которой также непостоянен.

Человеку полезна статистика даже на бытовом уровне, как потребителю, чтобы знать что и сколько стоит, куда вкладывать сбережения, куда ехать в отпуск. Важной частью культуры является статистическая эрудиция – знание того, сколько людей живет в той или иной стране, какова динамика численности населения, какие процессы происходят в экономике страны и мира, как менялась позиция страны по социально-экономическим показателям в исторической перспективе.

Таким образом, гражданам тоже нужна информация в цифрах. Из осознания этой потребности возникла относительно новая концепция госуправления – граждане имеют право на получение всей статистики, которую на их деньги собирает государство.

Государство, предоставляя гражданам информацию, делает их более самостоятельными и успешными, помогает предприятиям, предпринимателям, фермерам делать правильные инвестиции, продавать товары там, где они нужны.

Информационное общество – во многом про это.

Выбор инструмента

Но возникает вопрос – как предоставлять эту информацию гражданам в XXI веке? Традиционно публиковались статистические сборники в виде книг, которые можно было получить в библиотеке. Очевидно, что это уже слишком архаично. Доступность бумажных сборников для массовой аудитории близка к нулю, пользоваться ими неудобно, данные в них не могут быть достаточно актуальными.

Очевидно, что нужно публиковать данные в электронном виде, в интернете. И здесь может применяться много разных подходов. При этом следует принимать во внимание особенность массовой аудитории. Пользователь-профессионал отличается от пользователя-гражданина. Гражданин может не иметь высшего образования, навыков анализа данных, ему нельзя провести семинар, или дать прочитать документацию, кроме того он может ничего не знать о предмете. Он не будет изучать особенности реализации системы, возможно он зайдет на сайт всего лишь один раз.

Можно публиковать данные в фотографическом виде, например, в формате pdf или в виде статического html. Недостатки статических публикаций очевидны.

Во-первых,  информационный шум, избыточность – трудно найти именно ту цифру, которая интересует человека. Нужна фильтрация. Поскольку мы не знаем точно, что именно может интересовать пользователя, то фильтрация нужна не по выбранным нами параметрам, а по всем имеющимся атрибутам данных.

Во-вторых, неочевидность. Очень трудно понять голые цифры, если вы не может их сравнить с другими цифрами. Цифры вообще слишком абстракты для большинства из нас. Поэтому лучше воспринимаются в виде визуальных образов – графиков, диаграмм, карт.

В-третьих, предустановленные группировки. Когда данных много, их невозможно опубликовать на  детальном  уровне, а значит, они сначала обобщаются, агрегируются. Но существует почти бесконечное количество способов агрегации. Например, численность населения можно просуммировать по административному делению. А можно по полу. Или по возрастным группам. И это только первый уровень. А что если пользователь нужны данные по уровню образования, а авторы публикации этого не предусмотрели? Эта информация будет недоступной, даже если она существует в исходных данных.

Таким образом, публиковать данные для широких кругов пользователей нужно в интерактивном интерфейсе, обладающим богатыми средствами визуализации, но настолько простом, чтобы с точки зрения пользователя он бы оставался обычным сайтом, работа с которым не требовала бы ни минуты обучения.

Казалось бы выбор инструмента очевиден – Business Intelligence (BI). Под BI понимаются инструменты, включающие в себя OLAP (online analytical processing), т.е. инструменты многомерного анализа, которые как раз и обеспечивают возможность фильтрации по всем имеющимся атрибутам, произвольного изменения группировок, порядка следования групп с автоматическим посчетом итогов в режиме реального времени. BI, кроме того, дает возможность отображать данные в виде образов.  

Структура данных

Здесь возникает поистине драматическая ситуация. Дело в том, что данные не нейтральны по отношению к инструменту. Казалось бы, что структура данных определяется предметной областью, смыслом. Но это не совсем так. Традиции бумажных публикаций повлияли на способ сбора данных и способ их структурирования. В бумажной публикации можно выделить главные цифры и отбросить ненужные. Например, так:

Танки всего 25 000
В том числе:
Тяжелые 1 000
Средние 15 000

В такой публикации сумма детальных данных меньше итоговой суммы. Потеряны легкие танки, а также, возможно, какие-то еще. Опубликованы агрегаты двух уровней – по типам танков и по танкам всего. Для бумажной публикации это не существенно. Для BI – фатально. Поскольку мы теряем возможность произвольной агрегации по любым, выбранным пользователям измерениям. Правильная структура данных для обеспечения возможности OLAP-операций должна быть такой:

Тяжелые 1 000
Средние 15 000
Прочие  9 000

Система сама сосчитает итог и покажет это так:

Тяжелые 1 000
Средние 15 000
Прочие  9 000
Итого 25 000

Если пользователь установит фильтр, то он сможет получить произвольные итоги – средние и тяжелые, тяжелые и прочие, средние и прочие. Все возможные варианты.

Если же мы загрузим данные из нашего примера в куб в исходном виде, то получим:

Танки всего 25 000
Тяжелые 1 000
Средние 15 000
Итого 41 000

Это ошибка, 41 тысячи танков не было. Она возникает от того, что в данных смешаны детали и агрегаты. Причем, детальные данные есть не все, а только часть, что усугубляет ошибку.

Как правило, данные, собираемые государственными органами, выглядят именно так. В них смешаны заранее сосчитанные агрегаты и более детальные уровни. Детальные данные представлены не все. Вычислять автоматически итого невозможно. А значит нельзя отфильтровать и получить итог по выборке, нельзя изменить группировку и получить итоги по новым группам. Потому что промежуточные и окончательные итоги всегда будут некорректны. Нельзя автоматически строить графики. Например, в линейном графике будет группа Всего, которая будет больше остальных на порядок. Она же сделает бессмысленным диаграмму вида Пирог. И система не сможет отбросить итоги, потому что в структуре данных нет информации об уровнях агрегации, вы не можете отличить итоги от детальных данных без ручного разбора.

У этой проблемы есть два вида причин. Объективные и субъективные. Объективные причины следующие. Поскольку РФ – федеративная страна, то за разные уровни агрегации по территориальному признаку отвечают разные уровни государственного управления. Например, официально утвердить численность населения страны должен президент, а численность населения региона – руководитель субъекта федерации. Отсюда возникают официальные агрегаты, которые публикуются в неизменном виде. Причем, в итогах и детальных данных могут быть расхождения, которые объясняются миграцией.

Другая причина – технология проведения опросов и обследований. Невозможно сосчитать каждую курицу в стране. Поэтому проводятся выборочные обследования, при которых некоторые детали игнорируются. А некоторые итоги считаются статистическими методами.

Иногда пробелы в данных объясняются невозможностью их получения, например, на одной из территорий шла война. Это объективные причины плохой структуры данных.

Субъективные причины таковы – инструмент, программное обеспечение влияют на человека, а через него и на данные. Если данные готовить для бумажных публикаций, то можно заранее решить, что их произвольно отсортируют и сгруппируют, дадут сноски с объяснениями пробелов. Если данные агрегировать в  электронной таблице, то можно допустить любой хаос – смешать уровни разной детальности, разные алгоритмы агрегации в одной таблице, пропустить элементы. Ведь в электронной таблице для каждой клетки можно задать свой алгоритм. Эксельное мышление наносит огромный ущерб качеству данных, как в бизнесе, так и в государственном управлении.

Что же делать? С одной стороны – совершенствовать инструмент. Он должен уметь показывать пропуски в данных, смешивать итоги, т.е поддерживать алгоритм «в том числе». Без этого невозможно публиковать те данные, которые мы имеем. С другой стороны – все таки менять подходы к сбору, хранению и расчетам агрегатов исходя из того, что прогресс в информационных технологиях диктует изменение правил. Агрегаты нужно считать в инструменте публикации, интерактивно, давая пользователю возможность управлять этим фильтруя данные и двигая колонки, чтобы изменить группировки.

Расчетные величины

Очень большой проблемой являются расчетные величины. Если собирать и хранить вычисленные данные, то часто их просто невозможно анализировать. Например, если мы собираем не объем производства зерна по месяцам, а его рост в процентах нарастающим итогом по сравнению с аналогичным периодом предыдущего года, то уже не построить графика, не узнать об абсолютных объемах производства, не сгруппировать по регионам и периодам времени. Это мертвые цифры. Мало того, что мы мучаем отчитывающуюся сторону, которая обязана иметь длинный архив для сдачи регулярной отчетности, мы еще и лишаем пользователей возможности работать с полученной информацией.

А ведь сосчитать любые регулярные проценты «на лету» в современных BI-инструментах проще простого, так же, как и нарастающий итог. 

Классификация

Огромной проблемой для публикации данных является их правильная классификация. Под классификатором в бумажную эпоху понимался на самом деле кодификатор. Каждому товару, например, нужно было присвоить уникальный код, а также каждому классу товаров. Затем все это поместить в официальную таблицу, так, чтобы учет велся с применением этих кодов. Аналитическая обработка данных не предусматривалась вовсе. В компьютерную эпоху назначение классификаторов изменилось. Теперь это не только источник уникальных кодов для учета, а также одно из правил автоматической агрегации.

Собирать можно только данные, которые находятся нижних уровнях классификатора, в «листьях», а данные верхних уровней – «ветвей» собирать не обязательно. Их можно считать, причем мгновенно, прямо во время отображения и выполнения пользователем итераций по фильтрации и группировкам.

Однако для этого классификатор должен удовлетворять некоторым требованиям. Его элементы должны быть уникальны. Один и тот же лист не может расти сразу не нескольких ветвях. Желательно, чтобы классификатор был сбалансирован, т.е. количество дочерних ветвей на всех уровнях было бы одинаковым.

Другая проблема классификации – в ее глобальности. В связи с тем, что официальные общероссийские классификаторы устарели по своей структуре, и в связи с тем, что уровень их детальности и актуальности не всегда соответствует требованиям ведомств, ими практически никто не пользуется. Каждое ведомство создается собственные, ведомственные классификаторы. Поэтому невозможно автоматически интегрировать данные, собранные разными ведомствами.

Таким образом, инструмент публикации должен уметь строить мэппинг – соответствие между элементами разных классификаторов. Даже если такая возможность есть, нужно понимать, что придется решать сложнейшие методологические проблемы.

Метаданные

Публикуя данные для населения, нужно принимать во внимание, что не каждый человек может их понять. Например, все слышали о ВВП, но мало кто знает, как он считается, в чем его экономический смысл. Публикуя данные, нужно также публиковать и метаданные – данные о данных. А именно – словарь терминов и определений, в котором пользователь сможет прочитать о примененных терминах, экономические описания показателей, расшифровывающие алгоритм сбора, расчета показателя. Ссылки на популярные статьи, объясняющие те или иные аспекты публикуемой информации. Метаданные должны быть доступны по месту, чтобы их не требовалось долго искать.

Визуализация

Огромная непонятная таблица может быть отображена в виде одного графика, который сделает смысл сложного явления очевидным даже домохозяйке.

Например, таблица с ценами на сотни видов товаров за десять лет с дискретность месяц по всем регионам страны будет иметь 120 с лишним колонок и тысячи строк. Мало у кого хватит воображения понять по этой таблице как менялись цены. Никто не сможет сравнить цены в разных регионах. Их этой таблицы можно построить множество графиков, которые сделают данные кристально ясными любому человеку.

Линейный график (кривые) покажет изменение во времени. Фильтруя данные по товарам, регионам пользователь увидит динамику цен, сможет сравнить динамику по одному товару в разных регионах. Столбчатая диаграмма отлично покажет разницу в ценах в выбранный период времени по заданному товару в разных регионах. Цветовая градиентная заливка на карте сделает это еще более наглядным и ясным.

Карта может заменить десятки листов голых цифр, если на ней объединить слои с пространственными данными – административное деление, реки, дороги, населенные пункты, леса, со статистическими данными. Причем статистические данные должны отображаться на карте динамически, чтобы дать пользователю возможность интерактивной работы. Фильтруя категории данных он будет получать разные картинки.

Статистику на карте можно отображать десятками способов – градиентной заливкой регионов, точечным распределением, графиками на регионах и населенных пунктах, величиной и цветом точек, символизирующих города, картинками (например, огнями пожаров).

Графики и карты могут предоставлять возможность выполнения OLAP-операций – drill down (углубление в данные) и drill through (проваливание в другой, связанный отчет). Подводя мышку к элементу карты и графика, кликая по нему, пользователь может получать дополнительную информацию.

Чистые данные

Есть категория граждан, а также общественных, научных организаций, которые не нуждаются в заранее подготовленных отчетах, даже и интерактивных. Им нужны данные. Они анализируют эти данные в собственных системах, применяя оригинальные авторские методики, интегрируя официальные данные и собственные данные, информацию из разных источников.

Таким пользователям нужна система, позволяющая выполнять произвольные запросы, причем в автоматическом режиме, эпизодически или регулярно, по однажды настроенному сценарию.

Это совершенно другая задача. Для ее радикального решения требуется создание центрального хранилища данных страны, содержащего всю публикуемую статистику, предоставляющего удобный и понятный программный интерфейс для получения данных, подписки на извещения об изменении данных, возможность получать не только данные, но и метаданные – классификаторы, поясняющие атрибуты, например, содержащие однозначное, интерпретируемое описание алгоритмов агрегации.

Владимир Некрасов

Toolbar | КПК-версия | Подписка на новости  | RSS