В чём проблема?

Буквально с каждым днём объём данных растёт, причём темпы роста также увеличиваются. Сбор данных стал проще благодаря росту вычислительных мощностей, повсеместному распространению интернета и мобильных устройств. Теперь вопросы визуализации и структуризации стоят более остро, чем, собственно, создание и поиск информации.

Если поставщик данных не постарается представить эти самые данные так, чтобы это было понятно пользователю, чтобы он мог это запросто анализировать, то его работа бесполезна и даже вредна. Информационный мусор значительно снижает продуктивность работы. Поэтому очень важно, чтобы специальные категории данных были представлены адекватно. К таковым, безусловно, относятся геоданные, то есть данные, которые по своей сути будут адекватно восприняты только на карте, так как содержат геопривязку, без которой их информативность существенно снижается.

Геопривязка – это координаты того или иного объекта в пространстве. X и Y, строго определяющие положение точки на земной поверхности. Но большинство данных, на сегодняшний момент, имеет геопривязку лишь косвенно. Например, есть адрес дома или другие указания на местоположение, но координат нет. Это составляет большую проблему для использования таких данных. Чтобы геоинформационная система восприняла всё верно, данные должны содержать в себе информацию о координатах. Такие геоданные обычно сохраняют в наиболее удобном для этого формате .geojson (.geojson — тот же .json, только несущий географическую информацию о координатах).

Проблема в том, что на данный момент подавляющее большинство открытых данных, если и содержит информацию о геопривязке, то эта информация не представлена в правильной координатной форме. Программе непонятно, где эти данные, и возникают сложности при их автоматической обработке для последующих анализа и визуализации. Скорее всего, такие «бездомные» данные придётся привязать вручную, что очень трудоёмко.

Кому все это нужно?

На данный момент самые крупные пользователи и хранители открытых данных — это государственные структуры — Росстат, ФНС, Роснедра, Ростуризм, Министерство культуры и так далее. Самая разная отчетность может быть представлена на карте, но так как изначально нет «чистого» массива данных, такой тип визуализации зачастую отвергается, что мешает продуктивному анализу для профессионального сообщества, а также создаёт сложности для предоставления открытой информации в понятном виде для всех граждан.

Различные коммерческие организации также используют в своей деятельности геоданные. Однако, из-за того, что непосредственно геоданными является лишь малая часть всех данных, возникают различные проблемы. Например, АСР «Центр», проводивший исследование по развитию промышленных территорий в Москве, столкнулся с проблемой плохо геокодируеммых объектов. Результатом автоматической обработки массивов данных, содержащих «бездомные» данные, стало появление на создаваемой карте около 200 ошибочно позиционированных в пространстве объектов.

В рамках Всероссийского конкурса открытых данных открытого правительства РФ представители команд не раз отмечали проблему с данными, имеющими исключительно пространственный характер, в основном речь шла об административных границах населенных пунктов.

Почему это важно?

Для понимания причин и перспектив создания подобного алгоритма стоит глобально взглянуть на современный мир. Не секрет, что мы живем в эпоху данных. Данные – это почти что новая нефть. Но, в отличие от нефти, этот ресурс неисчерпаем и, в большинстве случаев, восполняем, а прикладных применений ему невероятное количество. Посмотрите на свой смартфон – сейчас это уже не просто средство связи, а наше отражение в цифровом мире, хранящее в себе информацию о нас, нашей внешности, наших предпочтениях и хобби, наших интересах, финансах, друзьях, образовании. И о нашем местонахождении тоже. С того момента, как персональные компьютеры и интернет стали массово распространяться, прошло не так много времени, однако наше общество уже трансформировалось в «сетевое». Мир сжался до некоего «киберпространства», где узлы сети (например, смартфоны) связаны между собой потоками данных.

Но является ли это новое пространство чем-то совершенно не связанным с тем миром, который мы всегда знали? Или это некая надстройка? Мы не берёмся предсказывать будущее, а лишь отметим, что сейчас цифровой мир всё же привязан к физическому. Ответ на вопрос «где?» часто даёт нам ответ ещё и на вопрос «почему?». И поэтому, для того, чтобы геоинформационная аналитика стала доступна всем без исключения, необходимо изначально создавать чистые, структурированные и стандартизированные массивы данных, а также приводить к такому виду уже существующие данные.

Что же делать?

Сейчас основная масса открытых данных представлена в формате CSV, который не содержит координаты. Необходимо такие файлы конвертировать в .geoJson. Естественно, сначала данные должны быть подготовлены специалистом, чтобы алгоритм правильно всё обработал. И после того, как программа поменяет формат, специалист должен проверить полученные данные на корректность. В будущем, мы надеемся, возможно создание ресурса, на котором будет представлен автоматический конвертер данных из .csv to .geoJson.

Как технически это осуществить?

Задачу приведения геоданных к общей и однообразной структуре должны решать специализированные сервисы (web-портал, приложение, desktop-программа), основной задачей которых будет помощь в выявлении дефектов массивов геоданных, независимо от того, в каком виде те будут представлены (json, табличный файл, текстовый файл). Главное, чтобы они имели свои определенные правила записи (однотипные разделители, переносы строк и т.д.), которые можно будет указать в системе.

Результат система вернет в формате .geojson и занесет эти данные в свой банк данных. Таким образом, будет формироваться единая и открытая для всех база геоданных, где к каждой записи будет приложена дополнительная информация о том, что представляют из себя эти данные, дату их создания/редактирования, комментарии пользователей, а также любая прочая информация, которая может оказаться полезной при использовании конкретных данных.

Функционирование системы будет осуществляться за счет ее пользователей, как это организовано у OSM или Wikipedia. Безусловно, будет возникать ряд проблем связанных с корректностью информации (в чем часто обвиняют Wiki), которые, впрочем, решаются при помощи системы модерации.

В итоге коммьюнити и специализированные государственные/муниципальные службы будут самостоятельно формировать банк геоданных, получая взаимную выгоду, решая проблему хранения, сокращая время поиска и скорость обработки геоданных.

Что дальше?

Уже сейчас люди пришли к пониманию того, что данные – это новый ресурс. Однако, зачастую, даже те, кто работают с открытыми данными, не осознают ценность системного подхода к работе с ними. Если воспринимать открытые данные как ресурс будущего, то можно с уверенностью сказать, что рациональный подход к созданию и обработке геоданных позволит гораздо точнее прогнозировать будущее и управлять рисками в настоящем.

Авторы статьи: Андреев Вячеслав, Донин Павел, Сенникова Анна, Коротков Иван