ОДД 2018: Видеозапись выступления Андрея Заводчикова "Анонимизация данных как способ получения информации ограниченного доступа"

08 августа 2018
В марте этого года проводился "День открытых данных", в рамках которого проектом КГИ "Госзатраты" была соорганизована секция "Государственные данные". В течение двух дней состоялись 14 выступлений от представителей госорганов, НКО и коммерческих компаний, рассказавших о создании и использовании открытых государственных данных.
Андрей Заводчиков из Аналитического центра "Форум" в своей презентации ответил на один из самых главных вопросов, возникающих у представителей госорганов: "Как преобразовать информацию ограниченного доступа так, чтобы ей можно было поделиться с разработчиками?".
Вопрос уровня детализации данных всегда являлся наиболее острым как для разработчиков, так и для госорганов. Можно предоставить данные в агрегированном виде до уровня субъекта России или даже до страны (такой уровень детализации есть, например, в сборниках Росстата), а можно предоставлять информацию о каждой реестровой записи (такой уровень детализации часто встречается в федеральных информационных системах Федерального казначейства и Минфина России). В каждом из способов есть свои плюсы и минусы. В агрегированном виде госорган точно случайно не раскроет ни персональные данные, ни какую-либо другую информацию ограниченного доступа, но и данные не будут интересны для разработчиков. Публикация всех реестровых записей или данных, детализированных до уровня организации или района города, открывает большие возможности для создания разнообразных приложений и аналитических исследований, но, с другой стороны, может позволять идентифицировать людей. Самый частый пример - наличие выборки из одного объекта. С таким случаем столкнулся в конце прошлого года РБК, когда смог идентифицировать зарплаты министров из данных, опубликованных Минфином России.
Избежать данную проблему можно использованием методов анонимизации (или деперсонализации), о которой и рассказал Андрей Заводчиков. Из презентации можно узнать, с какими рисками может столкнуться госорган, какие есть технические методы преобразования данных, позволяющие избегать этих рисков, а также об известных кейсах. Подробности в видеозаписи выступления: