Новости

Как сделать данные понятнее?
ЦПУР и Росстат совместно выступили в ходе Дня открытых данных 2021

By 06.03.2021 1 апреля, 2021 No Comments

5 и 6 марта ЦПУР и Росстат провели совместные секции, касающиеся  предстоящей Всероссийской переписи населения и работы с официальной статистикой.

На мастер-классе по работе с данными официальной статистики 5 марта заместитель руководителя Росстата Григорий Остапенко рассказал о планах ведомства по внедрению Цифровой аналитической платформы (ЦАП), Анна Богомолова, представитель университетской информационной системы «Россия», поделилась опытом работы со статистическими данными за 20 лет, а дата-аналитик ЦПУР Юлия Хабибуллина поведала о том, как проходил сбор показателей по демографии России за 30 лет в формате panel data. 

Дата-сет можно скачать на сайте Росстата и на платформе «Инфраструктура научно-исследовательских данных». 

 

В ходе доклада также был представлен открытый репозиторий ЦПУР на Github, где находится подробное описание дата-сета и его возможностей для исследователей.

Мы опубликовали на нашем Github код, который позволяет быстро визуализировать временные ряды по показателям и их разрезам. С его помощью можно, во-первых, знакомиться с данными и искать инсайты в динамике изменения показателей, а во-вторых, проверять качество данных на предмет выбросов. На Github расположен код для еще одного инструмента работы с данными Росстата – граф сайта ведомства. Он был собран специалистами ЦПУР и актуален на конец сентября 2020 года. Граф опубликован на платформе ИНИД в виде реляционной базы данных, а код для работы с ним также представлен в публичном репозитории. Среди возможных вариантов использования графа: сохранение файлов из узлов сайта Росстата без необходимости посещать сайт; поиск данных через парсинг названий таблиц на веб-страницах сайта.

Юлия Хабибуллинадата-аналитик ЦПУР

Дискуссия «Данные переписи населения 2021: приватность vs польза для общества» прошла в субботу 6 марта. Спикеры обсудили, как обеспечить безопасность данных, которые государство будет собирать в ходе предстоящей Всероссийской переписи населения. 

 

Главным вопросом для обсуждения стала дилемма «приватность или польза для общества». С одной стороны, государство должно сохранить анонимность участников переписи, предоставивших чувствительные данные. С другой – эта информация представляет огромный интерес для академического сообщества, потому что она помогает больше узнать о российском социуме, причем интересны не только агрегированные показатели, но и более детальная информация.

 

Руководитель проектного направления «Данные для исследований» ЦПУР Витовт Копыток рассказал о международном опыте публикации данных национальных переписей населения. В ходе выступления он отметил необходимость поиска баланса между защитой анонимности и детализацией данных:

По нашему опыту работы с микроданными органов государственной власти мы видим, что не только адрес проживания, но и комбинации других атрибутов, которые сами по себе не являются персональными данными, могут использоваться как косвенные идентификаторы человека. Часто достаточно всего 3-4 атрибутов, чтобы комбинация их значений была уникальной. Есть риск, что чем ближе к публикации микроданных переписи, тем острее будет вставать вопрос о том, для каких атрибутов снизить детализацию, где агрегировать или зашумить. При выборе конкретных методов защиты нужно помнить, что обезопасить детальные и чувствительные данные можно путем использования не только методов обработки исходных данных, но и различных организационных механизмов.

Витовт КопытокРуководитель проектного направления «Данные для исследований» ЦПУР

Были представлены пять аспектов защиты данных, распространенных в других странах. Представитель ЦПУР сравнил подходы, которые используются в Великобритании, Германии и т.д. для обеспечения исследователям доступа к данным. К ним относится предоставление разрешения на работу с детальными сведениями только верифицированным исследователям с использованием специальной защищенной инфраструктуры. В случае России была предложена программа из пяти шагов по расширению доступности и применимости данных переписей населения.

 

В обсуждении также участвовали: заместитель руководителя Росстата Павел Смелов, руководитель пресс-службы ведомства Игорь Ваган, профессор Российской экономической школы (РЭШ) Евгений Яковлев, первый заместитель начальника ГИАЦ МВД России Дмитрий Булгаков и партнер Digital Rights Center Михаил Третьяк.

 

International Open Data Day (IODD) – это международная инициатива, организованная Фондом открытых знаний (Open Knowledge International) при поддержке межгосударственных и международных организаций, включая ООН и Всемирный банк. В честь Дня открытых данных по всему миру проходят встречи, лекции и другие мероприятия.

 

Основной организатор IODD в Москве – АНО «Информационная культура». В этом году к организации IODD в России также присоединилась Ассоциация участников рынка данных. Подобные мероприятия в Москве проводятся с 2015 года.