Ассоциация больших данных представила результаты тестирования риск-модели деобезличивания данных
Ассоциация больших данных и ИТ-вендор HFLabs впервые представили результаты тестирования модели оценки рисков повторной идентификации с использованием своей разработки для обезличивания данных. Программа маскирует персональные данные, снижая риск утечки во время тестирования IT-систем, сохраняя при этом качество тестов.
В рамках тестирования специалистами-методологами Ассоциации больших данных (АБД) были смоделированы кибератаки с целью получения персональной информации из обезличенных наборов данных, подготовленных с помощью программы «Маскировщик» для кейсов «Оценка оттока банковских клиентов (Churn Rate)» и «Маркетинговая атрибуция на независимых наборах». По результатам атак был осуществлен расчет рисков повторной идентификации, а также подготовлены рекомендации по адаптации параметров маскирования.
Как рассказал исполнительный директор АБД Алексей Нейман, при обработке обезличенных данных оценивалась вероятность успешной атаки на них, в результате которой может быть нарушена приватность.
Успешный эксперимент определения уровня риска деобезличивания данных бизнес-кейсов с использованием «Маскировщика» позволил решить задачу максимизации функции полезности продукта при минимизации рисков данных.
«В ходе эксперимента мы снизили комплексные риски маскированных данных на 97,5% при сохранении их высокого показателя полезности, который составил 71%. Эти результаты подчеркивают эффективность наших методов обезличивания и их способность защищать конфиденциальность данных без ущерба для их аналитической ценности» — отметил Алексей Нейман.
Модель оценки рисков повторной идентификации позволяет рассчитать вероятность выделения персональной информации в обезличенном датасете. Основываясь на этой оценке, можно принимать обоснованные решения об используемых средствах защиты и методах обработки данных. По результатам тестирования риск-модель доказала свою работоспособность, а также была дополнена подходами по симуляции атак, которые углубляют понимание рисков повторной идентификации за счет учета рисков выделения и связывания.
Авторы программы при создании программы ставили в приоритет сохранение контекста данных. Умное маскирование учитывает пол, возрастную группу, привязку адреса и телефона к региону и многое другое.
«Такой подход позволяет максимально эффективно использовать обезличенные данные в тестировании высоконагруженных IT-систем», — сказал технический директор HFLabs Никита Назаров.
При этом вопрос безопасного использования таких данных остается ключевым для бизнеса.
«Разработка риск-модели и ее валидация — большой шаг к выводу обезличенных данных из серой зоны. Уверен, что этот проект АБД позволит продвинуться к легализации их использования в бизнес-среде», — считает Никита Назаров.
Риск-модель может стать основой для нахождения баланса между безопасностью и полезностью данных, когда полученным данным можно доверять и использовать, но по которым невозможно реидентифицировать конкретных субъектов. При этом целесообразно оценивать риски деобезличивания в каждом конкретном случае применения методов, в том числе давать оценку контекстного риска (исходя из того, в каких условиях будет обрабатываться обезличенный датасет), пояснили эксперты из HFLabs.
«Маскировщик» при обезличивании данных сохраняет их качество и контекст, делая их максимально похожими на оригинальные и значительно снижая риски повторной идентификации. Внедрение риск-ориентированного подхода при обезличивании данных доказало свою важность, обеспечивая более точное управление рисками и максимальную полезность данных.
Фото: Adobe Stock