Где я?
ББ-Home > Новости > 1/52 > Эфемерность анонимности

Эфемерность анонимности

Это только кажется, что VPN, бессмысленный ник и такой же бессмысленный адрес электронной почты обеспечат вам анонимность в Сети.

Почему? Читайте перевод статьи Оливии Солон из Guardian.

«Данные – это как отпечатки пальцев»: почему в сети вы не настолько неизвестны (анонимны), как вам кажется

Olivia Solon

13 июля 2018 года

Так называемые «анонимные» данные могут быть с легкостью использованы для идентификации чего угодно – от нашей истории болезни до истории покупок.

В августе 2016 года австралийское правительство выпустило набор деперсонифицированных («анонимизированных») данных 2,9 млн человек, состоящий из записей счетов за медицинские услуги, включая каждое назначение и хирургические вмешательства.

Имена и другие идентификационные данные были вычищены из записей с целью обеспечения приватности, но исследовательской команде из Мельбурнского университета вскоре удалось обнаружить, что путем сравнения набора данных с другой публично доступной информацией, например, свидетельствами о рождении детей у известных людей или о перенесенных спортсменами операциях, реидентифицировать людей и вскрыть всю их медицинскую историю без их согласия было не так уж и сложно.

Правительство удалило данные со своего сайта, но к тому времени они уже были скачаны 1500 раз.

Этот кошмар вторжения в личную жизнь всего лишь один из многих примеров, когда кажущиеся безвредными, деперсонифицированные обрывки информации, будучи «обратно спроектированными» (reverse-engineered), позволяют обнаружить за ними реальных людей. И ситуация все более усугубляется по мере того, как люди проводят больше времени онлайн, разбрасывая цифровые «хлебные крошки», которые позволяют выяснить, кто же на самом деле «намусорил», ставя тем самым под угрозу частную жизнь способами, о которых они даже не подозревали.

Безымянные журнальные записи нью-йоркского такси, сопоставленные со снимками, сделанными папарацци в разных местах города, обнаружили, что Брэдли Купер и Джессика Альба оказались порядочными скупердяями. В 2017 году немецким исследователям удалось установить людей, основываясь на шаблонах «анонимного» просмотра ими веб-страниц. На этой неделе исследователи из Университетского колледжа Лондона показали, как они могли бы идентифицировать отдельного пользователя Twitter, основываясь на метаданных его твитов, а тем временем фитнес-трекер Polar обнаружил дома и в некоторых случаях имена солдат и тайных агентов.

«Удобно притворяться, что реидентифицировать людей представляется сложной задачей, но это просто. Вещи, которые мы делаем, это то, что мог бы сделать любой студент-первогодка, изучающий data science», – сказала Ванесса Тиг, одна из команды исследователей из Мельбурнского университета, которые обнаружили прорехи в открытых медицинских данных.

Один из наиболее ранних примеров нарушения приватности подобным образом случился в 1996 году, когда Massachusetts Group Insurance Commission выпустила «анонимизированные» данные, показывающие посещения больниц государственными служащими. Как и в случае с австралийскими данными, владелец удалил очевидные идентификаторы, какими являются имена, адреса, номера карт социального страхования. Тогда губернатор Уильям Велд заверил общественность, что приватность пациентов была обеспечена.

Латания Суини, выпускница по специальности «вычислительная техника», позднее ставшая главным техническим директором Федеральной торговой комиссии, показала, насколько неправ был Велд, обнаружив его медицинскую историю в наборе данных. Чтобы вычислить его, Суини использовала почтовый индекс Велда и дату его рождения, полученные из реестров избирателей, а также информацию о конкретной дате посещения им больницы после коллапса, случившегося во время публичной церемонии. Данные из его истории болезни она отправила ему в офис.

Позднее в работе Суини показала, что 87% населения США могут быть однозначно идентифицированы по их дате рождения, полу и пятизначному почтовому индексу.

«Дело в том, что данные, которые могут выглядеть как анонимные, совсем не обязательно таковыми являются», – заявила она в свидетельских показаниях комитету по неприкосновенности частной жизни Министерства внутренней безопасности США.

Совсем недавно Ив-Александр де Монтжой, исследователь в сфере компьютерной конфиденциальности, показал, как большая часть населения может быть идентифицирована только на основе поведенческих шаблонов, определяемых на основе данных местоположения мобильных телефонов. Анализируя базу данных примерного местонахождения мобильных телефонов (по данным ближайшей вышки сотовой связи) 1,5 млн человек на протяжении 15 месяцев (без какой бы то ни было дополнительной идентифицирующей владельцев информации), оказалось возможным однозначно определить 95% человек только лишь по четырем точкам времени и места. Двух точек оказалось достаточным для идентификации 50% пользователей.

Такие четыре точки могут быть получены из публично доступных источников, включая домашний адрес человека, рабочий адрес и гео-таргетированные посты в Twitter. «Данные о местоположении – это как отпечатки пальцев. Такая информация, скорее всего, содержится в самых различных наборах данных и потенциально может быть использована в качестве универсального идентификатора», – говорит де Монтжой.

Особенно, что касается работоспособного населения, такие данные – мечта любого охотника.

«Вы перемещаетесь от дома к работе и обратно, как правило, в одно и то же время. И как правило, это какой-то один человек, который живет по адресу А и работает по адресу В», – говорит директор Salinger Privacy Анна Джонстон.

Даже если данные о местонахождении не позволяют идентифицировать человека, они все же могут подвергнуть риску группу людей, – объяснила она. Так, например, публичная карта, выпущенная разработчиком фитнес-приложения Strava, непреднамеренно стала угрозой национальной безопасности, обнаружив местонахождение и передвижение людей на секретных военных базах.

В 2015 году Де Монтжой показал, что оказалось возможным идентифицировать владельца кредитной карты из миллионов «анонимизированных» платежей только на основании информации о нескольких покупках, совершенных этим человеком.

Обладая только именами и данными о расположении магазинов, в которых были совершены покупки, а также примерными датами и размером покупки, Де Монтжою удалось установить личность 94% человек по данным всего трех трансакций. Это значит, что кто-то может найти фотографию в Instagram, на которой вы пьете кофе с друзьями, твит о недавней покупке и старый чек, и ему окажется под силу сопоставить эти данные со всей вашей историей покупок. Монтжой и другие исследователи не раз показывали, что практически невозможно анонимизировать данные на уровне единичных записей – данные, относящиеся к индивидам, – не важно насколько урезанными они бы ни оказались.

«Это могло быть действенным в прошлом, но сегодня это больше не работает», – сказал он.

У людей практически нет возможностей, чтобы защитить себя от подобного рода вторжения в частную жизнь.

«Как только наши данные выходят наружу, скорее всего они будут сохранены навечно», – предупреждает профессор информатики из Принстона Арвинд Нарайанан. «Существуют фирмы, которые специализируются на сборе данных о нас из различных источников для составления виртуальных досье и используют добычу данных, чтобы влиять на нас различными путями.»

Возможно уменьшить оставляемый вами цифровой след, например, платя только наличными и закопав свой мобильный телефон, но это не очень практично.

«Если вы хотите быть активным членом общества, у вас нет возможности урезать объем данных, высасываемых из вас, до какого-то существенного предела», – говорит исследователь в области безопасности Крис Викри.

Это также делает исключительно затруднительным для индивида дать информированное согласие о способах использования его данных, собираемых тем или иным приложением или службой. Обещания, даваемые компаниями, не распространять персональные данные по сути становятся бессмысленными, когда реидентифицировать кого-либо не составляет особого труда.

«Все сводится к качественному регулированию и надлежащему правоприменению», – говорит Де Монтжой, добавляя, что европейский закон GDPR – это «шаг в правильном направлении».

«Один из недочетов законодательства о частной жизни заключается в том, что оно слишком много ответственности переносит на плечи потребителей в условиях, когда они не подготовлены, чтобы понять риски», – говорит Джонстон. «Куда больше ответственности должно быть возложено на хранителей [данных, таких как правительства, исследователи и бизнес].»

Де Монтжой остается оптимистом, ссылаясь на «невероятные возможности» больших данных, особенно для медицинских исследований и общественных наук.

Он предлагает, чтобы вместо публикации больших наборов данных, исследователи и правительства разработали бы интерфейсы, позволяющие другим делать обращения к данным без доступа к исходным файлам.

«Идея в том, чтобы не утерять контроля за данными и гарантировать субъектам анонимность», – говорит он. «Приватность не мертва. Она нужна нам, и мы придем к этому.»

Top