Большие пользовательские данные
Я собрал эту страницу для своих знакомых из различных публичных комментариев Игоря Ашманова на Роем. Считаю, что всем, кто занимается НТИ и вообще думает о кондратьевских циклах - обязательно к ознакомлению.

Ничего не добавлял, только расставил заголовки.

Яков Сомов
somov@lektorium.tv
Отстройка от персональных данных
Крупными платформами, операторами связи, рекламными сетями и площадками в Рунете в день собираются многие терабайты данных о гражданах РФ. Эти данные собираются по многим каналам, в разных форматах, годами накапливаются в ретроспективе. В них есть всё о человеке, пользующемся сетью.

Разделим для лучшего понимания собираемые в сети данные на Персональные Данные (далее ПД), которые являются предметом уже существующего закона 152-ФЗ, и Большие Пользовательские Данные (далее БПД). И разберёмся, в чём разница.
Персональные данные по 152-ФЗ
В 152 Федеральном законе персональные данные определены так:
«Персональные данные — любая информация, относящаяся к определённому или определяемому на основании такой информации физическому лицу (субъекту персональных данных), в том числе его фамилия, имя, отчество, год, месяц, дата и место рождения, адрес, семейное, социальное, имущественное положение, образование, профессия, доходы, другая информация».

Таким образом, ПД — это в первую очередь идентифицирующие, биографические данные, устанавливающие связь с личностью. Федеральный закон вводит требования по защите, процедурам хранения ПД и т. п. То есть ПД находятся в правовом поле.

Правда, правоприменение (проверка использования и наказание за неправильную обработку) сейчас пока фрагментарно. Сейчас Роскомнадзор проверяет интернет-компании, однако это медленный процесс — проверяется несколько десятков компаний в год, а всего их многие тысячи. И это правоприменение пока вообще не коснулось западных интернет-гигантов.
Однако в сети операторами сервисов и контента собирается ещё множество других данных о людях, данных не менее «чувствительных» и опасных, но пока не воспринимаемых как ПД и, следовательно, находящихся вне правового поля.
Некоторые эксперты отрасли, в том числе сотрудники Минкомсвязи (например, в дискуссиях на совещаниях Рабочей группы по исполнению поручений Президента от 29.01.2016) не согласны с тем, что большие пользовательские данные это особая категория информации. Они указывают на то, что формулировка 152 Федерального закона настолько широка, что персональными оказываются любые данные, собираемые о людях. В таком случае надо признать, что в реальной жизни закон 152-ФЗ пока просто вообще не исполняется.

По нашему мнению, персональные данные являются подмножеством Больших пользовательских данных, но не наоборот — Большие данные значительно, намного шире.
typography
Что такое Большие данные
Сначала разберёмся, что такое вообще Большие данные.
Большие данные — это модный термин, под которым сейчас в отрасли и в прессе (в том числе в силу различных интересов, в том числе коммерческих) понимают очень разное.
Этот термин, как обычно бывает — перелицованное старое понятие, которому десятки лет. Раньше Большие данные назывались Data Mining или «раскапывание данных». По этому поводу уже была шумиха в 1990-х годах, когда «раскапывание данных» объявлялось очередной волшебной палочкой.

Сформулируем объективные свойства Больших данных.
Большие данные — это:

1. Большие объёмы данных, что означает не размер в мегабайтах, а тот факт, что их нельзя просмотреть или как-то ещё обработать вручную. То есть для анализа Больших данных обязательно нужна автоматическая обработка, требующая значительных вычислительных ресурсов и специального ПО.

2. Целое больше суммы частей: на целом объёме данных, при взгляде на них «с птичьего полёта» видно то, чего не видно на фрагментах (массовость, связи, дубли, ретроспектива, статистика, аномалии, паттерны, …). Анализ БД в целом, по всей совокупности, даёт новые знания по сравнению с анализом фрагментов. Например, одиночный водитель не знает, что едет в пробку, а «взгляд сверху» на все данные от смартфонов всех водителей ясно это показывает.

3. Мультимедийность и мультиформатность. Очень разнообразные форматы данных, сведённые воедино: текст, социальный граф, логи посещений, поисковые запросы, речь, видео, фото, местоположение, маршруты, скорость, …).

4. Данные из разнообразных источников. Это данные, собранные из разных каналов, среди которых сообщения в соцсети, география и использование приложений в смартфоне, ПК, поисковые запросы, счётчики на сайтах, камеры на улице и на дороге и т. п.

5. Данные с ретроспективой. Временная ось (на пространстве дней, месяцев и лет) позволяет делать очень важные дополнительные выводы, выявлять повторяющиеся паттерны или следить за развитием процессов, которого не видно в «мгновенном срезе».

Последний пункт ниже важен для нас именно в разрезе разговора о Больших пользовательских данных. Большие данные собираются в разных сферах человеческой деятельности: у учёных есть, конечно, большие данные о движении ледников или образовании массивных чёрных дыр.
Самое очевидное применение алгоритмов анализа больших «естественно-научных» данных — это предсказание погоды, в котором прямо сейчас происходит настоящий прорыв.
Но то, что интересует всех, и коммерсантов, и государства, что стоит больших денег и имеет большие последствия — это Большие данные о людях, их поведении и потребностях.

6. Данные о людях. Данные о поведении, мнениях, потребностях людей.
Перечисленные свойства позволяют получать из Больших данных о пользователях ИТ не просто какие-то многочисленные сведения, а новые знания. Для этого в последнее время создано огромное количество инструментов анализа и распознавания.
Большие данные — это данные или технология?
Часто приходится слышать мнение, что Большие данные — это набор технологий анализа данных. На самом деле это неверно.
Технологии анализа больших массивов данных существуют уже полвека, технологии кластерного, факторного анализа, машинного обучения и распознавания также не новы, однако проблема накопления и обработки Больших пользовательских данных — относительно новая, возникшая с появлением в конце 90-х годов публичных сетевых сервисов с большой пользовательской аудиторией.

БПД имеют ценность и несут риски сами по себе, до обработки. Здесь уместно провести аналогию с Персональными данными: вне зависимости от того, как они будут обрабатываться потом, Персональные данными признаются категорией информации, требующей защиты и регуляции оборота.

Кроме того, надо понимать, что сбор и оборот как БПД, так и Персональных данных часто очень сильно разнесены по времени и «логистике» с их обработкой и анализом. Зачастую БПД собираются в одной организации, а обрабатываются совершенно в другой. Данные могут продаваться, передаваться через множество рук, а как и для чего они будут обработаны на конечном этапе, может остаться навсегда неизвестным, поскольку это происходит в закрытых коммерческих структурах или спецслужбах.

Надо понимать, что через 7−10 лет технологии обработки БПД будут совершенно другими. В частности, в связи с развитием «глубокого обучения» на нейронных сетях, в скором времени обработка БПД станет совершенно скрытой и неявной, превратившись в автоматическое принятие решений нейронной сетью на основе первичных данных пользователей, без промежуточного анализа, публикации и обработки. Натренированная на фиксированных объёмах предыдущих БПД, нейронная сеть в дальнейшем будет категоризировать, распознавать и принимать решения по БПД за миллисекунды, фактически обрабатывая их в реальном времени.

А сами БПД останутся теми же, поскольку они определяются социальными свойствами людей и их поведения в сети.

Определение Больших пользовательских данных

Дадим неформальное и нестрогое определение Больших пользовательских данных, которое позволит нам строить рассуждения далее:

Большие пользовательские данные — это данные, собираемые в сети различными сервисами, устройствами и приложениями о поведении пользователей, понимаемых как пользовательские профили.

Нужно различать две подкатегории БПД: первичные и производные пользовательские данные. Производные данные в результате обработки уже могут перестать быть обезличенными, в результате установления связи между пользовательским профилем и реальной личностью пользователя.
Кому принадлежат и должны принадлежать пользовательские данные?
Являются ли Большие пользовательские данные собственностью граждан? Ответ кажется очевидным — конечно, это же их данные. На самом деле, ответ не вполне верный или не вполне точный. Это легко понять, попытавшись определить, может ли гражданин хоть как-то распоряжаться этой своей «собственностью».
Возможность распоряжения своими БПД
Принадлежит ли гражданину серия видеороликов о его перемещениях по городу в прошлую среду, снятых ста сорока различными камерами, принадлежащими сорока семи разным собственникам?
А логи перемещений пользователя по сайтам, записанные установленным на эти сайты счётчиком или кодом рекламной системы?
Очевидно, нет: гражданин не знает об их существовании, а если и догадывается, не знает, ни кому они принадлежат, ни как их получить, посмотреть, стереть, запретить использование и публикацию, отозвать свои БПД.
Гражданин не имеет инструментов для такого контроля и распоряжения. Очевидно, нельзя полноценно владеть тем, чего никак не контролируешь и не распоряжаешься.

Соглашения о правилах использования сервиса
Интернет-компании, напротив, считают, что эти данные принадлежат им — потому что у них имеются крайне удобные пользовательские соглашения (или «публичные оферты», «пользовательские лицензии» и т. п.).

Практически в каждом публичном интернет-сервисе имеются пользовательские соглашения, которые требуется «подписать» перед началом использования. Подписание в подавляющем числе случаев выражается в том, чтобы нажать кнопку «Согласен».

В них обязательно имеется пункт о том, что все данные пользователя добровольно передаются и принадлежат сервису, который может делать с ними что угодно. В том числе, например, в пользовательских соглашениях Гугла и Фейсбука прямо говорится о том, что данные по усмотрению сервиса могут передаваться коммерческим или правительственным организациям США, по их требованию и по законам США (см. выше).

В большинстве случаев пользовательские соглашения интернет-сервисов и/или практика работы с БПД рабски скопированы с западных соглашений и зачастую прямо противоречат законам РФ. Частным случаем такого противоречия является авторское право на контент.

Сбор и использование БПД «по факту»
Часть тех игроков медийного рынка, кто собирает БПД, пользовательских соглашений и регламентов не имеют вовсе или не требуют согласия для начала работы — например, поисковики, рекламные сети, счётчики посещаемости, системы веб-аналитики, СМИ и другие медийные площадки.
Часть этих сервисов вообще не видна пользователю, ибо представляет собой невидимый пиксел или программный код на странице посещённого пользователем сайта, однако тем не менее собирает полноценные БПД.
Кто должен владеть БПД?
Нам представляется, что Большие пользовательские данные должны быть признаны собственностью нации, и защищаться государством в этом качестве.
Для понимания того, как это нужно делать, очень удобна метафора понимания БПД как Цифровых недр (см. ниже).
Осознание проблемы: аналогия «Цифровые недра»
Аналогия с недрами. Для понимания ситуации с БПД, на наш взгляд наиболее подходит аналогия с недрами. БПД — это аналог полезных ископаемых, золота, нефти и урана. Не случайно анализ Больших данных на английском уже 30 лет так и называется «Data Mining».
Площадка и недра под ней. Земля и недра под ней — разные правовые сущности. Землю у нас можно купить, получить в подарок, по наследству или от государства. Но разрабатывать недра под этой принадлежащей тебе площадкой — нельзя, если нет специальной лицензии. Ты можешь строить на своей площадке, использовать выкопанный песок для стройки, но копать можешь не глубже, условно говоря, 5 метров, или глубины, предусмотренной архитектурным проектом.

Владение медийной площадкой или платформой с большой аудиторией точно так же не равно владению «пользовательскими недрами» под ней. Данные пользователей, которые пришли на твою площадку — не принадлежат бизнесу. Бизнес — просто временный пользователь этих данных.

Ограничения по глубине
Кажется очевидным, что площадка или платформа может использовать БПД для улучшения своего сервиса, но при этом не должна:
а) собирать БПД, не предупреждая пользователей явно, в виде предупреждения на сайтах и в приложениях, и в пользовательском соглашении,
б) копать слишком глубоко БПД даже для себя, добывая о пользователях слишком интимные знания,
в) продавать данные наружу, другим игрокам без специального разрешения в том или ином виде,
г) продавать или передавать БПД за рубеж, иностранным государствам и организациям, без декларации такой деятельности и специального разрешения.

Сейчас же эту «цифровую нефть», собственность всех российских пользователей, то есть нашей Цифровой нации, выкачивают бесплатно и невозбранно, совершенно бесконтрольно. В первую очередь иностранцы, поскольку у них самые большие «буровые вышки» и «шахты» — то есть самые широкие линейки сервисов.

Нужен анализ проблемы БПД и выработка отношения к ней на уровне страны.
Аналитическая работа
Нужно запустить одно или несколько исследований проблемы (НИРов), выработать определения, модель отрасли и модель угроз:
• Определение. Нужно выработать единое определение БПД. Нужно определить, какие БПД являются идентифицирующими, какие подпадают под действие 152-ФЗ, а какие нет.
• Определение производных данных. Нужно точно определить свойство БПД по порождению производных данных, то есть свойство позволять анализ, идентификацию, получение Персональных данных и других личных данных пользователей на основе собранных данных.
• Категории БПД. Нужно разделить БПД на данные личные, корпоративные и государственные, …
Проблема больших пользовательских данных (более простым языком)
Нужно запустить одно или несколько исследований проблемы (НИРов), выработать определения, модель отрасли и модель угроз:
• Определение. Нужно выработать единое определение БПД. Нужно определить, какие БПД являются идентифицирующими, какие подпадают под действие 152-ФЗ, а какие нет.
• Определение производных данных. Нужно точно определить свойство БПД по порождению производных данных, то есть свойство позволять анализ, идентификацию, получение Персональных данных и других личных данных пользователей на основе собранных данных.
• Категории БПД. Нужно разделить БПД на данные личные, корпоративные и государственные, …
Основные положения и соображения по проблеме БПД

А. Большие пользовательские данные — это не ПД. Большие данные могут быть в сыром виде анонимны, а обработка их и превращения в производные данные могут производиться совершенно в другое время и в других руках, иногда через много звеньев и границ.

Б. Собирают БПД все, кто смог дотянуться. Поисковики, соцсети, рекламные системы, смартфоны, приложения. Наилучший пример — приложение «Фонарик» с доступом к адресной книге и звонкам. Или Run Keeper, собирающий данные в выключенном состоянии. Пользовательские соглашения, где мы «поднимаем галочку «Согласен» — по нашим законам — незаконны, тем более, что их никто не читает.

В. Есть наблюдающие сервисы, которые вообще не имеют прямых отношений с пользователем — десятки кодов на сайтах, счётчики, шеры, логины, лайки и т.п.

Г. В этой сфере есть правовой вакуум — собирают все, делают что хотят, пользовательские соглашения незаконны. Компании искренне считают, что эти данные их.

Д. В этой сфере кроме угроз и рисков есть большие деньги и большие возможности. Их важно не упустить, чтобы потом не импортировать всё новое с Запада.

Е. В наилучшем положении находятся зарубежные компании:
— они имеют самые жёсткие пользовательские соглашения,
— у них самые широкие линейки сервисов и самая большая наблюдаемая аудитория (если вспомнить про сеть Адсенсе и шеры/лайки фБ по просторам Рунета).
— они не подчиняются российским законам, БПД российских граждан улетают за границу,
— Все они сдают данные наших граждан государству США и его спецслужбам (это рассказывают нам Сноуден и «Гардиан», но это прямо написано и в их ПС).
Ж. На подходе ещё более жёсткие сборщики: уличные и носимые камеры с распознаванием лиц, походки, номеров авто; умные домашние телевизоры с распознаванием жестов, трёхмерных сцен, речи; умные браслеты, собирающие биометрию; сборщики ДНК; Интернет вещей; умные автомобили с 20-30 операционками внутри, с постоянным доступом в Интернет, с распознаванием состояния водителя, с камерами в салоне и так далее.

З. Закона о БПД нет, всё это не регулируется, а рынок уже есть, риски уже есть.
Предлагается метафора «цифровых недр»: ты мог получить в наследство, купить или получить в подарок участок земли. Теперь ты можешь на нём строить, но копать глубже 5 метров — нельзя, дальше — недра, а недра — собственность нации.
Чья это собственность?
— Не пользователя, хотя кажется, что его. Почему? Ты не можешь владеть тем, что не контролируешь. Прошёл по улице — тебя сняли 138 камер от 17 различных владельцев зданий, помещений и сетей камер, распознали лицо, записали путь и время. Чьи это данные?
Точно не твои: ты не знаешь, где они, у кого, не можешь запретить использование и т. п. А когда что-то «твоё» ты не контролируешь — ты этого лишишься обязательно.
— Не владельцев систем сбора данных — они НЕ ДОЛЖНЫ этим владеть? это не их, какие бы они ни писали хамские TOS.
Здесь полная аналогия с 152-ФЗ про ПД.
А чьи тогда?
Предлагается метафора «цифровых недр»: ты мог получить в наследство, купить или получить в подарок участок земли. Теперь ты можешь на нём строить, но копать глубже 5 метров — нельзя, дальше — недра, а недра — собственность нации. Получишь лицензию — пожалуйста, добывай и продавай, по правилам. А пока — только для себя.

То же самое с БПД: даже на твоей площадке данные глубже определённого слоя — это собственность нации, очень чувствительные данные, которые граждане сами защитить не могут и не должны. Анонимные куки и технические профили для втюхивания товаров на твоей площадке, в твоей рекламной сети, браузере — пожалуйста, используй.

Большие данные с возможностью расчёта ФИО, интимных данных, взглядов, религиозных предпочтений, связей, ориентации, болезней, ДНК — извини, Гугл/Яндекс/ФБ, это не для тебя.

Подпиши хартию, кодекс, пройди сертификацию, получи лицензию или что-то подобное, покажи алгоритмы, декларируй цели — тогда работай. Ну и естественно, в рамках территории РФ.
финальчик
Как и что делать?
— Законотворчество (определение, категории данных, юрисдикия, прочее), запрет трансграничного использования БПД
— Определение категорий игроков и их прав (например, запрет провайдерам и операторам собирать на магистралях, использовать и продавать БПД),
— Выравнивание условий конкуренции (прижать иностранцев-беспредельщиков)
— Саморегуляция отрасли: отраслевой кодекс/хартия
— Отраслевой консорциум или оператор БПД
— Единое пользовательское соглашение для интернет сервисов
— Решение проблемы наблюдающих сервисов
— Стандарты использования и оборота
— Государственный мониторинг правил оборота БПД
— Просвещение пользователей
— Госуслуга по прозрачности БПД, возможность удаления гражданином своих БПД и запрета их использования теми или иными сервисами
— Институты развития, инвестирование в обработку БПД, стандарты обмена, обеспечение доступности (при гарантии безопасности) данных для игроков рынка, стимуляция технологий обработки БПД
Собрал Яков Сомов (Лекториум). Текст не мой. Автор Игорь Ашманов.
Made on
Tilda