«…Специалистам по Big Data достаточно анализа 68 лайков в „Фейсбуке“, чтобы определить цвет кожи испытуемого с вероятностью 95%, его гомосексуальность с вероятностью 88%, а приверженность Демократической или Республиканской партии США с вероятностью 85%».
«…После десяти изученных лайков система опознаёт пользователя лучше, нежели его коллеги по работе. После 70 лайков — лучше, чем друг. После 150 лайков — лучше, чем родители. После 300 лайков — лучше, чем партнер. С ещё большим количеством изученных действий мы узнаём о человеке больше, чем он знает о себе сам».
Когда несколько лет назад я вышел из аскетического состояния вольного автомеханика и неожиданно впал в статус мужа и отца, которому надо семью кормить, пришлось задуматься об источниках дохода. Прекрасная в своей раздолбайской свободе гаражная вольница комфортна для социофоба, но, откровенно говоря, малоприбыльна. Однако Мироздание всегда подаёт нуждающимся если не рыбу, то удочку — так и мне в какой-то момент написал старый институтский приятель и пригласил встретиться по взаимному интересу. Он-то и предложил мне работу — для начала скромным мониторщиком данных. Отличное занятие для человека с противопоказаниями к офису — сидеть дома да лопатить интернет, разыскивая в нём то, что интересует людей, время которых слишком дорого стоит для таких глупостей.
Поскольку интернет давно уже превратился из информационной среды в сферу влияния, то поисковые системы выдают только то, что одновременно кем-то оплачено и не противоречит базовым установкам системы. Ещё несколько лет назад через это можно было продраться, используя умные фильтры и отбрасывая всю коммерческую выдачу (первый десяток страниц или около того), но теперь эти лазейки наглухо закрыты. За внешним бронированным слоем коммерческого таргетинга идёт почти непробиваемый по толщине вязкий слой поисковой оптимизации, затем умная защита фейкового дублирования из почти-одинаковых-но-не-совсем ресурсов, которые автоматически генерируются прямо под ваш запрос, затем туманная полоса «белого шума», где нужную вам информацию нарочито равномерно перемешали с мусором до полной однородности, и ещё, и ещё… И даже если вы с целеустремлённостью кумулятивного заряда проломитесь через весь этот бронебутерброд, то окажется, что за ним ничего нет, кроме ловушки для простаков, в которую вы уже попали просто по факту своего упорства.
Вот, к примеру, вы увидели в лесу зелёного ёжика и решили выяснить, что это за чудо такое. Первым слоем вам вывалится несколько тысяч предложений что-то купить — по большей части (но не обязательно) зелёное, и, возможно, местами как-то связанное с ёжиками. Кактусы, например.
Зелёные ёжики — 26 предложений на Маркете
market.yandex.ru › зелёные ёжики
10 магазинов. Выбор по параметрам. Доставка
Допустим, вы упорны и умелы в работе с поисковиками. Тогда вы при помощи встроенных фильтров (процентов 80 пользователей даже не знают, что они есть) отсечёте прямые предложения купить и провалитесь в слой сайтов, оптимизированных в выдаче по запросу «нечто зелёное» и «какие-нибудь ёжики». Рассуждения на тему «как ёжики ебутся» и «зелёные колючие анальные пробки» поглотят вас. Средний гуглопользователь на этом этапе утонет в мусорной выдаче, отчается, плюнет и вернётся на первый слой покупать кактус, но упорный и изобретательный непременно найдёт, как ему кажется, искомое: «настоящая правда о зелёных ёжиках», «всё, что вы хотели знать, о зелёных ёжиках, но боялись спросить», «как_найти_зелёного_ёжика.doc» и так далее. К радости неофита, это будут ссылки на малые тематические форумы, где уж точно настоящие живые люди и общение по теме, но… Буквально через пару страниц нейтрального трёпа он встретит нечто вроде такого диалога:
— Ребята, киньте реальную инфу о зелёных ёжиках!
— Лови ссылку!
— А там просят отправить смс, ничо?
— Не, нормально, отправляй, не ссы!
Разумеется, если отправить смс, то окажется, что вы подписаны на услугу «гей-порно-смс-онлайн», за которую у вас с баланса ушли все деньги за пять минут. Но это не так важно, как тот факт, что, если искать не зелёных ёжиков, а, к примеру, красных пыжиков, то через некоторое количество потраченного времени и трафика, человек оказывается на точно таком же, до запятой, форуме, но только про красных пыжиков. На самом деле, система в реальном времени генерирует их по шаблону прямо под запрос. Зачем? Ну, отчасти ради платных смс, но это только первый слой смыслов. На самом деле всё и сложнее, и проще одновременно, но об этом в другой раз как-нибудь. Если вы обычный пользователь, который ищет в интернете новости, анекдоты, рецепты, сиськи, котиков и секса без обязательств — вас это не касается вообще никак. Первый слой выдачи заточен под вас идеально, дальше и искать незачем.
В общем, человек, умеющий поймать в этой каше настоящего зелёного ёжика, а не наловить полную жопу кактусов, оказывается в какой-то момент весьма востребованным, причём, как бы это ни было смешно, как правило, теми же людьми, которые и выстроили всю эту систему многослойного зашумления информационного пространства. Если змея достаточно длинная и извилистая, она в какой-то момент неизбежно кусает свой хвост.
За несколько лет работы я вырос от рядового мониторщика-крафтера, который готовит сырые выборки по всяким запросам, до умеренно почтенного аналитика среднего звена, которому позволено объединять данные в кейсы и делать из них выводы. Квалитатив ресёрч2 на нашем волапюке.
Мне помог хороший письменный английский, не совсем выпавший из головы институтский курс статматематики, а также некоторые базовые навыки программирования, позволяющие строить собственные программные инструменты там, где не находится готовых. Поэтому я был отчасти допущен к таинственной бездне под названием «бигдата», которая может всё, но никто пока толком не понимает, что именно. Вдаваться в утомительные технические подробности не буду, скажу главное — все наши электронные следы на сегодняшний день заботливо собраны, рассортированы, учтены и проанализированы. Их гораздо больше, чем кажется среднестатистическому обывателю, это гигантские объёмы данных, но современные распределённые сети это прекрасно переваривают и добавки просят. Каждая оплата карточкой, каждая покупка через интернет, каждая регистрация телефона на новой соте, каждый билет на поезд, самолёт и автобус, каждый поисковый запрос, каждый твит и каждый чекин. Смартфон — окно в вашу прайвеси, смартфон с дефолтными настройками — широко распахнутая дверь, айфон — ворота, в которые грузовик проедет. Это, конечно, в первую голову рекламный таргетинг — стоит вашей жене купить в аптеке тест, а потом витамины для беременных — и реклама колясок удивительным образом возникнет в вашей ленте в «Фейсбуке». Но рекламой бигдата, разумеется, не ограничивается, она побочный приварок к главным задачам — немного самоокупаемости ещё никому не мешало.
Я не знаю всех применений бигдаты — подозреваю, их не знает никто. Но есть одна функция, которая ей, несомненно, присуща — автоматическое и моментальное выявление любых поведенческих аномалий. Потому все любители конспирологии, прячущиеся от Большого Брата путём использования анонимных мэйл-сервисов, стойкого шифрования и сетей Tor, общающиеся исключительно в даркнете через ретрошару и молящиеся на биткоин, на самом деле просто вешают на себя огромный плакат: «Эй, посмотрите, со мной что-то не так!!!». И, натурально, смотрят. Нет, никто не взламывает их защищённые емейлы, не читает их самостирающиеся торчаты и не расшифровывает их криптостойких посланий. Зачем? Это хлопотно, затратно, а главное — не нужно. Не нужно перехватывать распределённый питупи-трафик Тора, достаточно уверенно опознавать сигнатуру его использования, чтобы где-то зажглась первая красная лампочка — эй, этот парень пользуется Тором! А ну-ка давайте посмотрим — он просто торренты с порнухой ищет, или, к примеру, рецепт гексогена? Опять же, для этого не нужно ничего криптостойкого ломать, и никакие суперхакеры кэйджиби с красными глазами под фуражкой не встанут на ваш виртуальный след. Просто внимание системы к вашим поисковым запросам будет чуть повышено, и, если, например, вы недавно интересовались у гугля, как сделать электронный таймер из будильника — где-то зажжётся вторая лампочка, чуть ярче первой. А если вы вскоре заказали с алиэкспресса копеечный электронный модуль, на котором есть красный и синий провод и бегущие к нулю циферки, то после лампочки может пискнуть первый зуммер. А если среди ваших подписок во «ВКонтактике» окажутся при этом некие совершенно безобидные на первый взгляд сообщества любителей арабского языка или поговорить за ислам, то вы вполне можете заслужить первое персональное повышение статуса — вас переведут на контроль. Пока не персональный, просто вы попадёте в раздел базы данных «на общем мониторинге». Теперь на ваши лампочки и зуммеры будут реагировать уже не только эвристические алгоритмы распределённых вычислительных сетей, но и некий неравнодушный умный человек, который умеет сделать вывод о существовании океана по капле воды. Следующую стадию — персональный мониторинг — надо заслужить, но, если вам это удалось, то, скорее всего, дело рано или поздно кончится совершено невиртуальным визитом серьёзно настроенных людей, которым, опять же, и в голову не придёт взламывать шифрование ваших труекрипт-дисков. Зачем? Вы сами всё расшифруете, покажете и расскажете. Даже не сомневайтесь в этом.
«Ха-ха, ну мне-то это не грозит, — подумает наивный пользователь, прочитавший этот абзац. — Я-то не дурак искать в гугле рецепт динамита и схемы минирования мостов!». Отчасти он будет прав — но только отчасти. Даже если вы перестали покупать в ближнем магазине пиво и стали покупать водку — на это уже сработает какой-то триггер. Ваше потребительское поведение изменилось. Почему? Может, вы становитесь алкоголиком, и вас следует внести в группы повышенного контроля по этому параметру? Скорее всего, ничего не произойдёт. Но не исключено, что вы нарвётесь на неожиданно жёсткую проверку при попытке получить оружейную лицензию, кто знает? Я не знаю, кстати, это не моя область компетенции.
На самом деле никто не знает, как формируются триггеры, потому что задаёт их, как ни странно, тоже машина. Как? Ну вот знаем мы, к примеру, что этот мутный поц относится к исламским террористам. Или, наоборот, к буддийским похуистам, неважно. Машина считывает всё, что по нему есть, и сравнивает с такими же террористами/похуистами и с контрольной группой. Совпадения суммируются, расхождения учитываются, и выводится какой-то общий по группе набор ключевых определяющих паттернов. Какой, из чего он состоит — опухнешь вникать, это может быть тысяча триггеров или больше. Жизни человеческой не хватит проверить всё, поэтому в то, что работает, — не лезут. Система умеет самокорректироваться, так что ошибки бывают редко. С одной стороны, немного странно, что фактически людей контролирует машина, да ещё и по созданному ею же алгоритму — отдаёт какой-то дурной фантастикой про порабощение человечества тостерами. А с другой — в этом вся бигдата. Она принципиально оперирует слишком большими объёмами данных, чтобы человек мог контролировать процессы в деталях.
Поэтому я, как мало кто другой, понимал, что сохранить в тайне наш маленький (размером с целый мир) секрет — это на грани возможного. Моя работа открыла мне некоторое новое понимание того, как работает система, но она же и обозначила меня для неё как один из приоритетных объектов. Это нигде не упоминалось прямо, но подразумевалось — мы в системе, а значит, по умолчанию в мониторинге. Моя работа не только не требовала погон, она даже не включала режима секретности — я работал только с открытыми данными, никаких государственных тайн, никаких подписок, никаких ограничений в выезде и так далее. Всё, что я мог выяснить по работе, бралось исключительно из «паблика» — публичного информационного пространства, открытого всем желающим. Блоги, форумы, чат-платформы, социальные сети — это бездны информации, если уметь её просеивать. Чтобы узнать, каких именно военспецов размещает НАТО в Польше, не нужно прогрызать тёмной ночью сейф в подвалах Пентагона, достаточно посмотреть, что постят эти спецы в своих «Инстаграмах». Не виды ли Влтавы3? Я очень сильно упрощаю, разумеется, но общий принцип такой. Даже если этим спецам, к примеру, запрещено постить виды Влтавы и селфи с благодарными польскими проститутками, и даже если предположить невероятное — что они все этот запрет соблюдают, — то можно навестись на то, что они перестали постить в «Инстаграм» свою выкошенную лужайку в Айове и пухлых детей вокруг барбекюшницы. Изменение поведенческого паттерна, понимаете?
Так вот, стоит измениться моему поведенческому паттерну, система сразу подаст сигнал, ведь я уже не в нижней группе приоритета. Американцы в фильмах любят пафосно сказать: «Я работаю на правительство!». (Вопиющую абсурдность этого утверждения не замечает только тот, кто представляет себе некое монолитное «правительство», на которое можно работать. На самом деле ничего подобного в природе не существует.) Я же работал на информационно-сервисную структуру, определённым сложным образом ассоциированную с группами, каким-то боком участвующими в формировании государственной политики. С какими именно — до нашего сведения никто не доводил, незачем. Однако я для системы уже не был пустым местом, на которое надо реагировать только когда накопится определённый тревожный анамнез. Если я как-то подозрительно задёргаюсь, то меня спалят сразу.
Вообще, если честно, я уже наверняка задел какие-то сигнальные паутинки — спонтанная покупка в гипермаркете целой кучи неожиданных хозяйственных мелочей (по карточке, вот я кретин!). Двукратное пропадание телефона из сети в одной и той же точке (надо было бросать его в гараже, я не подумал). Синхронное во второй раз пропадание там же телефона жены. Неожиданно и без повода взятый женой БС (это уже в компьютере бухгалтерии, а значит, в системе), неплановое изъятие ребёнка из садика (сразу в систему не попадёт, они на бумажке пишут, но по итогам месяца засветится, когда оплату проведут). Вообще-то само по себе это пока на полноценный алярм не тянет. Ну, наверное. Я ж не знаю, какой по нам, аналитикам среднего звена, уровень тревожности выставлен, и уж тем более не знаю, какие триггеры. Мало ли, купили всякого барахла, свезли в гараж, а что телефоны погасли… ну, например, положили их неудачно. Если по мне работает только машина, то с высокой вероятностью я уровень алертности не превысил. Если попал в выборочный контроль живым оператором (для постоянного я уж точно слишком мелкий), то он мог и напрячься. А мог и нет — в гараж я мотаюсь регулярно. С женой редко — но тоже бывает. Тормоза, к примеру, прокачать, почему нет? Может, мы их сейчас как раз прокачиваем. Пыхтим и качаем, пыхтим и качаем… Но это сработает один раз, дальше надо думать. Думать я умею, мне за это деньги платят. Не бог весть какие, но для провинции заплата приличная. И вообще недурная работа — интересная. Узнаёшь много всего нового постоянно. Только сидячая.
Само по себе изменение поведенческих паттернов скрыть нельзя. Никак. Просто никак, даже думать в эту сторону не стоит. Даже если, к примеру, закупать всё за наличку — сразу палишься тем, что начал наличить много денег. Зачем? Ведь до сих пор карточкой везде платил… Несколько покупок за наличку в гипере, и локализация твоего смарта синхронизируется по времени с твоим чеком, камеры на парковке читают номер твоей машины, и так далее. Большинство гиперов имеют систему контроля проходимости торговой точки, которая отсекает вход-выход клиента по слабенькой вайфайной точке доступа возле касс или дверей. Смарту не надо в ней регистрироваться — дефолтную регистрацию во всех открытых сетях оставляют включённой уж совсем полные придурки, — но достаточно обменяться пакетами и всё, вас посчитали. Даже если вай-фай, как вам кажется, на телефоне «выключен». Покупать на рынке? Свяжутся обнал и локализация. Да, что именно ты купил у той бабки система понять пока не может, но само по себе сигнал. Никогда на рынок не ездил, а тут вдруг зачастил. С чего бы это?
Наличка от контроля не спасает, это иллюзия. Наоборот, подозрительно — особенно если у вас в паттерне регулярное использование карточки. Поэтому наличку сейчас вытесняют из оборота относительно вяло — непринципиальный вопрос. Наоборот, упёртые любители налички в безналичном обществе сами себя метят — у нас ещё не так, а в Европе-Америке наличка — однозначный маркер маргинала. Всякие детские наивные хитрости, вроде телефонов с левой симкой и подставных аккаунтов для смартфона тем более оставим любителям бездарных шпионских игр. Что же можно сделать?
Раз скрыть изменение паттерна невозможно, его надо легализовать. Любой человек может радикально сменить паттерн по самым безобидным причинам. Например, если вы едете в отпуск, у вас вдруг резко меняется всё — локализация, шаблон потребления, средний уровень расходов, ближний круг контактов, объём и тип потребляемого трафика, частота и сентимент-маркеры постинга в соцсети. Для системы вы становитесь совершенно другим человеком! Соответственно существует и механизм отработки такого алярма — автоматический при попадании в стандартный блок паттернов: «Ага, чекин в турфирме, крем от загара и плавки в чеке, билеты, регистрация, перелёт, дальше счёта из бара и снятия в местной валюте — понятно, человек просто в отпуске, отбой». Ну, или если «персонаж в мониторинге», а по нему высокий уровень алертности системы — тут уже кто-то может глазами посмотреть ситуацию. Машина-то нюансов не видит, ей сходу трудно понять, бухать вы в Египет поехали или, например, в шахиды записываться.
Надо создать ситуацию, когда дежурный мониторщик увидит сигнал системы, проверит, скажет: «А, вон он чего…» — и сбросит уровень до дежурного, а значит, данный паттерн будет помечен впредь как неалертный, и по нему система алармировать больше не будет. А вот чем именно будет это «чего» — предмет для размышлений. Но уже не ужас-ужас и не паника-паника. Нормальная аналитическая задача: на какую безобидную, понятную и легко объяснимую активность будет больше всего похожа моя предполагаемая деятельность в контексте существования этого мира?
Для начала прикидываем, что именно добавится к обычной жизни? Нехарактерная потребительская активность — продукты в количестве больше обычного и другого набора, с уклоном в походный, дешёвая одежда в необычном количестве, инструменты, стройматериалы, какая-то простая мебель, посуда, предметы быта. Это раз. Необычная логистика со смещением её фокуса в гараж. Это два. Отсутствие в городе подолгу, одновременно с женой и дочкой, их пропуски работы и садика, снижение моей онлайн-доступности (это, кстати, отдельная большая проблема, я должен быть всегда на связи).
На что всё это похоже?