Автор текста: Валя Матвеева, Ася Саркисьян
Человечество всегда хранило и передавало данные. Сначала данных было не очень много и хранили их не очень удобно.
Фестсткий глиняный диск из минойской культуры с острова Крит. Раньше данные хранились примерно на таких носителях.

Термин Big Data или «большие данные» появился В 2008 году. Журнал Nature посвятил спецвыпуск взрывному росту объемов информации, употребив это словосочетание. Считается, что именно благодаря редактору этого издания Клиффорду Линчу понятие вошло в обиход.
Простыми словами, Big Data – это очень много информации, терабайты информации.
Чуть более корректно сказать, что:
Big Data – это инструменты и способы обработки большого количества структурированной и не очень информации.
Информация собирается в центры обработки информации – data-центры. Data-центр есть на фото ниже. Чем больше центр, тем больше возможности обработки данных. Чем больше data-ученых, анализирующих данные, тем больше возможностей у центра.

Задача Data-центров:
– обработка как можно бОльшего количества информации
– возможность быстрого анализа поступающих данных
– поиск неочевидных закономерностей внутри обезличенного потока данных.
Больше данных = больше анализа = больше идей
Big Data и яблочный пирог
Интересным кейсом, связанным с большими данными, поделился Кеннет Кукьер во время своего TED Talk. Пока магазины продавали пироги шириной в 30 см, абсолютным фаворитом был яблочный пирог. Но стоило начать продавать 11 сантиметровые пироги и яблочный пирог упал до 4-5 места в рейтинге предпочтений. Оказалось, что когда семья выбирает один пирог на всех, выбор очевиден, – яблочный пирог у всех на втором месте. Но если каждый может выбирать пирог сам по себе, все выбирают тот, что на первом месте.
Big Data – очень крутой инструмент, с помощью которого люди могут развиваться. Когда у вас больше данных, ты можешь делать более точный выбор. Дата помогает видеть не только больше, но и лучше, по-другому. Чтобы понять, что яблочный пирог – это не любимый пирог.
Кто придумал Big Data
Технически большие данные были всегда. Любая картотека или реестр — это разновидность больших данных.
Первые библиотеки Вавилона в 2000-х годах до н.э. – пример того, как люди впервые столкнулись с вопросом хранения и организации большого объема информации.
Ещё 10-20 тысяч лет назад прародители современного человека использовали кости для записи запасов, чтобы вести торговую активность, анализировать и прогнозировать нужды пропитания.

Постепенно информацию стали использовать для прогнозирования. В 1663 году ученый Джон Грант написал книгу «Естественные и политические наблюдения, основанные на данных о смертности». В книге он описал теорию, согласно которой с помощью данных смертности можно было предупреждать о начале эпидемии бубонной чумы. Неожиданно для него самого книга стала первой статистически обоснованной оценкой населения Лондона.

С ростом объемов информации появились сложности с ее обработкой и анализом. В 1880 году при переписи населения в Америке столкнулись с тем, что на подсчеты данных о населении может уйти больше 8 лет. На помощь пришел бизнесмен-изобретатель Герман Хóллерит. Он создал электромеханический табулятор для перфокарт – electromechanical tabulating machine for punched cards – с помощью которого, оперируя перфокартами, можно было обработать нужный массив информации в 32 раза быстрее – всего за три месяца. Позже это изобретение купила компания IBM.
С тех пор информации становилось все больше. А вопросы хранения данных и скорости их обработки – все острее.
В чем ценность больших данных
Большие данные ценны темы, что вскрывают неочевидные закономерности. Знание этих закономерностей становится вашим конкурентным преимуществом.
Люди не склонны анализировать каждый свой шаг и могут просто не задумываться о том, что делают в повседневной жизни. Вы можете считать фантастику интереснее детективов, но по при этом купить пять романов подряд про сыщиков и не одного про бороздящие вселенную космические корабли.
Вспомните историю про яблочный пирог.
Конфиденциальность данных
Не переживайте, что большие данные – это про то, что будут знать все на свете конкретно про вас. Ученые департамента Big Data работают только с агрегированными, деперсонализированными данными. Мы имеем дело с обезличенными группами, а не отслеживаем поведение конкретных людей. За сохранность данных также отвечают DLP системы (от англ. Data Leak Prevention). Они запрещают передавать данные вовне.
Поэтому никто ни в каком виде не сможет отследить информацию о конкретном абоненте – узнать, чем, к примеру, интересовался Василий Пупкин. При этом легко создать обезличенный сегмент людей, которые интересуются покупкой недвижимости или планируют поездку в экзотическую страну. Или перемещаются в определенном месте в определенное время.
Зачем нужны большие данные
Большие данные в торговле:
Допустим, у вас несколько небольших магазинов. Если в течение года записывать информацию обо всех покупках, времени их совершения и даже о том, как выглядят покупатели, можно узнать много интересного.
Например, когда чаще всего покупают яблоки, а когда колбасу, какие товары предпочитает аудитория до 25 лет, а какие – люди старше 50. Собранные данные не дадут гарантии, что все будет происходить так, как вы спрогнозировали, но ответят на вопрос, как скорее всего будут развиваться события. И чем больше данных вы соберете, тем точнее будет прогноз.
Если вы соберете общую статистику по товарам, то поймете, какие товары популярны всегда, а какие – только в определенный сезон. К Новому году у вас в магазине появятся сладкие подарочные наборы для детей, которые будут иметь большой спрос. Зато в любое другое время будут неактуальны. С помощью больших данных можно выявить и менее очевидные закономерности, стимулирующие рост продаж.
Большие данные в HR:
Если вы соберете и проанализируете информацию о количестве покупок и времени их совершения, вы поймете, когда у прилавка выстраивается очередь, а когда магазин пуст. И сможете скорректировать рабочие графики сотрудников, чтобы в спокойное время использовать меньше касс, а в час-пик использовать дополнительные кассы.
Большие данные в медицине:
Собирайте информацию об исследованиях пациентов: их анализах, поведенческих характеристиках и методах лечения. Можно обрабатывать рецепты на препараты и понимать на основе всех данных особенности пациентов и эффективность их лечения и уведомлять врачей до того, как они спланируют лечение, которое, например, обернется зависимостью для пациента или будет неэффективным.
Большие данные в экономике:
Государство может прийти к операторам за данными по перемещениям населения, чтобы лучше спланировать остановки или транспортные развязки.
Большие данные в маркетинге:
Соберите информацию по интересам клиентов и предложите им подходящий товар по программе лояльности. Допустим, вы продаете книги в онлайн-магазине. Узнав, какие жанры предпочитает человек, вы можете предложить ему похожие книги и дать персональную скидку. Если клиент любит книги о саморазвитии, предложите ему подборку из 10 лучших книг о саморазвитии со скидкой 10%. Так вы сможете принести пользу клиенту, предложив ему то, что действительно нужно.
Приведем в пример внутренний опыт МТС. Лидер телеком рынка, крупный рекламодатель, подразделение маркетинга на 600 человек. В МТС много источников данных. Собственная Big Data в МТС появилась в 2014 году. В первую очередь ради инфраструктурных задач, чтобы понимать, где ставить вышки. Во вторую ради стратегических проектов, чтобы делать удобнее внутреннюю жизнь МТС. В случае с МТС экономическая эффективность от использования и анализа больших данные – 3,5 млрд. рублей за 3 года.
В итоге на возможностях Big Data МТС построили целый сервис умной таргетированной рекламы – МТС Маркетолог. Собственно, в блоге этого сервиса вы сейчас и находитесь.
В личном кабинете МТС Маркетолога можно определить целевую аудиторию по своим запросам, и нужный сегмент будет сформирован на основе больших данных.