Что такое Big Data: рассказываем о больших данных

Автор текста: Валя Матвеева, Ася Саркисьян

Человечество всегда хранило и передавало данные. Сначала данных было не очень много и хранили их не очень удобно.

4000 лет назад это данные выглядели так. Фото опубликовано на сайте en.wikipedia.org.

Фестсткий глиняный диск из минойской культуры с острова Крит. Раньше данные хранились примерно на таких носителях.

Сейчас данные хранятся вот так. Фото жесткого диска. Опубликовано на сайте ru.wikipedia.org

Термин Big Data или «большие данные» появился В 2008 году. Журнал Nature посвятил спецвыпуск взрывному росту объемов информации, употребив это словосочетание. Считается, что именно благодаря редактору этого издания Клиффорду Линчу понятие вошло в обиход.

Простыми словами, Big Data – это очень много информации, терабайты информации. 

Чуть более корректно сказать, что:

Big Data – это инструменты и способы обработки большого количества структурированной и не очень информации. 

Информация собирается в центры обработки информации – data-центры. Data-центр есть на фото ниже. Чем больше центр, тем больше возможности обработки данных. Чем больше data-ученых, анализирующих данные, тем больше возможностей у центра. 

Фото опубликовано на сайте iksmedia.ru

Задача Data-центров:

– обработка как можно бОльшего количества информации

– возможность быстрого анализа поступающих данных 

– поиск неочевидных закономерностей внутри обезличенного потока данных.

Больше данных = больше анализа = больше идей

Big Data и яблочный пирог

Интересным кейсом, связанным с большими данными, поделился Кеннет Кукьер во время своего TED Talk. Пока магазины продавали пироги шириной в 30 см, абсолютным фаворитом был яблочный пирог. Но стоило начать продавать 11 сантиметровые пироги и яблочный пирог упал до 4-5 места в рейтинге предпочтений. Оказалось, что когда семья выбирает один пирог на всех, выбор очевиден, – яблочный пирог у всех на втором месте. Но если каждый может выбирать пирог сам по себе, все выбирают тот, что на первом месте. 

Big Data – очень крутой инструмент, с помощью которого люди могут развиваться. Когда у вас больше данных, ты можешь делать более точный выбор. Дата помогает видеть не только больше, но и лучше, по-другому. Чтобы понять, что яблочный пирог – это не любимый пирог. 

Кто придумал Big Data

Технически большие данные были всегда. Любая картотека или реестр — это разновидность больших данных. 

Первые библиотеки Вавилона в 2000-х годах до н.э. – пример того, как люди впервые столкнулись с вопросом хранения и организации большого объема информации.

Ещё 10-20 тысяч лет назад прародители современного человека использовали кости для записи запасов, чтобы вести торговую активность, анализировать и прогнозировать нужды пропитания.

Фото опубликовано на сайте en.wikipedia.or

Постепенно информацию стали использовать для прогнозирования. В 1663 году ученый Джон Грант написал книгу «Естественные и политические наблюдения, основанные на данных о смертности». В книге он описал теорию, согласно которой с помощью данных смертности можно было предупреждать о начале эпидемии бубонной чумы. Неожиданно для него самого книга стала первой статистически обоснованной оценкой населения Лондона.

Фото опубликовано на сайте Scoopnest

С ростом объемов информации появились сложности с ее обработкой и анализом. В 1880 году при переписи населения в Америке столкнулись с тем, что на подсчеты данных о населении может уйти больше 8 лет. На помощь пришел бизнесмен-изобретатель Герман Хóллерит. Он создал электромеханический табулятор для перфокарт – electromechanical tabulating machine for punched cards – с помощью которого, оперируя перфокартами, можно было обработать нужный массив информации в 32 раза быстрее – всего за три месяца. Позже это изобретение купила компания IBM. 

С тех пор информации становилось все больше. А вопросы хранения данных и скорости их обработки – все острее. 

В чем ценность больших данных

Большие данные ценны темы, что вскрывают неочевидные закономерности. Знание этих закономерностей становится вашим конкурентным преимуществом.

Люди не склонны анализировать каждый свой шаг и могут просто не задумываться о том, что делают в повседневной жизни. Вы можете считать фантастику интереснее детективов, но по при этом купить пять романов подряд про сыщиков и не одного про бороздящие вселенную космические корабли. 

Вспомните историю про яблочный пирог.

Конфиденциальность данных

Не переживайте, что большие данные – это про то, что будут знать все на свете конкретно про вас. Ученые департамента Big Data работают только с агрегированными, деперсонализированными данными. Мы имеем дело с обезличенными группами, а не отслеживаем поведение конкретных людей. За сохранность данных также отвечают DLP системы (от англ. Data Leak Prevention). Они  запрещают передавать данные вовне. 

Поэтому никто ни в каком виде не сможет отследить информацию о конкретном абоненте – узнать, чем, к примеру, интересовался Василий Пупкин. При этом легко создать обезличенный сегмент людей, которые интересуются покупкой недвижимости или планируют поездку в экзотическую страну. Или перемещаются в определенном месте в определенное время.

Зачем нужны большие данные

Большие данные в торговле:

Допустим, у вас несколько небольших магазинов. Если в течение года записывать информацию обо всех покупках, времени их совершения и даже о том, как выглядят покупатели, можно узнать много интересного.

Например, когда чаще всего покупают яблоки, а когда колбасу, какие товары предпочитает аудитория до 25 лет, а какие – люди старше 50. Собранные данные не дадут гарантии, что все будет происходить так, как вы спрогнозировали, но ответят на вопрос, как скорее всего будут развиваться события. И чем больше данных вы соберете, тем точнее будет прогноз.

Если вы соберете общую статистику по товарам, то поймете, какие товары популярны всегда, а какие – только в определенный сезон. К Новому году у вас в магазине появятся сладкие подарочные наборы для детей, которые будут иметь большой спрос. Зато в любое другое время будут неактуальны. С помощью больших данных  можно выявить и менее очевидные закономерности, стимулирующие рост продаж.

Большие данные в HR:

Если вы соберете и проанализируете информацию о количестве покупок и времени их совершения, вы поймете, когда у прилавка выстраивается очередь, а когда магазин пуст. И сможете скорректировать рабочие графики сотрудников, чтобы в спокойное время использовать меньше касс, а в час-пик использовать дополнительные кассы. 

Большие данные в медицине: 

Собирайте информацию об исследованиях пациентов: их анализах, поведенческих характеристиках и методах лечения. Можно обрабатывать рецепты на препараты и понимать на основе всех данных особенности пациентов и эффективность их лечения и уведомлять врачей до того, как они спланируют лечение, которое, например, обернется зависимостью для пациента или будет неэффективным.

Большие данные в экономике: 

Государство может прийти к операторам за данными по перемещениям населения, чтобы лучше спланировать остановки или транспортные развязки.

Большие данные в маркетинге:

Соберите информацию по интересам клиентов и предложите им подходящий товар по программе лояльности. Допустим, вы продаете книги в онлайн-магазине. Узнав, какие жанры предпочитает человек, вы можете предложить ему похожие книги и дать персональную скидку. Если клиент любит книги о саморазвитии, предложите ему подборку из 10 лучших книг о саморазвитии со скидкой 10%. Так вы сможете принести пользу клиенту, предложив ему то, что действительно нужно. 

Приведем в пример внутренний опыт МТС. Лидер телеком рынка, крупный рекламодатель, подразделение маркетинга на 600 человек. В МТС много источников данных. Собственная Big Data в МТС появилась в 2014 году. В первую очередь ради инфраструктурных задач, чтобы понимать, где ставить вышки. Во вторую ради стратегических проектов, чтобы делать удобнее внутреннюю жизнь МТС. В случае с МТС экономическая эффективность от использования и анализа больших данные – 3,5 млрд. рублей за 3 года.

В итоге на возможностях Big Data МТС построили целый сервис умной таргетированной рекламы – МТС Маркетолог. Собственно, в блоге этого сервиса вы сейчас и находитесь. 

В личном кабинете МТС Маркетолог можно определить целевую аудиторию по своим запросам и нужный сегмент будет сформирован на основе больших данных.

МТС МаркетологТаргетированные SMS-рассылки,
реклама в соцсетях, баннеры,
CPA-реклама и programmatic
О сервисеТаргетированные SMSSMS по своей базе PROТаргетированный обзвонБаннерная рекламаРеклама в соцсетяхProgrammatic-рекламаCPA-рекламаИсследованияRCSБлогСправкаКонтактыРаскрытие информацииДокументы ПАО «МТС»Политика обработки cookiesКомплаенс и деловая этика