Секрет «Карточного домика»: как большие данные помогают создавать успешные проекты

01 июня 2019, 22:24

Что общего у аналитика данных и Шерлока Холмса? Как у Netflix получилось создать стопроцентный хит — сериал «Карточный домик»? Ответ кроется в правильном использовании данных, уверен автор книги «Работа с данными в любой сфере» Кирилл Еременко. Книга рассказывает, почему большие данные сегодня полезны всем — независимо от того, хотите ли вы использовать их в своей профессии, собираетесь стать аналитиком данных или уже работаете в этой области. В публикуемом отрывке речь идет о том, когда и почему большие данные стали такой важной частью нашей повседневной жизни, как крупные корпорации изучают предпочтения аудитории с помощью big data и как экстраполировать их опыт на собственные бизнес и карьеру. Почему такая суета вокруг больших данных? Может показаться странным, что мы только начали понимать, насколько значимыми могут быть данные. Но когда мы в прошлом собирали данные, единственное, что мешало нам превратить их во что-то полезное, было отсутствие технологий. [...] С изобретением компьютера появилась возможность автоматизации процесса хранения и обработки данных. Но большие массивы данных увязли в первых машинах; ученым, работавшим с электронными массивами данных в 1950-х гг., приходилось ждать решения простой задачи несколько часов. Вскоре пришли к выводу, что для правильной обработки больших массивов данных — для установления связей между элементами и использования этих связей с целью получения точных и значимых прогнозов — нужно создавать информационные носители, которые могли бы управлять данными и справляться с их хранением. Разумеется, по мере совершенствования технологий, основанных на вычислениях, менялись и возможности компьютеров по хранению и обработке данных. И за последние 70 лет мы не только научились эффективно хранить информацию, но и смогли сделать эту информацию переносимой. Те же самые данные, которые в 1970-х гг. помещались только на 177 778 гибких дисках, к 2000-му могли поместиться на одном флеш-накопителе. Сегодня вы можете хранить все это и многое другое в облаке (хранилище с виртуализированной инфраструктурой, которая позволяет просматривать ваши личные файлы из любой точки мира). Когда вы в следующий раз обратитесь к личным документам, хранящимся в местной библиотеке, у вас на работе или просто в вашем мобильном устройстве, имейте в виду: вы фактически делаете то, что в 1970-х гг. потребовало бы использования более 100 000 дискет. Эффект Одри Хепберн Когда новые технологии облегчили хранение данных, исследователи начали обращать внимание на то, как эти сохраненные данные могут быть использованы на практике. Некоторые из киностудий Голливуда еще в 1950-х гг. собирали данные о том, что конкретно — от актера до режиссера и жанра — хотела увидеть их аудитория, а потом преобразовывали эту информацию в демографические характеристики респондентов, включавшие в себя возраст, местожительство и пол. Почему RKO Pictures, одна из голливудских студий «Большой пятерки» в 1950-х гг., продолжала снимать Кэтрин Хепберн в своих фильмах? Потому что данные показывали, что это был беспроигрышный выбор, способный привлечь внимание людей и в конечном итоге заставить их пойти в кинотеатры. Конечно, есть место и для интуиции. На первом кастинге режиссер Джордж Кьюкор нашел актрису странной, но также признал, что «она обладала огромным чувством, которое проявлялось даже в том, как она брала стакан. Я подумал, что она очень талантлива…» (Fowles, 1992). Вот пример интуиции. Опираясь на данные о положительном восприятии Хепберн зрительской аудиторией, RKO позже смогла воспользоваться и интуитивными предположениями Кьюкора относительно таланта актрисы и превратить их в надежные прогнозы о том, что студия сможет и дальше зарабатывать свои миллионы. Это произошло благодаря Джорджу Гэллапу, который был статистиком, впервые ставшим известным публике, когда разработал метод, с помощью которого он точно предсказал переизбрание Франклина Д. Рузвельта в 1936 г. Он же рассказал руководителям Голливуда о возможности использовать данные для принятия решений и прогнозирования, включая подбор актеров на главные роли и определение того, в какой жанр наиболее целесообразно вкладывать деньги. Чтобы помочь RKO сделать это, Гэллап собрал, объединил и проанализировал качественные и количественные данные, которые охватывали демографическую информацию о зрительской аудитории RKO и ее мнение о фильмах, выпускаемых киностудией. Собирая эти данные, Гэллап создал модель, которая в первый раз сегментировала аудиторию кинозрителей демографически, выделив тех, кто благоприятно реагировал на определенные жанры, — модель, которая может и будет использоваться в дальнейшем для выборки и анализа данных. Кейс Netflix Сериал «Карточный домик», выпущенный развлекательной компанией Netflix, впервые доказал индустрии, насколько сильны могут быть данные не только в том, что касается охвата нужной аудитории определенными разновидностями контента, но и в управлении фактическим производством контента. Сериал — политическая драма — выпуска 2013 г. был первой проверкой того, как данные могут быть применены в производстве хитов. В преддверии создания «Карточного домика» Netflix собирала данные о своих пользователях. Полученные сведения о зрительских привычках позволили Netflix группировать свой видеоконтент в разнообразные и даже удивительные категории. Интерфейс скрывал от пользователей эти категории, но тем не менее они были использованы компанией, чтобы представить нужный фильм нужной аудитории. Netflix оказалась права, высоко оценив возможности данных: сериал «Карточный домик» был отмечен наградами и получил высокие оценки критиков. Поэтому неудивительно, что многие конкуренты Netflix попытались скопировать эту выигрышную модель. Хейделин де Понтевес, предприниматель в области данных и мой бизнес-партнер, работал на конкурента Netflix в целях создания подобной системы. Хейделин понимал, что для достижения этой цели потребуется сложная система, способная проникнуть в головы пользователей и понять их предпочтения лучше, чем те сами понимали это. Он достиг цели, извлекая все имевшиеся у компании данные по клиентам и применяя правильное сочетание моделей, чтобы найти связи между зрительскими привычками. Помните, что этот подход почти такой же, как был у Джорджа Гэллапа многие годы назад; благодаря доступным технологиями воображению аналитика данных мы теперь можем получить доступ к данным гораздо более хитроумным (и автоматизированным) способом. Как применить большие данные в карьере Многие уже в курсе того, что технологии в будущем могут существенно повлиять на рабочие места. Если вы чувствуете себя достаточно смелым, введите в поисковую строку Google «технологическое воздействие на рабочие места» / «technological impact on jobs» — и вы увидите, что несметное количество статей посвящено вероятности автоматизации в сфере вашей деятельности. К 2020 г. прогнозируется, что число новых вакансий в области анализа и обработки данных увеличится на 364 000 только в США (Burning Glass Technologies и IBM, 2017). Я упоминаю эту цифру, чтобы подчеркнуть: работа в области науки о данных и впредь будет чрезвычайно востребована. Если мы вспомним Airbnb, у которой есть свои собственные университеты для обучения анализу и обработке данных (Mannes, 2017), или уволенных за ненадобностью американских шахтеров, самостоятельно обучающихся программированию (Rosenblum, 2017), то нам станет очевидно, что огромное количество занимающихся технологиями (и не только) организаций сталкивается с отсутствием подходящих кандидатов на рынке. И в эпоху, когда так много рабочих мест рискуют быть ликвидированы в течение 20 лет, наука о данных должна представлять интерес для всех, кто хочет обеспечить себя гарантированной и интересной работой. [...] Есть несколько карьерных троп в области науки о данных. [...] Давайте рассмотрим, какого рода должности могут ожидать вас. • Бизнес-аналитик. Такой специалист использует методы бизнес-аналитики для преобразования результатов анализа данных в графики, выводы и рекомендации. Ему всегда будут необходимы сильные презентационные навыки. • Аналитик данных (подготовка данных). Глава 5 показала нам, что подготовка данных является одной из самых длительных стадий процесса обработки и анализа данных, поэтому выделение этой специальности в качестве самостоятельной не должно вызывать удивления. Это позиция начального уровня, она предполагает выполнение таких задач, как очистка и структурирование данных при подготовке к анализу. • Аналитик данных (моделирование) отвечает за разработку систем и моделей, которые могут быть применены к базам данных компании. Хотя подготовка данных не всегда может входить в обязанности соответствующего сотрудника (иногда этим этапом занимается аналитик по подготовке данных), по-прежнему очень важно иметь навыки в этой области. • Специалист по данным /расширенной аналитике /практик машинного обучения /старший научный сотрудник по данным. Для меня это специалист в области «реальной науки о данных». Профессионал, который подходит для этой работы, должен знать процесс анализа и обработки данных как свои пять пальцев, проявлять инициативу, быть ориентированным на данные, творческий подход и разбираться в программировании и анализе. Для большинства должностей также могут потребоваться навыки визуализации и презентации. • Менеджер по анализу и обработке данных. Это организационная должность, и поэтому не все будут считать ее значимой для развития карьеры — некоторые захотят остаться аналитиками данных. Менеджер по аналитике общается с клиентами и/или возглавляет команду, обеспечивая выделение нужных ресурсов и людей для проектов.