Что такое Data Science? Часть 5

Продолжение статьи «Что такое Data Science».

Data scientists — ученые в области Data Science

Data Science требует навыков в самых разных областях, начиная от традиционной информатики (computer science), заканчивая математикой и искусством. Джеф Хаммербахер (Jeff Hammerbacher), описывая группу ученых в области data science, которую он собрал в Facebook (возможно, первую data science-группу в ориентированной на потребителя веб-компании), сказал:

«… в отдельно взятый рабочий день член нашей команды может заняться созданием многошагового процесса обработки данных на Python, провести тестирование гипотез, выполнить регрессионный анализ образцов данных при помощи R, разработать и реализовать алгоритм для продукта или сервиса с большим объемом данных в Hadoop или сообщить результаты нашего анализа другим членам организации»

Где найти таких разносторонних людей? По словам Диджея Патила (DJ Patil), главного ученого в LinkedIn (@dpatil), лучшими data scientists, как правило, оказываются серьезные ученые — в особенности, скорее, физики, чем специалисты в computer science. Физики имеют сильную математическую подготовку, вычислительные навыки и происходят из дисциплины, в которой выживание зависит от умения получать максимальную отдачу от данных. Они должны думать о большой картине, большой проблеме. Когда вы только что потратили большýю часть грантовых денег чтобы получить данные, вы не можете просто выбросить эти данные из-за того, что они не такие чистые как вам хотелось бы. Вы должны заставить их рассказывать историю. Вам нужно обладать творческими навыками на тот случай, если история, которую рассказывают данные, получилась не такой, какую видите в данных лично вы.

Ученые также знают как разделить большие проблемы на более мелкие. Патил описал процесс создания функции рекомендации групп в LinkedIn. Было бы легко превратить это в грандиозный процесс, который отнял бы тысячи часов у разработчиков, а также тысячи часов вычисления, чтобы создать корреляционный массив из пользователей LinkedIn. Но процесс работал совершенно иначе: началось все с относительно небольшой простой программы, которая просматривала отдельный профиль пользователя и давала соответствующие рекомендации. Вы учились в университете Cornell? Тогда вы, возможно, хотите присоединиться к группе выпускников Cornell. Затем происходило постепенное разветвление. В дополнение к просмотру профилей, ученые в области Data Science из LinkedIn начали просматривать события, которые посетил пользователь. Затем книги, которые он добавил в свою библиотеку. Результатом был ценный продукт (data product), который анализировал огромную базу данных, хотя он никогда и не задумывался как таковой. Он был начат с малого и постепенно обретал новую ценность. Это был подвижный, гибкий процесс , постепенно достигающий своей цели, а не попытка взобраться на огромную гору данных сразу.

Это и есть сердце того, что Патил называет data jiujitsu — использование меньших вспомогательных задач для решения большой и сложой проблемы, которая кажется неразрешимой. CDDB — прекрасный пример data jiujitsu: распознавание музыки при помощи анализа звукового потока напрямую — достаточно сложная задача (хотя и разрешимая — см. midori). Но персонал CDDB использовал данные творчески, чтобы решить гораздо менее сложную задачу, которая дала тот же результат. Вычисление слепка трека на основе его продолжительности, и затем поиск слепка в базе данных — это тривиально.

Предпринимательство — это другая часть головоломки. Первый небрежный ответ Patil на вопрос: «Какого человека вы ищите, когда нанимаете data scientist?», был: «Того, с кем можно начать бизнес». Это важное замечание: мы вступаем в эру продуктов, построенных на данных. Мы еще не знаем, что это за продукты, но мы знаем, что в победителях окажутся люди и компании, которые их создадут. Хилари Мэйсон (Hialry Mason) пришла к тому же выводу. Действительно, ее работа как ученого в Bit.ly — исследовать данные, генерируемые сайтом bit.ly, и находить способы создавать из них интересные продукты. Никто в зарождающейся индустрии данных не пытается создать 2012 Nissan Stanza или Office 2015 — все пытаются найти новые продукты. Они не только физики, математики, программисты и художники, они, конечно, и предприниматели.

Data scientists объединяют предпринимательство и терпение, готовность постепенно создавать data-продукты, способность исследовать и возможность подбирать решение. Они по сути междисциплинарны. Они могут справиться со всеми аспектами проблемы: от первоначального сбора данных и приведения их к нужному виду до вырисовывания выводов. Они могут мыслить нестандартно, чтобы придумать новые способы взгляда на проблему или работать с задачей, сформулированной в очень общих терминах: «Здесь очень много данных. Что вы можете из них сделать?»

Будущее — за компаниями, которые выяснят, как собирать и успешно использовать данные. Google, Amazon, Facebook, и LinkedIn — все проникли в потоки своих данных, и для всех них это стало основой успеха. Они были в авангарде. Но новые компании, такие как Bit.ly, следуют их путем. Будь то добыча вашей личной биологии, создание карт на основе опыта миллионов путешественников или изучение URL-адресов, передаваемых людьми друг другу, следующее поколение успешных бизнесов будет вращаться вокруг данных. Часть цитаты из речи Хэла Вэриана, которую никто не помнит, говорит именно об этом:

«Способность применять данные — способность понимать их, обрабатывать, извлекать из них ценность, визуализировать и соединять  станет очень важным навыком в следующие десятилетия.»

Данные — это действительно новый Intel Inside.

Оригинал: What is Data Science

Перевод: Светлана Фаткуллина