Что такое Data Science? Часть 1

Будущее — за компаниями и людьми, преобразующими данные в продукты.

Мы все это уже слышали: по версии Хэла Вэриана (Hal Varian), статистика — это следующая sexy job. Пять лет назад, в What is Web 2.0, Tim O’Reilly сказал: «Данные — это следующий Intel Inside». Но что означает это утверждение? Почему мы вдруг озаботились статистикой и данными?

В данной статье я рассматриваю несколько аспектов data science: технологии, компании и уникальные возможности.

Интернет полон приложений, в основе которых лежат данные. В основе почти каждого приложения из области e-commerce лежат данные: за их пользовательским веб-интерфейсом стоят базы данных, а также связующие подсистемы, которые обращаются к другим базам данных и сервисам данных (компаниям, занимающимся процессингом кредитных карт, банкам и т.п.). Но одно только использование данных — это не совсем то, что мы подразумеваем под «data science». Настоящие data-приложения выручают пользу из данных, и создают на их основе другие данные как результат своей работы. Это не просто приложение с данными — это data-продукт. Data science дает возможность создавать data-продукты.

Одним из первых data-продуктов в интернете была база данных CDDB. Разработчики CDDB осознали, что любой компакт-диск обладает уникальной подписью, состоящей из точной длины каждого трека на CD. Gracenote создала базу данных продолжительностей треков и соединила ее c базой данных метаданных альбомов (названия треков, имена исполнителей, названия альбомов). Если вы когда-либо использовали iTunes для сохранения музыки с CD, вы пользовались CDDB. Прежде всего, iTunes распознает длину каждого трека, отправляет ее в CDDB и получает в ответ название трека. Если CD отсутствует в базе данных (это относится и к созданным вами CD), вы можете добавить неизвестный альбом в базу данных. Звучит достаточно просто, но на самом деле это была революция: CDDB видит музыку как данные, а не как аудио, и создает тем самым новую ценность. Этот бизнес не имеет ничего общего с продажей музыки, обменом музыкой или анализом музыкальных предпочтений (при том, что они тоже могут являться data-продуктами). CDDB рассматривает музыку исключительно как данные.

Google — настоящие профессионалы в создании data-продуктов. И вот несколько примеров.

  • Прорывом Google было осознание того, что поисковый механизм может использовать в своей работе не только текст на странице. PageRank, разработанный Google алгоритм, одним из первых начал использовать какие-то данные кроме самой страницы — в частности, подсчитывать количество ссылок, ведущих на эту страницу. Отслеживание ссылок сделало результаты поиска Google более релевантными и PageRank стал ключевым фактором успеха компании.
  • Проверка орфографии — не такая уж трудная задача, но Google сделал ее гораздо более точной, предлагая пользователю варианты исправления орфографических ошибок и анализируя варианты, выбранные пользователем. В Google создали словарь наиболее часто встречающихся ошибок, их исправлений и контекстов, в которых они применяются.
  • Распознавание речи было и остается большой проблемой. Но Google сделала огромный шаг в сторону ее решения, использовав собранные ранее голосовые данные. Они смогли интегрировать голосовой поиск в ядро своей поисковой системы.
  • Во время эпидемии свиного гриппа в 2009 году Google имела возможность отслеживать ход развития эпидемии, используя поиск по относящимся к этой теме материалам.

Но не только Google знает как использовать данные. Facebook и LinkedIn анализируют дружественные связи, чтобы порекомендовать людей, которых вы можете или должны знать. Точность таких рекомендаций иногда пугает. Amazon сохраняет ваши поисковые запросы, сопоставляет их с запросами других пользователей, и использует полученные данные, чтобы давать удивительно подходящие рекомендации. Рекомендации — это data-продукт, помогающий Amazon управлять более традиционным бизнесом — розничной торговлей. Amazon понимает, что книга — это не просто книга, камера — не просто камера, а клиент — не просто клиент. Клиент генерирует «выхлоп данных», который можно исследовать и использовать, а камера — это облако данных, которые могут быть сопоставлены с поведением клиента и с данными, полученными после каждого посещения сайта.

Все вышеназванные приложения связывает одно: полученные от пользователей данные создают дополнительную ценность. Независимо от того, являются ли данные поисковыми запросами, образцами голоса или обзорами продуктов, пользователи находятся в петле обратной связи, где они воздействуют на используемый продукт. Это и есть начало data science.

В последние несколько лет мы получили доступ к огромному количеству данных. Говорим ли мы о логах веб-серверов, онлайн-транзакциях, «citizen science», данных с датчиков, правительственных данных или о данных из каких-либо других источников, проблема заключается не в поиске данных, а в том, как их использовать. Причем, компании могут использовать не только свои собственные данные или данные, предоставленные их клиентами. Все более и более популярным становится смешивание данных из самых разных источников. В «Data Mashups in R» приводится пример анализа заложенного имущества в округе Филадельфия с помощью публичных отчетов шерифа округа: Yahoo преобразует адреса в ширину и долготу, затем они размещаются на карте (еще одном источнике данных), после чего группируются по району, стоимости, доходу на душу населения в районе и другим социально-экономическим факторам.

Вопрос, стоящий сегодня перед каждой компанией, каждым стартапом, некоммерческой организацией, каждым сайтом проекта, который хочет собрать сообщество: как эффективно использовать не только свои собственные, но и все доступные актуальные данные? Эффективное использование данных требует подхода, отличного от традиционной статистики, где специалисты в деловых костюмах проводят загадочные, но строго определенные виды анализов. Отличие data science от статистики в том, что data science подразумевает целостный подход. Мы все чаще находим данные в необработанном виде, и специалисты по data science преобразуют их в поддающуюся обработке форму, заставляют их передавать смысл и рассказывают об этом смысле остальным.

Чтобы иметь представление о требуемых для этого навыках, взглянем на жизненный цикл данных: откуда они берутся, как мы их используем и что из этого получается.

Продолжение статьи

Оригинал: What is Data Science

Перевод: Светлана Фаткуллина

One thought on “Что такое Data Science? Часть 1

  1. Pingback: Что такое Data Science? Часть 2 | InfoClod

Comments are closed.