Что такое Data Science? Часть 2

Продолжение статьи «Что такое Data Science».

Откуда берутся данные?

Данные — повсюду. Это ваше правительство, веб-сервер, партнеры по бизнесу и даже ваше тело. Пока мы не утопаем в море данных, мы видим, что почти всё может быть (или уже) измерено. В O’Reilly мы часто объединяем данные Nielsen BookScan о наших продажах, публично доступные данные Amazon и даже данные по рынку труда, чтобы посмотреть что происходит с издательской индустрией. Такие сайты как Infochimps и Factual предоставляют доступ к большому количеству огромных наборов данных, включая климатические данные, потоки активности MySpace и исторические сводки спортивных мероприятий. Factual вовлекает пользователей в обновление и улучшение своих наборов данных, которые охватывают всевозможные темы, отличающиеся друг от друга, порой, как эндокринологи от туристических маршрутов.

Большая часть данных, с которыми мы работаем в настоящее время, является прямым следствием пришествия Web 2.0 и закона Мура в применении к данным. Люди проводят много времени в интернете, оставляя за собой след из данных, что бы они ни делали. Мобильные приложения оставляют еще более полный след из данных, поскольку многие из них используют геолокацию или включают в себя видео или аудио, из которых тоже можно извлечь данные. Кассовые аппараты в использовании с картами постоянного покупателя дают возможность фиксировать вообще все ваши покупки, а не только те, что совершаются онлайн. Все эти данные были бы бесполезны, если бы мы не смогли их хранить, и именно здесь вступает в силу закон Мура. С начала 80-х годов частота процессора возросла в 360 раз – с 10МГц до 3.6ГГц (не считая увеличения длины слова и количества ядер). Но объемы памяти выросли еще более существенно на каждом уровне. Цена на RAM снизилась в 40 000 раз – с 1 000 долларов за Мб до 25 долларов за Гб, не говоря уже об уменьшении размера и увеличении скорости. Первые гигабайтные дисковые накопители, которые Hitachi производила в 1982 году, весили примерно 250 фунтов (без малого 114 килограммов – прим.ред.), а сегодня терабайтный накопитель – это бытовая электроника. Карта microSD объемом 32Гб весит около 0,5 граммов. Как бы вы не считали – в битах на грамм, битах на доллар или просто по объему, хранение развивалось не менее быстро, чем увеличивалась тактовая частота процессора.

Объяснить влияние закона Мура применительно к данным не слишком сложно. Данные расширяются до тех пор, пока не заполнят все выделенное для них пространство. Чем больший объем памяти вам доступен, тем больше данных найдется, чтобы его занять. След из данных, который вы оставляете когда гуляете по интернету, френдите кого-то на Facebook или совершаете покупку в супермаркете, аккуратно собирают и анализируют. Увеличение объема памяти требует более нетривиальных методов анализа и использования данных. В этом и есть основа data science.

Но как же нам сделать все эти данные пригодными для использования? Первый шаг любого проекта по анализу данных – перевод данных в нужное для использования состояние. Все больше и больше информации сейчас хранят в форматах, пригодных к немедленному потреблению. Atom, веб-сервисы, микроформаты и другие новые технологие предоставляют данные в виде, пригодном для прямого потребления машинами. Но старая добрая обработка текстов на естественном языке не умерла и не умрет. Многие источники необработанных данных чрезвычайно «загрязнены». Это отнюдь не удобные для анализа XML-файлы с правильно расположенными метаданными. Данные о заложенном имуществе, которые использовались в «Data Mashups in R» (см. первую часть – прим. ред.), были размещены на публично доступном сайте начальником полиции округа Филадельфия. Это был HTML-файл, который, вероятнее всего, автоматически сгенерировали из таблицы. Если вы когда-нибудь видели сгенерированный при помощи Excel HTML-код, вы уже понимаете, насколько увлекательной могла быть его обработка.

Приведение данных к нужному состоянию может включать в себя очистку «грязного» HTML-файла при помощи таких инструментов как Beautiful Soap, машинную обработка текстов на естественных языках (не только на английском) или даже найм людей для выполнения самой грязной работы. Вы наверняка пробовали работать с несколькими источниками данных, каждый из которых представлен в разной форме. Было бы здорово, если бы существовал стандартный набор инструментов для такой работы, но его нет. На этапе приведения данных к нужному виду вы должны быть готовы ко всему, в том числе к использованию любых инструментов, начиная от древних утилит Unix, таких как awk, и заканчивая XML-парсерами и библиотеками машинного обучения (Machine Learning). И, само собой, скриптовых языков программирования, Perl и Python.

После того как вы разобрались с форматированием данных, можно задуматься об их качестве. Данные часто будут неполными или противоречивыми. Можно ли просто проигнорировать недостающие значения? Не всегда. Если данные противоречивы, решите ли вы, что с ними что-то не так (в конце концов, бывают сбои измерительного оборудования), или попробуете разобраться, не рассказывают ли эти данные свою историю, которая окажется еще более интересной? Известно, что мы узнали бы об истощении озонового слоя раньше, если бы автоматизированные средства сбора данных не отбрасывали слишком низкие показания автоматически, принимая их за ошибки измерений. В data science вы часто вынуждены работать только с тем, что имеете. Обычно невозможно обнаружить «лучшие» данные, поэтому у вас просто нет альтернатив.

Когда дело касается человеческого языка, у проблемы распознавания данных появляется новое измерение. Роджер Магулас (Roger Magoulas), руководитель группы анализа данных в O’Reilly, недавно искал в базе данных вакансии компании Apple, включащие умение работы с геолокацией. Хоть задача и выглядит простой, сложность была в том, чтобы «выудить» вакансии Apple из огромного количества вакансий в растущей вокруг Apple индустрии. Чтобы это сделать, необходимо понимать грамматическую структуру публикуемых объявлений и уметь анализировать английский язык. Такая проблема возникает все чаще и чаще. Попробуйте воспользоваться Google Trends, чтобы понять, что происходит с базой данных Cassandra или языком программирования Python, и вы поймете, в чем здесь дело. Google ведь за все время своей работы проиндексировал очень, очень много страниц о больших змеях. Устранение неоднозначности никогда не было легкой задачей, но такие инструменты как библиотека Natural Language Toolkit могут ее облегчить.

Когда естественный язык не удается обработать автоматически, искусственный интеллект можно заменить человеческим. Здесь на помощь приходят такие сервисы как Mechanical Turk от Amazon. Если вы можете разделить свою задачу на много подзадач, и доступно их объяснить, то можете воспользоваться этим рынком дешевой рабочей силы. Например, вы ищите вакансии компании Apple. Реальные люди могут выполнить эту работу, обработав каждую вакансию примерно за 1 цент. Если вы уже сократили количество вариантов до 10000 вакансий со словом «Apple», то их классификация, выполненная людьми вручную, будет стоить всего 100 долларов.

Продолжение статьи

Оригинал: What is Data Science

Перевод: Светлана Фаткуллина

Что такое Data Science? Часть 1

Будущее — за компаниями и людьми, преобразующими данные в продукты.

Мы все это уже слышали: по версии Хэла Вэриана (Hal Varian), статистика — это следующая sexy job. Пять лет назад, в What is Web 2.0, Tim O’Reilly сказал: «Данные — это следующий Intel Inside». Но что означает это утверждение? Почему мы вдруг озаботились статистикой и данными?

В данной статье я рассматриваю несколько аспектов data science: технологии, компании и уникальные возможности.

Интернет полон приложений, в основе которых лежат данные. В основе почти каждого приложения из области e-commerce лежат данные: за их пользовательским веб-интерфейсом стоят базы данных, а также связующие подсистемы, которые обращаются к другим базам данных и сервисам данных (компаниям, занимающимся процессингом кредитных карт, банкам и т.п.). Но одно только использование данных — это не совсем то, что мы подразумеваем под «data science». Настоящие data-приложения выручают пользу из данных, и создают на их основе другие данные как результат своей работы. Это не просто приложение с данными — это data-продукт. Data science дает возможность создавать data-продукты.

Одним из первых data-продуктов в интернете была база данных CDDB. Разработчики CDDB осознали, что любой компакт-диск обладает уникальной подписью, состоящей из точной длины каждого трека на CD. Gracenote создала базу данных продолжительностей треков и соединила ее c базой данных метаданных альбомов (названия треков, имена исполнителей, названия альбомов). Если вы когда-либо использовали iTunes для сохранения музыки с CD, вы пользовались CDDB. Прежде всего, iTunes распознает длину каждого трека, отправляет ее в CDDB и получает в ответ название трека. Если CD отсутствует в базе данных (это относится и к созданным вами CD), вы можете добавить неизвестный альбом в базу данных. Звучит достаточно просто, но на самом деле это была революция: CDDB видит музыку как данные, а не как аудио, и создает тем самым новую ценность. Этот бизнес не имеет ничего общего с продажей музыки, обменом музыкой или анализом музыкальных предпочтений (при том, что они тоже могут являться data-продуктами). CDDB рассматривает музыку исключительно как данные.

Google — настоящие профессионалы в создании data-продуктов. И вот несколько примеров.

  • Прорывом Google было осознание того, что поисковый механизм может использовать в своей работе не только текст на странице. PageRank, разработанный Google алгоритм, одним из первых начал использовать какие-то данные кроме самой страницы — в частности, подсчитывать количество ссылок, ведущих на эту страницу. Отслеживание ссылок сделало результаты поиска Google более релевантными и PageRank стал ключевым фактором успеха компании.
  • Проверка орфографии — не такая уж трудная задача, но Google сделал ее гораздо более точной, предлагая пользователю варианты исправления орфографических ошибок и анализируя варианты, выбранные пользователем. В Google создали словарь наиболее часто встречающихся ошибок, их исправлений и контекстов, в которых они применяются.
  • Распознавание речи было и остается большой проблемой. Но Google сделала огромный шаг в сторону ее решения, использовав собранные ранее голосовые данные. Они смогли интегрировать голосовой поиск в ядро своей поисковой системы.
  • Во время эпидемии свиного гриппа в 2009 году Google имела возможность отслеживать ход развития эпидемии, используя поиск по относящимся к этой теме материалам.

Но не только Google знает как использовать данные. Facebook и LinkedIn анализируют дружественные связи, чтобы порекомендовать людей, которых вы можете или должны знать. Точность таких рекомендаций иногда пугает. Amazon сохраняет ваши поисковые запросы, сопоставляет их с запросами других пользователей, и использует полученные данные, чтобы давать удивительно подходящие рекомендации. Рекомендации — это data-продукт, помогающий Amazon управлять более традиционным бизнесом — розничной торговлей. Amazon понимает, что книга — это не просто книга, камера — не просто камера, а клиент — не просто клиент. Клиент генерирует «выхлоп данных», который можно исследовать и использовать, а камера — это облако данных, которые могут быть сопоставлены с поведением клиента и с данными, полученными после каждого посещения сайта.

Все вышеназванные приложения связывает одно: полученные от пользователей данные создают дополнительную ценность. Независимо от того, являются ли данные поисковыми запросами, образцами голоса или обзорами продуктов, пользователи находятся в петле обратной связи, где они воздействуют на используемый продукт. Это и есть начало data science.

В последние несколько лет мы получили доступ к огромному количеству данных. Говорим ли мы о логах веб-серверов, онлайн-транзакциях, «citizen science», данных с датчиков, правительственных данных или о данных из каких-либо других источников, проблема заключается не в поиске данных, а в том, как их использовать. Причем, компании могут использовать не только свои собственные данные или данные, предоставленные их клиентами. Все более и более популярным становится смешивание данных из самых разных источников. В «Data Mashups in R» приводится пример анализа заложенного имущества в округе Филадельфия с помощью публичных отчетов шерифа округа: Yahoo преобразует адреса в ширину и долготу, затем они размещаются на карте (еще одном источнике данных), после чего группируются по району, стоимости, доходу на душу населения в районе и другим социально-экономическим факторам.

Вопрос, стоящий сегодня перед каждой компанией, каждым стартапом, некоммерческой организацией, каждым сайтом проекта, который хочет собрать сообщество: как эффективно использовать не только свои собственные, но и все доступные актуальные данные? Эффективное использование данных требует подхода, отличного от традиционной статистики, где специалисты в деловых костюмах проводят загадочные, но строго определенные виды анализов. Отличие data science от статистики в том, что data science подразумевает целостный подход. Мы все чаще находим данные в необработанном виде, и специалисты по data science преобразуют их в поддающуюся обработке форму, заставляют их передавать смысл и рассказывают об этом смысле остальным.

Чтобы иметь представление о требуемых для этого навыках, взглянем на жизненный цикл данных: откуда они берутся, как мы их используем и что из этого получается.

Продолжение статьи

Оригинал: What is Data Science

Перевод: Светлана Фаткуллина