Что такое Data Science? Часть 2

Продолжение статьи «Что такое Data Science».

Откуда берутся данные?

Данные — повсюду. Это ваше правительство, веб-сервер, партнеры по бизнесу и даже ваше тело. Пока мы не утопаем в море данных, мы видим, что почти всё может быть (или уже) измерено. В O’Reilly мы часто объединяем данные Nielsen BookScan о наших продажах, публично доступные данные Amazon и даже данные по рынку труда, чтобы посмотреть что происходит с издательской индустрией. Такие сайты как Infochimps и Factual предоставляют доступ к большому количеству огромных наборов данных, включая климатические данные, потоки активности MySpace и исторические сводки спортивных мероприятий. Factual вовлекает пользователей в обновление и улучшение своих наборов данных, которые охватывают всевозможные темы, отличающиеся друг от друга, порой, как эндокринологи от туристических маршрутов.

Большая часть данных, с которыми мы работаем в настоящее время, является прямым следствием пришествия Web 2.0 и закона Мура в применении к данным. Люди проводят много времени в интернете, оставляя за собой след из данных, что бы они ни делали. Мобильные приложения оставляют еще более полный след из данных, поскольку многие из них используют геолокацию или включают в себя видео или аудио, из которых тоже можно извлечь данные. Кассовые аппараты в использовании с картами постоянного покупателя дают возможность фиксировать вообще все ваши покупки, а не только те, что совершаются онлайн. Все эти данные были бы бесполезны, если бы мы не смогли их хранить, и именно здесь вступает в силу закон Мура. С начала 80-х годов частота процессора возросла в 360 раз – с 10МГц до 3.6ГГц (не считая увеличения длины слова и количества ядер). Но объемы памяти выросли еще более существенно на каждом уровне. Цена на RAM снизилась в 40 000 раз – с 1 000 долларов за Мб до 25 долларов за Гб, не говоря уже об уменьшении размера и увеличении скорости. Первые гигабайтные дисковые накопители, которые Hitachi производила в 1982 году, весили примерно 250 фунтов (без малого 114 килограммов – прим.ред.), а сегодня терабайтный накопитель – это бытовая электроника. Карта microSD объемом 32Гб весит около 0,5 граммов. Как бы вы не считали – в битах на грамм, битах на доллар или просто по объему, хранение развивалось не менее быстро, чем увеличивалась тактовая частота процессора.

Объяснить влияние закона Мура применительно к данным не слишком сложно. Данные расширяются до тех пор, пока не заполнят все выделенное для них пространство. Чем больший объем памяти вам доступен, тем больше данных найдется, чтобы его занять. След из данных, который вы оставляете когда гуляете по интернету, френдите кого-то на Facebook или совершаете покупку в супермаркете, аккуратно собирают и анализируют. Увеличение объема памяти требует более нетривиальных методов анализа и использования данных. В этом и есть основа data science.

Но как же нам сделать все эти данные пригодными для использования? Первый шаг любого проекта по анализу данных – перевод данных в нужное для использования состояние. Все больше и больше информации сейчас хранят в форматах, пригодных к немедленному потреблению. Atom, веб-сервисы, микроформаты и другие новые технологие предоставляют данные в виде, пригодном для прямого потребления машинами. Но старая добрая обработка текстов на естественном языке не умерла и не умрет. Многие источники необработанных данных чрезвычайно «загрязнены». Это отнюдь не удобные для анализа XML-файлы с правильно расположенными метаданными. Данные о заложенном имуществе, которые использовались в «Data Mashups in R» (см. первую часть – прим. ред.), были размещены на публично доступном сайте начальником полиции округа Филадельфия. Это был HTML-файл, который, вероятнее всего, автоматически сгенерировали из таблицы. Если вы когда-нибудь видели сгенерированный при помощи Excel HTML-код, вы уже понимаете, насколько увлекательной могла быть его обработка.

Приведение данных к нужному состоянию может включать в себя очистку «грязного» HTML-файла при помощи таких инструментов как Beautiful Soap, машинную обработка текстов на естественных языках (не только на английском) или даже найм людей для выполнения самой грязной работы. Вы наверняка пробовали работать с несколькими источниками данных, каждый из которых представлен в разной форме. Было бы здорово, если бы существовал стандартный набор инструментов для такой работы, но его нет. На этапе приведения данных к нужному виду вы должны быть готовы ко всему, в том числе к использованию любых инструментов, начиная от древних утилит Unix, таких как awk, и заканчивая XML-парсерами и библиотеками машинного обучения (Machine Learning). И, само собой, скриптовых языков программирования, Perl и Python.

После того как вы разобрались с форматированием данных, можно задуматься об их качестве. Данные часто будут неполными или противоречивыми. Можно ли просто проигнорировать недостающие значения? Не всегда. Если данные противоречивы, решите ли вы, что с ними что-то не так (в конце концов, бывают сбои измерительного оборудования), или попробуете разобраться, не рассказывают ли эти данные свою историю, которая окажется еще более интересной? Известно, что мы узнали бы об истощении озонового слоя раньше, если бы автоматизированные средства сбора данных не отбрасывали слишком низкие показания автоматически, принимая их за ошибки измерений. В data science вы часто вынуждены работать только с тем, что имеете. Обычно невозможно обнаружить «лучшие» данные, поэтому у вас просто нет альтернатив.

Когда дело касается человеческого языка, у проблемы распознавания данных появляется новое измерение. Роджер Магулас (Roger Magoulas), руководитель группы анализа данных в O’Reilly, недавно искал в базе данных вакансии компании Apple, включащие умение работы с геолокацией. Хоть задача и выглядит простой, сложность была в том, чтобы «выудить» вакансии Apple из огромного количества вакансий в растущей вокруг Apple индустрии. Чтобы это сделать, необходимо понимать грамматическую структуру публикуемых объявлений и уметь анализировать английский язык. Такая проблема возникает все чаще и чаще. Попробуйте воспользоваться Google Trends, чтобы понять, что происходит с базой данных Cassandra или языком программирования Python, и вы поймете, в чем здесь дело. Google ведь за все время своей работы проиндексировал очень, очень много страниц о больших змеях. Устранение неоднозначности никогда не было легкой задачей, но такие инструменты как библиотека Natural Language Toolkit могут ее облегчить.

Когда естественный язык не удается обработать автоматически, искусственный интеллект можно заменить человеческим. Здесь на помощь приходят такие сервисы как Mechanical Turk от Amazon. Если вы можете разделить свою задачу на много подзадач, и доступно их объяснить, то можете воспользоваться этим рынком дешевой рабочей силы. Например, вы ищите вакансии компании Apple. Реальные люди могут выполнить эту работу, обработав каждую вакансию примерно за 1 цент. Если вы уже сократили количество вариантов до 10000 вакансий со словом «Apple», то их классификация, выполненная людьми вручную, будет стоить всего 100 долларов.

Продолжение статьи

Оригинал: What is Data Science

Перевод: Светлана Фаткуллина

2 thoughts on “Что такое Data Science? Часть 2

  1. Pingback: Что такое Data Science? Часть 1 | InfoClod

  2. Pingback: Что такое Data Science? Часть 3 | InfoClod

Comments are closed.