Что такое Data Science? Часть 4

Продолжение статьи «Что такое Data Science».

Как заставить данные рассказать историю

Изображение может быть лучше или хуже, чем тысяча слов, но оно безусловно лучше, чем тысяча чисел. Проблема большинства алгоритмов анализа данных в том, что результат их работы — это всего лишь набор чисел. Чтобы понять что означают эти цифры, и о чем они могут рассказать, нужно постоить график. Книга Эдварда Тафти Visual Display of Quantitative Information — это классика визуализации данных и основополагающий текст для тех, кто практикует data science. Но это не главная проблема. Визуализация имеет критическое значение для каждого этапа data science. По мнению Мартина Ваттенберга (Martin Wattenberg, @wattenberg), основателя Flowing Media, визуализация является ключевым моментом в приведении данных к нужному виду: если вы хотите понять, насколько плохи ваши данные, попробуйте отобразить их на графике. Визуализация также часто является первым шагом в анализе. Хилари Мэйсон (Hilary Mason) рассказывает, что смотрит на десяток или больше графиков рассеяния как только получает новый набор данных, пытаясь определить, действительно ли полученная информация будет ей интересна. Как только вы получили какие-то намеки на то, что могут сказать данные, можно продолжить анализировать их более детально.

Существует множество пакетов для построения графиков и представления данных в ином виде. Традиционно эффективен GnuPlot, в R есть достаточно обширный графический пакет, Processing — продукт Кейси Риса и Бена Фрая — тоже подойдет, особенно если вы создаете анимацию, демонстрирующую изменения во времени. В пакете Many Eyes от IBM многие визуализации — полноценные интерактивные приложения.

Блог Натана Йау (Nathan Yau) FlowingData — отличное место чтобы найти интересную нестандартную визуализацию. Одна из моих любимых — анимированная графика развития сети Walmart с течением времени. Именно здесь начинается искусство: важна не только эстетика визуализации сама по себе, но и то, как вы ее понимаете. Выглядит ли она как распространение раковых клеток по телу или вируса гриппа среди населения? Заставить данные рассказывать историю — не значит просто представить результаты. Нужно еще установить связи  с другими источниками данных. Распространяется ли успешная розничная сеть как эпидемия? И если да, дает ли нам это понимание того, как работает экономика? Это вопрос, который мы даже не могли бы себе задать несколько лет назад. Мощность компьютеров была недостаточной, данные были закрыты, а инструменты для работы с ними были неэффективны. Теперь же мы задаем себе этот вопрос регулярно.

Продолжение следует…

Оригинал: What is Data Science

Перевод: Светлана Фаткуллина

2 thoughts on “Что такое Data Science? Часть 4

  1. Pingback: Что такое Data Science? Часть 3 | InfoClod

  2. Pingback: Что такое Data Science? Часть 5 | InfoClod

Comments are closed.