Tableau desktop. основы
18
Использование вычислений: настройка данных

Понимание основных концепций данных

Что такое набор данных?


Набор данных (источник данных или база данных) в контексте Tableau содержит данные, используемые для построения визуализаций. Каждая гистограмма, точечная или линейная диаграммы, которые вы видите в Tableau, имеют подключенную базу данных или электронную таблицу, предоставляющую данные.

1. Источники данных

Блок 1. Основные типы источников данных


Таблицы
Электронные таблицы (Microsoft Excel, Google Sheets) организуют данные в плоскую структуру, то есть, записи сохраняются в виде отдельных строк данных.

Реляционные базы данных
Реляционные базы данных хранят данные в нескольких таблицах, где каждой строке предоставляется уникальный идентификатор. Пользователи получают данные из разных таблиц с помощью языка структурированных запросов (SQL). "Реляционный" аспект указывает на логическую связь между разными таблицами.

Облачные данные
Иногда организации предпочитают хранить свои данные в облаке, поэтому они не должны поддерживать локальные серверы. Сюда входят данные, хранящиеся в таких местах, как Amazon Web Services или Microsoft Azure.

Другие типы подключений
Tableau также подключается к пространственным файлам для сопоставления, таким как .kml или .shp, и статистическим файлам, созданным R.

Что происходит при подключении Tableau Desktop к набору данных?


Когда пользователи подключаются к Tableau, полям в наборе данных автоматически назначаются роль и тип.

Роль — полю может быть присвоена роль параметра (Dimension) или показателя (Measure). Их изучим на следующем уроке.

Тип — тип данных поля определяет, является ли поле, например тестовым, числом или датой.

Типы данных могут быть изменены пользователем, если Tableau предоставит некорректный тип. Любые изменения сохраняются в файле источника данных Tableau (.tds) в качестве метаданных, которые являются набором данных, описывающих другие данные.

 

 

Шаг 1. Подключение


После подключения Tableau считывает данные и назначает тип данных по каждому полю (см. оранжевое поле).

 

Шаг 2. Проверка


Пользователи проверяют, что Tableau правильно определил типы данных и изменяют его, если тип данных неверен. Они также могут переименовать нечеткие поля или поля с ошибками.

Какие-либо изменения, внесенные в Tableau, не записываются в исходный источник данных. Изменения сохраняются в виде метаданных в файле таблицы, который называется источником данных таблицы или .tds.

Шаг 3. Анализ и распространение


После подключения к данным и настройки метаданных пользователи могут открыть лист, чтобы начать построение диаграмм, анализ данных и обмен результатами.

1. Источники данных

Блок 2. Что такое поля?


Поле или столбец – это отдельный фрагмент информации в наборе данных.

Например, если вы собираете данные о том, сколько раз в неделю пассажир выбирает различные виды транспорта, ваш набор данных может включать в себя: имя пассажира, вид транспорта и дни недели. Имя пассажира и вид транспорта – это качественные поля, а дни недели – количественные.

В Tableau количественные поля называются показателями (Measure), а качественные поля – параметрами (Dimension).

Параметры (Dimension):

  • Описывают или классифицируют данные
  • Отвечают на вопрос что? когда? кто?
  • Создают разрезы для количественных данных

Показатели (Measure):

  • Числовые данные
  • Обеспечивают измерение параметров (Dimension)
  • Могут использоваться в расчетах

Параметры (Dimension) и Показатели (Measure) являются основой для построения визуализаций в Tableau.

Поля в Tableau


Когда Tableau подключается к набору данных, распределяет поля на Параметры (Dimension) и Показатели (Measure).

Качественные поля, описывающие категории данных, находятся в верхней части панели в разделе Параметры (Dimension).

Количественные поля, измеряющие категории данных, находятся в нижней части панели в разделе Показатели (Measure).

Как эти поля создают визуализацию?


Как много вреда наносилось дикой природе?

Во-первых, перетащите показатель (Measure) Number of Strikes на полку Столбцы (Columns). Обратите внимание, что поле отображается зеленым цветом.

Tableau создал длинную полосу и ось, что показывает диапазон значений.

Сколько случаев поражений дикой природы по категориям животных?


Нам нужно вывести характеристики (Dimension), чтоб лучше осознавать наши данные. Если мы добавим Dimension "Категория животных", мы увидим, что птицы составляют большую часть столкновений с дикой природой. Одна полоса делится на четыре, по одной для каждой категории. Когда помещаем Dimension на полку Строки (Rows), они отображаются синим цветом.

Какие птицы наносят наибольший вред диким животным?


Во-первых, давайте сделаем категорию животных фильтром и добавим поле Dimension "Виды животных", чтобы внимательнее изучить каждую категорию.

Чтобы увидеть более подробную информацию о птицах, мы фильтруем категорию, чтобы отображать только виды птиц.

Какой вид птиц может нанести наибольший вред?

 


Мы можем добавить еще одно поле Cost: Total $ на полку Color, чтобы увидеть, какие виды птиц приводят к самым дорогим авариям.

Интересно, что канадский гусь не участвовал в наибольшем количестве столкновений с птицами, но нанес наибольший вред.