Этапы кластерного анализа, методы и алгоритмы



Перед применением процедуры кластерного анализа необходимо ответить на четыре вопроса:                               

  1. Какие переменные будут использоваться при анализе?
  2. Как вычислять расстояние между объектами? (Схожесть объектов определяется «расстоянием» между ними. Если расстояние мало, считаем, что объекты похожи.)
  3. Как задать расстояние между кластерами? (Если расстояние мало, считаем, что кластеры похожи или даже объединяются водин кластер)
  4. Надо ли стандартизировать переменные?

Обсудим ответ на первый вопрос: «Какие переменные будут использоваться при анализе?»

Начинающий аналитик ответит: «Конечно все! Исключая какие-то переменные, мы отбрасываем информацию!»  Ответ кажется логичным, но оказывается не верным. При таком подходе сохраняются помехи, то есть информация, не нужная для решения конкретной задачи.

Настраивая радиоприемник на частоту, мы отсекаем лишнее, хотя слушая два канала одновременно, мы получили бы больше информации.

Как влияет цвет глаз покупателя на средний объем выпиваемого пива? Как бы ни влиял, этим влиянием при анализе потребления пива можно пренебречь. Переменную цвет глаз из анализа исключаем. Она создает помехи. Она несущественна при анализе потребления пива. Так нам говорит опыт и интуиция.

С другой стороны, если нам неизвестны зарплаты/доходы покупателей, но для каждого из них известны профессия, образование и стаж работы, исключение этих трех переменных влечет за собой исключение из рассмотрения платежеспособность покупателей. Если классифицируются школы, и не включены ни переменная «число школьников», ни переменная «число учителей», то кластеры будут формироваться без учета размера школ.

Вкус и качество пива трудно измерять. Но если пытаться сравнивать сорта пива, без таких переменных не обойтись. Иначе для анализа данных останутся лишь химические характеристики, характеристики упаковки и цена.

Вторым вопросом является, как задать расстояние между объектами? Мы будем считать, что если расстояние мало, то такие объекты считаются, похожими.

В кластерном анализе нужно уметь измерять сходство объектов. Критерием сходства объектов является расстояние между ними. Если расстояние маленькое, то объекты схожи и наоборот. Например, каждый объект абсолютно схож сам с собой, поэтому расстояние от объекта до него же самого равно нулю.

Расстояние между объектами зависит от анализируемых характеристик объектов. Производитель обуви может изучать покупателей с точки зрения их физических характеристик (с точки зрения технолога): рост, вес, размер ноги, высота подъема и так далее. Возможен другой взгляд, когда изучается возраст, образование, профессия, семейное положение (точка зрения маркетолога). Понятно, что покупатели, совпадающие по первому набору показателей, очень различны по второму набору, и наоборот.

Расстояние между объектами зависит от формулы, с помощью которой оно вычисляется.

На третьем шаге нужно решить, как задать расстояние между кластерами? Если расстояние между кластерами мало, считаем, что кластеры похожи или даже объединяются в один кластер.

То есть, надо выбрать способ подсчета расстояния между кластерами. Существуют несколько различающихся между собой методов. При анализе одного и того же набора данных могут быть получены разные кластеризации. Это может случиться в результате применения разных алгоритмов расчета расстояний между кластерами даже при использовании одного и того же способа расчета расстояний между объектами.

При проведении кластерного анализа присутствует элемент субъективизма, который проявляется в выборе способов вычислений расстояний между объектами и кластерами. После того, как этот выбор сделан, дальнейшая процедура происходит автоматически, объективно.

При проведении кластерного анализа чаще всего используется пять алгоритмов:

  • Среднее невзвешенное расстояние (Average linkage clustering).
  • Центроидный метод (Centroid Method).
  • Метод дальнего соседа, максимального расстояния (Complete linkage clustering).
  • Метод ближайшего соседа (Single linkage clustering).
  • Метод Варда (Ward's method).

При этом надо иметь в виду, что метод Варда требует, чтобы в качестве расстояния между объектами был выбран квадрат Евклидова расстояния. Заметим, что иногда этот метод долго работает.

На четвертом шаге решается вопрос о том, надо ли стандартизировать переменные.

Если не произвести стандартизацию переменных, то чаще всего окажется, что результаты кластерного анализа будут зависеть от того, в каких величинах измерены переменные. Например, цены могут быть измерены в долларах, евро или рублях. Скорее всего, в каждом случае вы получите свою, отличную от других классификацию.