Методы снижения размерности пространства. Понижение размерности · Loginom Wiki. Методы уменьшения размерности

В результате изучения материала главы 5 обучающийся должен:

знать

  • основные понятия и задачи снижения размерности:
  • подходы к решению задачи трансформации признакового пространства;

уметь

  • использовать метод главных компонент для перехода к стандартизованным ортогональным признакам;
  • оценивать уменьшение информативности данных при снижении размерности признакового пространства;
  • решать задачу построения оптимальных многомерных шкал для исследования объектов;

владеть

  • методами снижения размерности для решения прикладных задач статистического анализа;
  • навыками интерпретации переменных в преобразованном признаковом пространстве.

Основные понятия и задачи снижения размерности

На первый взгляд, чем больше информации об объектах исследования в виде совокупности характеризующих их признаков будет использовано для создания модели, тем лучше. Однако чрезмерный объем информации может привести к снижению эффективности анализа данных. Существует даже термин "проклятие размерности" (curse of dimensionality ), характеризующий проблемы работы с высокоразмерными данными. С необходимостью снижения размерности в той или иной форме связано решение различных статистических проблем.

Неинформативные признаки являются источником дополнительного шума и влияют на точность оценки параметров модели. Кроме того, наборы данных с большим числом признаков могут содержать группы коррелированных переменных. Наличие таких групп признаков означает дублирование информации, которое может искажать спецификацию модели и влиять на качество оценки ее параметров. Чем выше размерность данных, тем выше объем вычислений при их алгоритмической обработке.

Можно выделить два направления в снижении размерности признакового пространства по принципу используемых для этого переменных: отбор признаков из имеющегося исходного набора и формирование новых признаков путем трансформации первоначальных данных. В идеальном случае сокращенное представление данных должно иметь размерность, соответствующую размерности, внутренне присущей данным (intrinsic dimensionality).

Поиск наиболее информативных признаков, характеризующих исследуемое явление, представляет собой очевидное направление снижения размерности задачи, не требующее преобразования исходных переменных. Это позволяет сделать модель более компактной и избежать потерь, связанных с мешающим действием малоинформативных признаков. Отбор информативных признаков состоит в поиске наилучшего подмножества из множества всех исходных переменных. Критериями понятия "наилучшее" могут служить либо наиболее высокое качество моделирования при заданной размерности признакового пространства, либо наименьшая размерность данных, при которой возможно построение модели заданного качества.

Прямое решение задачи создания наилучшей модели связано с перебором всех возможных сочетаний признаков, что обычно представляется чрезмерно трудоемким. Поэтому, как правило, прибегают к прямой или обратной селекции признаков. В процедурах прямого отбора производится последовательное добавление переменных из исходного набора до достижения необходимого качества модели. В алгоритмах последовательной редукции исходного признакового пространства (обратной селекции) производится поэтапное удаление наименее информативных переменных до допустимого снижения информативности модели.

Следует учитывать, что информативность признаков относительна. Отбор должен обеспечить высокую информативность набора признаков, а не суммарную информативность составляющих его переменных. Так, наличие корреляции между признаками снижает их общую информативность вследствие дублирования общей для них информации. Поэтому добавление нового признака к уже отобранным обеспечивает прирост информативности в той степени, в которой он содержит полезную информацию, отсутствующую в ранее выбранных переменных. Наиболее простой является ситуация отбора взаимно ортогональных признаков, в которой алгоритм отбора реализуется предельно просто: переменные ранжируются по информативности, и используется такой состав первых в этом рейтинге признаков, который обеспечивает заданную информативность.

Ограниченность методов отбора признаков с целью снижения размерности пространства связана с предположением о непосредственном присутствии необходимых признаков в исходных данных, что обычно оказывается неверным. Альтернативный подход к снижению размерности предусматривает преобразование признаков в сокращенный набор новых переменных . В отличие от отбора исходных признаков формирование нового признакового пространства предполагает создание новых переменных, которые обычно являются функциями исходных признаков. Эти переменные, непосредственно не наблюдаемые, часто называют скрытыми, или латентными. В процессе создания эти переменные могут быть наделены различными полезными свойствами, такими как ортогональность. На практике исходные признаки обычно взаимосвязаны, поэтому трансформация их пространства в ортогональное порождает новые координаты-признаки, в которых отсутствует эффект дублирования информации об исследуемых объектах.

Отображение объектов в новом ортогональном признаковом пространстве создает возможность наглядно представить полезность каждого из признаков с точки зрения различий между этими объектами. Если координаты нового базиса упорядочить по дисперсии, характеризующей разброс значений по ним для рассматриваемых наблюдений, то становится очевидной ненужность с практической точки зрения некоторых признаков с малыми значениями дисперсий, так как объекты по этим признакам практически неразличимы по сравнению с их различиями по более информативным переменным. В такой ситуации можно говорить о так называемом вырождении исходного признакового пространства из k переменных, и реальная размерность этого пространства т может быть меньше исходной (m < k ).

Редукция признакового пространства сопровождается определенным снижением информативности данных, но уровень допустимого снижения может быть определен заранее. Выделение признаков проецирует набор исходных переменных в пространство меньшей размерности. Сжатие признакового пространства до двух-трехмерного может быть полезным для визуализации данных. Таким образом, процесс формирования нового признакового пространства обычно приводит к меньшему набору реально информативных переменных. На их базе может быть построена более качественная модель как основанная на меньшем числе наиболее информативных признаков.

Формирование новых переменных на основе исходных используется для латентно-семантического анализа, сжатия данных, классификации и распознавания образов, повышения скорости и эффективности процессов обучения . Сжатые данные обычно применяются для дальнейшего анализа и моделирования .

Одним из важных приложений трансформации признакового пространства и снижения размерности является построение синтетических латентных категорий на основе измеряемых значений признаков. Эти латентные признаки могут характеризовать общие определенные черты изучаемого явления, интегрирующие частные свойства наблюдаемых объектов, что позволяет строить интегральные индикаторы различных уровней обобщения информации.

Существенна роль методов редукции признакового пространства в исследовании проблемы дублирования информации в исходных признаках, приводящего к "разбуханию" дисперсии оценок коэффициентов регрессионных моделей . Переход к новым, в идеальном случае ортогональным и содержательно интерпретируемым, переменным является эффективным средством моделирования в условиях мультиколлинеарности исходных данных .

Преобразование исходного признакового пространства в ортогональное удобно для решения задач классификации, так как позволяет обоснованно применять определенные меры близости или различий объектов, такие как евклидово расстояние либо квадрат евклидова расстояния. В регрессионном анализе построение уравнения регрессии на главных компонентах позволяет решить проблему мультиколлинеарности.

Машинное обучение — это не что иное, как область обучения, которая позволяет компьютерам «учиться», как люди, без необходимости явного программирования.

Что такое прогнозирующее моделирование: прогнозирующее моделирование — это вероятностный процесс, который позволяет нам прогнозировать результаты на основе некоторых предикторов. Эти предикторы в основном являются функциями, которые вступают в игру при определении окончательного результата, то есть результата модели.

Что такое уменьшение размерности?

В задачах классификации машинного обучения часто слишком много факторов, на основании которых делается окончательная классификация. Эти факторы в основном переменные, называемые признаками. Чем больше функций, тем сложнее визуализировать тренировочный набор и затем работать над ним. Иногда большинство этих функций взаимосвязаны и, следовательно, являются избыточными. Это где алгоритмы уменьшения размерности вступают в игру. Уменьшение размерности — это процесс уменьшения числа рассматриваемых случайных величин путем получения набора главных переменных. Это может быть разделено на выбор особенности и извлечение особенности.

Почему уменьшение размерности важно в машинном обучении и прогнозном моделировании?

Интуитивно понятный пример уменьшения размерности можно обсудить с помощью простой задачи классификации электронной почты, где нам необходимо определить, является ли электронная почта спамом или нет. Это может включать большое количество функций, например, имеет ли электронное письмо общий заголовок, содержание электронного письма, использует ли электронное письмо шаблон и т. Д. Однако некоторые из этих функций могут перекрываться, В другом состоянии проблема классификации, которая зависит как от влажности, так и от осадков, может быть сведена в одну основную характеристику, поскольку оба из вышеупомянутых коррелируют в высокой степени. Следовательно, мы можем уменьшить количество функций в таких задачах. Проблему трехмерной классификации трудно представить, в то время как двумерную можно сопоставить с простым двумерным пространством, а задачу одномерной — с простой линией. Приведенный ниже рисунок иллюстрирует эту концепцию, где трехмерное пространство признаков разделяется на два одномерных пространства признаков, и позже, если обнаружено, что они коррелированы, число признаков может быть уменьшено еще больше.

Компоненты уменьшения размерности

Существует два компонента уменьшения размерности:

  • Выбор характеристик: в этом разделе мы пытаемся найти подмножество исходного набора переменных или функций, чтобы получить меньшее подмножество, которое можно использовать для моделирования проблемы. Обычно это включает три способа:
    1. Фильтр
    2. обертка
    3. внедренный
  • Извлечение признаков: Это уменьшает данные в многомерном пространстве до более низкого измерения, то есть пространства с меньшим номером. размеров.

Методы уменьшения размерности

Различные методы, используемые для уменьшения размерности, включают в себя:

  • Анализ основных компонентов (PCA)
  • Линейный Дискриминантный Анализ (LDA)
  • Обобщенный дискриминантный анализ (GDA)

Уменьшение размерности может быть как линейным, так и нелинейным, в зависимости от используемого метода. Основной линейный метод, называемый анализ главных компонентов, или PCA, обсуждается ниже.

Анализ главных компонентов

Этот метод был введен Карлом Пирсоном. Он работает при условии, что, хотя данные в пространстве более высокого измерения отображаются в данные в пространстве более низкого измерения, дисперсия данных в пространстве более низкого измерения должна быть максимальной.

Он включает в себя следующие шаги:

  • Построить ковариационную матрицу данных.
  • Вычислить собственные векторы этой матрицы.
  • Собственные векторы, соответствующие наибольшим собственным значениям, используются для восстановления большой части дисперсии исходных данных.

Следовательно, у нас осталось меньшее количество собственных векторов, и в процессе могла произойти некоторая потеря данных. Но наиболее важные отклонения должны сохраняться оставшимися собственными векторами.

Преимущества уменьшения размерности

  • Это помогает в сжатии данных, и, следовательно, уменьшает пространство для хранения.
  • Это уменьшает время вычислений.
  • Это также помогает удалить избыточные функции, если таковые имеются.

Недостатки уменьшения размерности

  • Это может привести к некоторой потере данных.
  • PCA имеет тенденцию находить линейные корреляции между переменными, что иногда нежелательно.
  • PCA терпит неудачу в случаях, когда среднее значение и ковариация недостаточны для определения наборов данных.
  • Мы можем не знать, сколько основных компонентов следует придерживаться на практике, применяются некоторые правила большого пальца.

Эта статья предоставлена Ананней Уберой . Если вы как GeeksforGeeks и хотели бы внести свой вклад, вы также можете написать статью с помощью contribute.geeksforgeeks.org или по почте статьи [email protected]. Смотрите свою статью, появляющуюся на главной странице GeeksforGeeks, и помогите другим вундеркиндам.

Глава 13. МЕТОД ГЛАВНЫХ КОМПОНЕНТ

13.1. Сущность проблемы снижения размерности и различные методы ее решения

В исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число признаков регистрируемых на каждом из множества обследуемых объектов (стран, городов, предприятий, семей, пациентов, технических или экологических систем), очень велико - порядка ста и более. Тем не менее имеющиеся многомерные наблюдения

следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возможность их использовать в нужный момент.

Желание статистика представить каждое из наблюдений (13.1) в виде вектора Z некоторых вспомогательных показателей с существенно меньшим (чем ) числом компонент рбывает обусловлено в первую очередь следующими причинами:

необходимостью наглядного представления (визуализации) исходных данных (13.1), что достигается их проецированием на специально подобранное трехмерное пространство плоскость или числовую прямую (задачам такого типа посвящен раздел IV);

стремлением к лаконизму исследуемых моделей, обусловленному необходимостью упрощения счета и интерпретации полученных статистических выводов;

необходимостью существенного сжатия объемов хранимой статистической информации (без видимых потерь в ее информативности), если речь идет о записи и хранении массивов типа (13.1) в специальной базе данных.

При этом новые (вспомогательные) признаки могут выбираться из числа исходных или определяться по какому-либо правилу по совокупности исходных признаков, например как их линейные комбинации. При формировании новой системы признаков к последним предъявляв юте я разного рода требования, такие, как наибольшая информативность (в определенном смысле), взаимная некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т. п. В зависимости от варианта формальной конкретизации этих требований (см. ниже, а также раздел IV) приходим к тому или иному алгоритму снижения размерности. Имеется, по крайней мере, три основных типа принципиальных предпосылок, обусловливающих возможность перехода от большого числа исходных показателей состояния (поведения, эффективности функционирования) анализируемой системы к существенно меньшему числу наиболее информативных переменных. Это, во-первых, дублирование информации, доставляемой сильно взаимосвязанными признаками; во-вторых, неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая «вариабельность» признаков); в-третьих, возможность агрегирования, т. е. простого или «взвешенного» суммирования, по некоторым признакам.

Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков может быть описана следующим образом. Пусть - некоторая р-мерная вектор-функция исходных переменных и пусть - определенным образом заданная мера информативности -мерной системы признаков Конкретный выбор функционала зависит от специфики решаемой реальной задачи и опирается на один из возможных критериев: критерий автоинформативности, нацеленный на максимальное сохранение информации, содержащейся в исходном массиве относительно самих исходных признаков; и критерий внешней информативности, нацеленный на максимальное «выжимание» из информации, содержащейся в этом массиве относительно некоторых других (внешних) показателей.

Задача заключается в определении такого набора признаков Z, найденного в классе F допустимых преобразований исходных показателей что

Тот или иной вариант конкретизации этой постановки (определяющий конкретный выбор меры информативности ) и класса допустимых преобразований) приводит к конкретному методу снижения размерности: к методу главных компонент, факторному анализу, экстремальной группировке параметров и т. д.

Поясним это на примерах.

13.1.1. Метод главных компонент (см. § 13.2-§ 13.6).

Именно к первым главным компонентам придет исследователь, если в качестве класса допустимых преобразований F определит всевозможные линейные ортогональные нормированные комбинации исходных показателей, т. е.

(здесь ) - математическое ожидание а в качестве меры информативности -мерной системы показателей выражение

(здесь D, как и ранее, знак операции вычисления дисперсии соответствующей случайной величины).

13.1.2. Факторный анализ (см. гл. 14).

Как известно (см. § 14.1), модель факторного анализа объясняет структуру связей между исходными показателями тем, что поведение каждого из них статистически зависит от одного и того же набора так называемых общих факторов т. е.

где - «нагрузка» общего фактора на исходный показатель - остаточная «специфическая» случайная компонента, причем - попарно некоррелированы.

Оказывается, если F определить как класс всевозможных линейных комбинаций с учетом упомянутых ограннченнй на а в качестве меры информативности -мерной системы показателей выбрать величину то решение оптимизационной задачи (13.2) совпадает с вектором общих факторов в модели факторного анализа. Здесь - корреляционная матрица исходных показателей корреляционная матрица показателей - евклидова норма матрицы А.

13.1.3. Метод экстремальной группировки признаков (см. п. 14.2.1).

В данном методе речь идет о таком разбиении совокупности исходных показателей на заданное число групп что признаки, принадлежащие одной группе, были бы взанмокоррелнрованы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелнрованы слабо. Одновременно решается задача замены каждой группы сильно взаимокоррелированных исходных показателей одним вспомогательным «равнодействующим» показателем который, естественно, должен быть в тесной корреляционной связи с признаками своей группы. Определив в качестве класса допустимых преобразований F исходных показателей все нормированные линейные комбинации ищем решение максимизируя (по S и ) функционал

где - коэффициент корреляции между переменными .

13.1.4. Многомерное шкалирование (см. гл. 16).

В ряде ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состояние объекта, описываемого вектором а характеристика попарной близости (отдаленности) двух объектов (или признаков) соответственно с номерами

В этом случае исследователь располагает в качестве массива исходных статистических данных матрицей размера (если рассматриваются характеристики попарной близости объектов) или (если рассматриваются характеристики попарной близости признаков) вида

где величины интерпретируются либо как расстояния между объектами (признаками) i и либо как ранги, задающие упорядочение этих расстояний. Задача многомерного шкалирования состоит в том, чтобы «погрузить» наши объекты (признаки) в такое -мерное пространство , т. е. так выбрать координатные оси чтобы исходная геометрическая конфигурация совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью (13.1) или (13.5), оказалась бы наименее искаженной в смысле некоторого критерия средней «степени искажения» взаимных попарных расстояний.

Одна из достаточно общих схем многомерного шкалирования определяется критерием

где - расстояние между объектами в исходном пространстве, - расстояние между теми же объектами в искомом пространстве меньшей размерности - свободные параметры, выбор конкретных значений которых производится по усмотрению исследователя.

Определив меру информативности искомого набора признаков Z, например, как величину, обратную упомянутой выше величине степени искажения геометрической структуры исходной совокупности точек, сведем эту задачу к общей постановке (13.2), полагая

13.1.5. Отбор наиболее информативных показателей в моделях дискриминантного анализа (см. § 1.4; 2.5).

Приведенные выше функционалы являются измерителями автоинформативности соответствующей системы признаков. Приведем теперь примеры критериев внешней информативности. В частности, нас будет интересовать информативность системы показателей с точки зрения правильности классификации объектов по этим показателям в схеме дискриминантного анализа. При этом класс допустимых преобразований F определим исходя из требований, что в качестве могут рассматриваться лишь представители набора исходных показателей, т. е.

Распространенным исходным тезисом при решении задачи выявления наиболее информативных показателей из исходного набора является утверждение, что вектор показателей заданной размерности тем более информативен, чем больше различие в законах его вероятностного распределения, определенных в разных классах в рассматриваемой задаче классификации. Если ввести меру попарного различия законов описывающих распределение вероятностей вектора признаков в классах с номерами то можно формализовать вышеприведенный принцип отбора наиболее информативных показателей определяя их из условия максимизации (по ) величины

Наиболее употребительные меры различия между законами распределения вероятностей - это расстояние информационного типа (расстояние Кульбака, расстояние Махаланобиса), а также «расстояние по вариации» (подробнее об этом см. в .

13.1.6. Отбор наиболее информативных переменных в моделях регрессии (см. ).

При построении зависимостей регрессионного типа одним из центральных оказывается вопрос выявления сравнительно небольшого числа переменных (из априорного набора наиболее существенно влияющих на поведение исследуемого результирующего признака у.

Таким образом, как и в предыдущем пункте, класс F состоит из всевозможных наборов переменных отобранных из исходного множества факторов-аргументов и имеем дело с критерием внешней информативности таких наборов. Его вид обычно задается с помощью множественного коэффициента детерминации - характеристики степени тесноты связи показателя у с набором переменных При этом для фиксированной размерности набор переменных будет, очевидно, считаться наиболее информативным (с точки зрения точности описания поведения показателя у), если значение меры информативности на этом наборе достигает максимума.

В многомерном статистическом анализе каждый объект описывается вектором, размерность которого произвольна (но одна и та же для всех объектов). Однако человек может непосредственно воспринимать лишь числовые данные или точки на плоскости. Анализировать скопления точек в трехмерном пространстве уже гораздо труднее. Непосредственное восприятие данных более высокой размерности невозможно. Поэтому вполне естественным является желание перейти от многомерной выборки к данным небольшой размерности, чтобы «на них можно было посмотреть».

Кроме стремления к наглядности, есть и другие мотивы для снижения размерности. Те факторы, от которых интересующая исследователя переменная не зависит, лишь мешают статистическому анализу. Во-первых, на сбор информации о них расходуются ресурсы. Во-вторых, как можно доказать, их включение в анализ ухудшает свойства статистических процедур (в частности, увеличивает дисперсию оценок параметров и характеристик распределений). Поэтому желательно избавиться от таких факторов.

Обсудим с точки зрения снижения размерности пример использования регрессионного анализа для прогнозирования объема продаж, рассмотренный в подразделе 3.2.3. Во-первых, в этом примере удалось сократить число независимых переменных с 17 до 12. Во-вторых, удалось сконструировать новый фактор – линейную функцию от 12 упомянутых факторов, которая лучше всех иных линейных комбинаций факторов прогнозирует объем продаж. Поэтому можно сказать, что в результате размерность задачи уменьшилась с 18 до 2. А именно, остался один независимый фактор (приведенная в подразделе 3.2.3 линейная комбинация) и один зависимый – объем продаж.

При анализе многомерных данных обычно рассматривают не одну, а множество задач, в частности, по-разному выбирая независимые и зависимые переменные. Поэтому рассмотрим задачу снижения размерности в следующей формулировке. Дана многомерная выборка. Требуется перейти от нее к совокупности векторов меньшей размерности, максимально сохранив структуру исходных данных, по возможности не теряя информации, содержащихся в данных. Задача конкретизируется в рамках каждого конкретного метода снижения размерности.

Метод главных компонент является одним из наиболее часто используемых методов снижения размерности. Основная его идея состоит в последовательном выявлении направлений, в которых данные имеют наибольший разброс. Пусть выборка состоит из векторов, одинаково распределенных с вектором X = (x (1), x (2), … , x (n )). Рассмотрим линейные комбинации

Y (λ(1), λ(2), …, λ(n )) = λ(1)x (1) + λ(2)x (2) + … + λ(n )x (n ),

λ 2 (1) + λ 2 (2) + …+ λ 2 (n ) = 1.

Здесь вектор λ = (λ(1), λ(2), …, λ(n )) лежит на единичной сфере в n -мерном пространстве.

В методе главных компонент прежде всего находят направление максимального разброса, т.е. такое λ, при котором достигает максимума дисперсия случайной величины Y (λ) = Y (λ(1), λ(2), …, λ(n )). Тогда вектор λ задает первую главную компоненту, а величина Y (λ) является проекцией случайного вектора Х на ось первой главной компоненты.

Затем, выражаясь терминами линейной алгебры, рассматривают гиперплоскость в n -мерном пространстве, перпендикулярную первой главной компоненте, и проектируют на эту гиперплоскость все элементы выборки. Размерность гиперплоскость на 1 меньше, чем размерность исходного пространства.

В рассматриваемой гиперплоскости процедура повторяется. В ней находят направление наибольшего разброса, т.е. вторую главную компоненту. Затем выделяют гиперплоскость, перпендикулярную первым двум главным компонентам. Ее размерность на 2 меньше, чем размерность исходного пространства. Далее – следующая итерация.

С точки зрения линейной алгебры речь идет о построении нового базиса в n -мерном пространстве, ортами которого служат главные компоненты.

Дисперсия, соответствующая каждой новой главной компоненте, меньше, чем для предыдущей. Обычно останавливаются, когда она меньше заданного порога. Если отобрано k главных компонент, то это означает, что от n -мерного пространства удалось перейти к k - мерному, т.е. сократить размерность с n -до k , практически не исказив структуру исходных данных.

Для визуального анализа данных часто используют проекции исходных векторов на плоскость первых двух главных компонент. Обычно хорошо видна структура данных, выделяются компактные кластеры объектов и отдельно выделяющиеся вектора.

Метод главных компонент является одним из методов факторного анализа . Различные алгоритмы факторного анализа объединены тем, что во всех них происходит переход к новому базису в исходном n -мерном пространстве. Важным является понятие «нагрузка фактора», применяемое для описания роли исходного фактора (переменной) в формировании определенного вектора из нового базиса.

Новая идея по сравнению с методом главных компонент состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо выбора представителя расчетным путем формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп. Остальные факторы отбрасываются.

Описанная процедура может быть осуществлена не только с помощью факторного анализа. Речь идет о кластер-анализе признаков (факторов, переменных). Для разбиения признаков на группы можно применять различные алгоритмы кластер-анализа. Достаточно ввести расстояние (меру близости, показатель различия) между признаками. Пусть Х и У – два признака. Различие d (X , Y ) между ними можно измерять с помощью выборочных коэффициентов корреляции:

d 1 (X,Y ) = 1 – r n (X,Y ), d 2 (X,Y ) = 1 – ρ n (X,Y ),

где r n (X , Y ) – выборочный линейный коэффициент корреляции Пирсона, ρ n (X , Y ) – выборочный коэффициент ранговой корреляции Спирмена.

Многомерное шкалирование . На использовании расстояний (мер близости, показателей различия) d (X , Y ) между признаками Х и У основан обширный класс методов многомерного шкалирования . Основная идея этого класса методов состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. При этом отношения между объектами заменяются отношениями между точками – их представителями. Так, данные о сходстве объектов – расстояниями между точками, данные о превосходстве – взаимным расположением точек .

В практике используется ряд различных моделей многомерного шкалирования. Во всех них встает проблема оценки истинной размерности факторного пространства. Рассмотрим эту проблему на примере обработки данных о сходстве объектов с помощью метрического шкалирования.

Пусть имеется n объектов О (1), О (2), …, O (n ), для каждой пары объектов О (i ), O (j ) задана мера их сходства s (i , j ). Считаем, что всегда s (i , j ) = s (j , i ). Происхождение чисел s (i , j ) не имеет значения для описания работы алгоритма. Они могли быть получены либо непосредственным измерением, либо с использованием экспертов, либо путем вычисления по совокупности описательных характеристик, либо как-то иначе.

В евклидовом пространстве рассматриваемые n объектов должны быть представлены конфигурацией n точек, причем в качестве меры близости точек-представителей выступает евклидово расстояние d (i , j ) между соответствующими точками. Степень соответствия между совокупностью объектов и совокупностью представляющих их точек определяется путем сопоставления матриц сходства ||s (i , j )|| и расстояний ||d (i , j )||. Метрический функционал сходства имеет вид

Геометрическую конфигурацию надо выбирать так, чтобы функционал S достигал своего наименьшего значения .

Замечание. В неметрическом шкалировании вместо близости самих мер близости и расстояний рассматривается близость упорядочений на множестве мер близости и множестве соответствующих расстояний. Вместо функционала S используются аналоги ранговых коэффициентов корреляции Спирмена и Кендалла. Другими словами, неметрическое шкалирование исходит из предположения, что меры близости измерены в порядковой шкале.

Пусть евклидово пространство имеет размерность m . Рассмотрим минимум среднего квадрата ошибки

,

где минимум берется по всем возможным конфигурациям n точек в m -мерном евклидовом пространстве. Можно показать, что рассматриваемый минимум достигается на некоторой конфигурации. Ясно, что при росте m величина α m монотонно убывает (точнее, не возрастает). Можно показать, что при m > n – 1 она равна 0 (если s (i , j ) – метрика). Для увеличения возможностей содержательной интерпретации желательно действовать в пространстве возможно меньшей размерности. При этом, однако, размерность необходимо выбрать так, чтобы точки представляли объекты без больших искажений. Возникает вопрос: как рационально выбирать размерность, т.е. натуральное число m ?

В рамках детерминированного анализа данных обоснованного ответа на этот вопрос, видимо, нет. Следовательно, необходимо изучить поведение α m в тех или иных вероятностных моделях. Если меры близости s (i , j ) являются случайными величинами, распределение которых зависит от «истинной размерности» m 0 (и, возможно, от каких-либо еще параметров), то можно в классическом математико-статистическом стиле ставить задачу оценки m 0 , искать состоятельные оценки и т.д.

Начнем строить вероятностные модели. Примем, что объекты представляют собой точки в евклидовом пространстве размерности k , где k достаточно велико. То, что «истинная размерность» равна m 0 , означает, что все эти точки лежат на гиперплоскости размерности m 0 . Примем для определенности, что совокупность рассматриваемых точек представляет собой выборку из кругового нормального распределения с дисперсией σ 2 (0). Это означает, что объекты О (1), О (2), …, O (n ) являются независимыми в совокупности случайными векторами, каждый из которых строится как ζ(1)e (1) + ζ(2)e (2) + … + ζ(m 0)e (m 0), где e (1), e (2), … , e (m 0) – ортонормальный базис в подпространстве размерности m 0 , в котором лежат рассматриваемые точки, а ζ(1), ζ(2), … , ζ(m 0) – независимые в совокупности одномерные нормальные случайные величины с математическим ожиданием) и дисперсией σ 2 (0).

Рассмотрим две модели получения мер близости s (i , j ). В первой из них s (i , j ) отличаются от евклидова расстояния между соответствующими точками из-за того, что точки известны с искажениями. Пусть с (1), с (2), … , с (n ) – рассматриваемые точки. Тогда

s (i , j ) = d (c (i ) + ε(i ), c (j ) + ε(j )), i , j = 1, 2, … , n ,

где d – евклидово расстояние между точками в k -мерном пространстве, вектора ε(1), ε(2), … , ε(n ) представляют собой выборку из кругового нормального распределения в k -мерном пространстве с нулевым математическим ожиданием и ковариационной матрицей σ 2 (1)I , где I – единичная матрица. Другими словами, ε(i ) = η(1)e (1) + η(2)e (2) + … + η(k )e (k ), где e (1), e (2), …, e (k ) – ортонормальный базис в k -мерном пространстве, а {η(i , t ), i = 1, 2, … , n, t = 1, 2, … , k} – совокупность независимых в совокупности одномерных случайных величин с нулевым математическим ожиданием и дисперсией σ 2 (1).

Во второй модели искажения наложены непосредственно на сами расстояния:

s (i,j ) = d (c (i ), c (j )) + ε(i,j ), i,j = 1, 2, … , n , i j ,

где {ε(i , j ), i , j = 1, 2, … , n } – независимые в совокупности нормальные случайные величины с математическим ожиданием) и дисперсией σ 2 (1).

В работе показано, что для обеих сформулированных моделей минимум среднего квадрата ошибки α m при n → ∞ сходится по вероятности к

f (m ) = f 1 (m ) + σ 2 (1)(k m ), m = 1, 2, …, k ,

Таким образом, функция f (m ) линейна на интервалах и , причем на первом интервале она убывает быстрее, чем на втором. Отсюда следует, что статистика

является состоятельной оценкой истинной размерности m 0 .

Итак, из вероятностной теории вытекает рекомендация – в качестве оценки размерности факторного пространства использовать m *. Отметим, что подобная рекомендация была сформулировано как эвристическая одним из основателей многомерного шкалирования Дж. Краскалом . Он исходил из опыта практического использования многомерного шкалирования и вычислительных экспериментов. Вероятностная теория позволила обосновать эту эвристическую рекомендацию.

Предыдущая
  • В статистике, машинном обучении и теории информации снижение размерности - это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков.

Связанные понятия

Упоминания в литературе

– загрузка и предобработка входных данных, – ручная и автоматическая разметка стимульных материалов (выделение зон интереса), – алгоритм вычисления матрицы представления преемника, – построение расширенной таблицы данных со значениями входных переменных, необходимых для последующего анализа, – метод снижения размерности пространства признаков (метод главных компонент), – визуализация компонентных нагрузок для выбора интерпретируемых компонент, – алгоритм обучения дерева решений, – алгоритм оценки предсказательной способности дерева, – визуализация дерева решений.

Связанные понятия (продолжение)

Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.

Спектральные методы - это класс техник, используемых в прикладной математике для численного решения некоторых дифференциальных уравнений, возможно, вовлекая Быстрое преобразование Фурье. Идея заключается в переписи решения дифференциальных уравнений как суммы некоторых «базисных функций» (например, как ряды Фурье являются суммой синусоид), а затем выбрать коэффициенты в сумме, чтобы удовлетворить дифференциальному уравнению, насколько это возможно.

Математи́ческий ана́лиз (классический математический анализ) - совокупность разделов математики, соответствующих историческому разделу под наименованием «анализ бесконечно малых», объединяет дифференциальное и интегральное исчисления.

Дифференциа́льная эволю́ция (англ. differential evolution) - метод многомерной математической оптимизации, относящийся к классу стохастических алгоритмов оптимизации (то есть работает с использованием случайных чисел) и использующий некоторые идеи генетических алгоритмов, но, в отличие от них, не требует работы с переменными в бинарном коде.

Метод дискретного элемента (DEM, от англ. Discrete element method) - это семейство численных методов предназначенных для расчёта движения большого количества частиц, таких как молекулы, песчинки, гравий, галька и прочих гранулированных сред. Метод был первоначально применён Cundall в 1971 для решения задач механики горных пород.