Интеллектуальный анализ данных. Учебник - страница 4
Это предоставляет информацию о том, сколько отклонений данных вызвано процессом с течением времени и частотой отклонения. Это также может обеспечить связь с основным процессом отклонения. Эта информация может быть использована для понимания основной причины отклонения. Более высокая частота отклонения данных дает ценную информацию о процессе отклонения. В такой ситуации, вероятно, будет обнаружен риск отклонения и могут быть оценены необходимые изменения процесса.
Многие исследования проводятся по анализу аномалий данных для выявления факторов, способствующих возникновению аномалий данных. Некоторые из этих факторов относятся к процессам, которые требуют частых изменений процессов. Некоторые из этих факторов можно использовать для выявления процессов, которые могут быть аномальными. Многие параметры можно найти в системах, обеспечивающих характеристики процесса.
Изучение правила ассоциации
Изучение ассоциативных правил – это основанный на правилах метод машинного обучения для обнаружения интересных отношений между переменными в больших базах данных примеров. Эта техника вдохновлена слуховой системой, где мы изучаем правила ассоциации слухового стимула и только этого стимула.
Иногда при работе с набором данных мы не уверены, релевантны ли строки набора данных для задачи обучения, и если да, то какие. Мы можем захотеть пропустить те строки набора данных, которые не имеют значения. Следовательно, ассоциации обычно определяются неинтуитивными критериями, такими как порядок, в котором эти переменные появляются в последовательности примеров, или повторяющиеся значения в этих строках данных.
Этот проблематичный аспект изучения ассоциативных правил может быть устранен в виде алгоритма обнаружения аномалий. Эти алгоритмы пытаются обнаружить нестандартные шаблоны в больших наборах данных, которые могут представлять необычные связи между особенностями данных. Эти аномалии часто обнаруживаются алгоритмами распознавания образов, которые также являются частью алгоритмов статистического вывода. Например, изучение правил наивного Байеса может обнаруживать аномалии при изучении правил ассоциации на основе визуального осмотра представленных примеров.
В большом наборе данных пространство признаков может представлять область изображения как набор чисел, в котором каждый пиксель изображения имеет определенное количество пикселей. Характеристики изображения могут быть представлены в виде вектора, и мы можем поместить этот вектор в пространство признаков. Если пространство признака не пусто, признак будет числом пикселей в изображении, которые принадлежат определенному цвету.
Кластеризация
Кластеризация – это задача обнаружения групп и структур в данных, которые в той или иной мере «похожи», не используя известные структуры в данных, а обучаясь на том, что уже есть.
В частности, кластеризация используется таким образом, что новые точки данных добавляются только к существующим кластерам, без изменения их формы для соответствия новым данным. Другими словами, кластеры формируются до сбора данных, а не закрепляются после того, как все данные собраны.
Учитывая набор параметров для данных, которые (в основном) являются переменными, и их «коллинеарность», кластеризацию можно рассматривать как иерархический алгоритм для поиска кластеров точек данных, удовлетворяющих набору критериев. Параметры можно сгруппировать в одну из двух категорий: значения параметров, определяющие пространственное расположение кластеров, и значения параметров, определяющие отношения между кластерами.