Глоссариум по искусственному интеллекту: 2500 терминов. Том 1 - страница 48




Класс (Class) – это термин из набора перечисленных целевых значений меток. Например, в модели бинарной классификации, обнаруживающей спам-рассылку, существует два класса – это спам и не спам. В многоклассовой модели классификации, которая идентифицирует породы собак, классами будут пудель, бигль, мопс и так далее.


Класс большинства (Majority class) – это метка в наборе данных с несбалансированным классом. Несбалансированные данные относятся к случаям, когда количество наблюдений в классе распределено неравномерно, и часто существует основной класс -класс большинства, который имеет гораздо больший процент набора данных, и второстепенные классы, в которых недостаточно примеров.


Класс меньшинства (Minority class) – это метка в несбалансированном по классам наборе данных. Например, учитывая набор данных, содержащий 99% ярлыков, не относящихся к спаму, и 1% ярлыков для спама, ярлыки для спама относятся к классу меньшинства в наборе данных с несбалансированным классом. [34]


Класс Сложности NP (недетерминированное полиномиальное время) (NP) – в теории вычислительной сложности – это класс, используемый для классификации проблем принятия решений. NP – это множество проблем решения, для которых экземпляры проблемы, где ответ «да», имеют доказательства, проверяемые за полиномиальное время с помощью детерминированной машины Тьюринга.


Классификация (Classification). В задачах классификации используется алгоритм для точного распределения тестовых данных по определенным категориям, например, при отделении яблок от апельсинов. Или, в реальном мире, алгоритмы обучения с учителем можно использовать для классификации спама в отдельной папке из вашего почтового ящика. Линейные классификаторы, машины опорных векторов, деревья решений и случайный лес – все это распространенные типы алгоритмов классификации.


Кластеризация (Clustering) – это метод интеллектуального анализа данных для группировки неразмеченных данных на основе их сходства или различия. Например, алгоритмы кластеризации K-средних распределяют сходные точки данных по группам, где значение K представляет размер группировки и степень детализации. Этот метод полезен для сегментации рынка, сжатия изображений и т. д.


Кластеризация временных данных (Temporal data clustering) – разделение неразмеченного набора временных данных на группы или кластеры, где все последовательности, сгруппированные в одном кластере, должны быть согласованными или однородными. Хотя для кластеризации различных типов временных данных были разработаны различные алгоритмы, все они пытаются модифицировать существующие алгоритмы кластеризации для обработки временной информации.


Кластеризация временных данных (Temporal data clustering) – это разделение неразмеченного набора временных данных на группы или кластеры, где все последовательности, сгруппированные в одном кластере, должны быть согласованными или однородными. Хотя для кластеризации различных типов временных данных были разработаны различные алгоритмы, все они пытаются модифицировать существующие алгоритмы кластеризации для обработки временной информации.


Кластеризация на основе центроида (Centroid-based clustering) – это категория алгоритмов кластеризации, которые организуют данные в неиерархические кластеры. Алгоритм k средних (k-means) – это наиболее широко используемый алгоритм кластеризации на основе центроидов, один из алгоритмов машинного обучения, решающий задачу кластеризации.