Глоссариум по искусственному интеллекту: 2500 терминов. Том 1 - страница 35




Иерархическая кластеризация (Hierarchical clustering) – это алгоритм машинного обучения без контроля, который используется для группировки непомеченных точек данных, имеющих сходные характеристики. Алгоритмы иерархической кластеризации делятся на две категории. Агломерационные иерархические алгоритмы. В агломерационных иерархических алгоритмах каждая точка данных обрабатывается как один кластер, а затем последовательно объединяется или агломерирует (подход снизу вверх) пары кластеров. Иерархия кластеров представлена в виде дендрограммы или древовидной структуры. Разделительные иерархические алгоритмы. С другой стороны, в разделительных иерархических алгоритмах все точки данных обрабатываются как один большой кластер, а процесс кластеризации включает в себя разделение (нисходящий подход) одного большого кластера на различные маленькие кластеры.


Иерархический файл(Hierarchical file) – этот файл содержит информацию, собранную по нескольким единицам анализа в разных типах записей. Например, физическая жилая структура может быть одной единицей, а отдельные люди в структуре – другой. Примером может служить Текущее обследование населения: годовой демографический файл, в котором есть единицы анализа домохозяйства, семьи и человека. Исследования, включающие данные для разных единиц анализа, часто связывают эти единицы друг с другом, так что, например, можно анализировать людей по мере того, как они группируются в структуру.


Избирательное линейное разрешение определенного предложения(также просто разрешение SLD) (Selective Linear Definite clause resolution) – это основное правило вывода, используемое в логическом программировании. Это уточнение решения, которое является и правильным, и полным опровержением оговорок Хорна.


Извлечение знаний (Knowledge extraction) – это извлечение существующего содержимого из структурированных или неструктурированных баз данных. Создание знаний из структурированных (реляционные базы данных, XML) и неструктурированных (текст, документы, изображения) источников. Полученные знания должны быть в машиночитаемом и машино-интерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя он методически похож на извлечение информации (NLP) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему. Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий), либо генерации схемы на основе исходных данных.


Извлечение сущностей (Entity extraction) – это общий термин, относящийся к процессу добавления структуры к данным для того, чтобы машина смогла их прочитать. Извлечение сущностей может выполняться человеком или с помощью модели машинного обучения.


Изучение онтологий (Ontology learning) —– это подзадача извлечения информации. Ее целью является полуавтоматическое извлечение соответствующих понятий и отношений из заданного наборов данных для формирования онтологии. «Онтология» – философская наука о бытии, основных видах и свойствах бытия. Автоматическое создание онтологий – задача, затрагивающая многие дисциплины. Как правило, процесс начинается с извлечения терминов и понятий или именных словосочетаний из обычного текста с использованием метода извлечения терминологии. Обычно для этого используются лингвистические процессы (например, маркировка частей речи, фрагментация фраз).