Интеллектуальный анализ данных. Учебник - страница 7
Тем не менее, обработка естественного языка часто не находит таких сильных связей, как распознавание изображений, потому что обработка естественного языка фокусируется на более простых данных, тогда как распознавание изображений рассматривает очень сложные данные. В этом случае обработка естественного языка не очень хороша, но все же может быть полезна. Рассмотрение обработки естественного языка не всегда является лучшим способом решения проблемы. Обработка естественного языка может быть полезна, если данные простые, но иногда невозможно работать с очень сложными данными.
Этот пример можно применить ко многим различным типам данных, но обработка естественного языка, как правило, более полезна для данных естественного языка, таких как текстовые файлы. Для более сложных данных (таких как изображения) обработки естественного языка часто бывает недостаточно. Если есть проблема с обработкой естественного языка, важно рассмотреть другие методы, такие как определение слов и определение того, какие данные на самом деле хранятся в изображении. Этот тип данных потребует другой структуры данных, чтобы найти взаимосвязь.
С возрастающей сложностью технологий у нас часто нет времени просматривать данные, которые мы просматриваем. Даже если мы посмотрим на данные, мы можем не найти хорошего решения, потому что у нас есть большое количество вариантов, но не так много времени, чтобы рассмотреть их все. Вот почему во многих компаниях есть специалист по данным, который может принять множество различных решений, а затем решить, что лучше всего подходит для данных
Классификация
Классификация – это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «законное», или как «спам», или, может быть, как «удаленное администратором», и если она сделает это правильно, то может пометить электронное письмо как актуально для пользователя.
Однако для серверов классификация более сложна, потому что хранение и передача находятся далеко от пользователей. Когда серверы потребляют огромные объемы данных, проблема в другом. Задача сервера состоит в том, чтобы создать хранилище и передать это хранилище, чтобы серверы могли получить к нему доступ. Таким образом, серверы часто могут избежать разглашения особо конфиденциальных данных, если они могут понять смысл данных при их поступлении, в отличие от обширных пулов данных, часто используемых для электронной почты. Проблема классификации отличается, и к ней нужно подходить по-другому, а существующие системы классификации для серверов не предоставляют интуитивно понятного механизма, позволяющего пользователям обрести уверенность в том, что серверы правильно классифицируют их данные.
Этот простой алгоритм полезен для классификации данных в базах данных, содержащих миллионы или миллиарды записей. Алгоритм работает хорошо, при условии, что все отношения в данных достаточно отличаются друг от друга и что данные относительно малы как в столбцах, так и в строках. Это делает классификацию данных полезной в системах с относительно небольшим объемом памяти и небольшим объемом вычислений, и поэтому классификация больших наборов данных остается серьезной нерешенной проблемой.
Простейшим алгоритмом классификации для классификации данных является метод полной корреляции, также известный как метод корреляции. При полной корреляции у вас есть два набора данных, и вы сравниваете данные одного набора с данными другого набора. Это легко сделать для отдельных фрагментов данных. Следующим шагом является вычисление корреляции между двумя наборами данных. Эта корреляция двух наборов данных говорит вам, какой процент данных составляет каждый набор. Таким образом, используя эту корреляцию, вы можете классифицировать данные либо как один набор, либо как другой, указывая на части набора данных, которые происходят из того или иного набора.