Нейросети. Обработка естественного языка - страница 18
Результат выполнения кода, представленного выше, будет включать в себя точность классификации модели на тестовых данных. В коде это вычисляется с помощью следующей строки:
```python
accuracy = accuracy_score(y_test, y_pred)
```
`accuracy` – это значение точности, которое будет выведено на экран. Это число будет между 0 и 1 и показывает, какой процент текстов в тестовом наборе был правильно классифицирован моделью.
Интерпретация результата:
– Если точность равна 1.0, это означает, что модель идеально классифицировала все тексты в тестовом наборе и не допустила ни одной ошибки.
– Если точность равна 0.0, это означает, что модель не смогла правильно классифицировать ни один текст.
– Если точность находится между 0.0 и 1.0, это показывает процент правильно классифицированных текстов. Например, точность 0.8 означает, что модель правильно классифицировала 80% текстов.
Важно помнить, что точность – это только одна из метрик, которые можно использовать для оценки модели. Для полного понимания производительности модели также рекомендуется рассмотреть другие метрики, такие как точность (precision), полнота (recall), F1-мера (F1-score) и матрица ошибок (confusion matrix), особенно если у вас есть несколько классов для классификации.
Этот код демонстрирует основные шаги для создания и обучения CNN модели для классификации текста. Результатом будет точность классификации текстов на категории.
Достичь абсолютной точности (1.0) в реальных задачах классификации текста обычно бывает сложно, так как тексты могут быть многозначными и содержать разнообразные варианты фраз. Тем не менее, можно создать пример кода, где модель будет совершенно точно классифицировать некоторые простые текстовые данные:
```python
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense
from sklearn.model_selection import train_test_split
# Создадим синтетический датасет для иллюстрации
texts = ["Сегодня хорошая погода.", "Завтра будет солнечно.", "Лето – лучшее время года.", "Дождь идет весь день."]
labels = [1, 1, 2, 0] # 0 – дождь, 1 – солнце, 2 – лето
# Токенизация и векторизация текстов (в данном случае, просто индексирование)
tokenizer = tf.keras.layers.TextVectorization()
tokenizer.adapt(texts)
# Создание модели LSTM
model = Sequential()
model.add(tokenizer)
model.add(Embedding(input_dim=len(tokenizer.get_vocabulary()), output_dim=16, input_length=6))
model.add(LSTM(16))
model.add(Dense(3, activation="softmax")) # Три класса: дождь, солнце, лето
# Компиляция модели
model.compile(loss="sparse_categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
# Создание фиктивных данных для обучения и теста
x_train, x_test, y_train, y_test = train_test_split(texts, labels, test_size=0.2, random_state=42)
# Обучение модели
model.fit(x_train, y_train, epochs=10, verbose=0) # Модель будет идеально подстраиваться под эти простые данные
# Оценка модели
accuracy = model.evaluate(x_test, y_test)[1] # Извлекаем точность из метрик
print(f"Точность: {accuracy:.4f}")
```
В данном коде мы имеем простой синтетический датасет с четырьмя текстами, каждому из которых присвоена уникальная метка. Модель LSTM будет идеально обучена для этого набора данных и даст точность 1.0. Однако в реальных задачах точность обычно ниже из-за сложности данных и пересечений между классами.