КонтрПлагиат методом перефразирования и рерайта для антиплагиат ВУЗ. Как повысить оригинальность текста за несколько часов и пройти проверку с первого раза - страница 3
Написание уникального текста, будь то реферат, курсовая или ВКР, может показаться на первый взгляд несложным процессом: грамотный подбор синонимов, перестановка слов и словосочетаний – и работа уникальна и готова к сдаче! Однако на практике оказывается, что реальность не так проста. Процесс проверки текста в системе антиплагиата проходит несколько этапов:
– Первичная обработка текста – удаление стоп-слов, знаков препинания и неалфавитных символов. Что может относится к стоп-словам: предлоги, а также слова не несущие смысловой нагрузки – без, быть, все, вы, для, его, есть, или, как, когда, кто, меня, мне, так, там, уже, чего, что, чтобы, этой, этом, этот, анализ, исследование, метод, результаты, данные, модель, проблема, теория, гипотеза, область, фактор, переменная, эффект, показатель, доказательство, вывод и т. д.
– Лемматизация – приведение слов к их нормальной форме, например, фраза: «Учитывая складывающуюся в стране ситуацию, использовать какую-либо систему проверки на плагиат (даже со всеми ее недостатками) – необходимо», примет вид «Учитывать складываться страна ситуация, использовать система проверка на плагиат (недостаток) – необходимо».
– Хеширование слов – каждое лемматизированное слово хешируется (предобразование в выходную битовую строку установленной длины) с помощью хеш-функции для унификации длины и упрощения сортировки.
– Формирование хеша шинглов (словосочетания из n-слов, n-граммы, рис. 3) – последовательность хешей слов представляется в виде значений, то есть перекрывающихся последовательностей из n хешей заданной длины шингла. Как правило, первично, используется шингл, состоящий из двух слов.
Рисунок 3 – Шинглы, состоящие из двух слов
– Хеширование значений шинглов.
– Запись хеша последовательностей с идентификатором текста и местоположением в тексте записывается в специальный файл, называемый индексом. Значения записываются в отсортированном порядке, что позволяет осуществлять двоичный поиск в индексном файле.
Из анализа алгоритма проверки уникальности текстов сервисом антиплагиат можно сделать следующие выводы:
– проверкой учитываются слова, несущие смысловую нагрузку. Введение в текст водянистых терминов – «по нашему мнению», «исходя из анализа», «подводя итог» и т. д. уникальности не прибавляет;
– изменение шинглов из двух слов (биграмм) приводит к повышению уникальности текстов, так как изменяется хеш шинглов;
– уникальность текста нужно повышать не фрагментарно, а целостно, так как это изменяет общее хеш-значение.
С учётом особенности процесса антиплагиат-проверки для создания качественного уникального научного текста используются три основных приёма:
– Обычный (легкий, поверхностный) рерайтинг. Для антиплагиат-сервисов, как правило, он не подходит, так как достигаемое отличие текстов (при сверке по шинглам из 2 слов – Ш2) не даёт возможности преодолеть порог срабатывания модуля перефразирования, преодоление которого возможно при показателе отличия текстов Ш2 = 80% и более процентов. Примером обычного рерайта является однократный перевод текста на иностранный язык и обратно на русский, при этом показатель Ш2 лежит в пределах 50—80%.
– Глубокий рерайтинг, текст «пересказывается» с использованием уникальных текстовых комбинаций, что существенно больше, чем перестановка предложений и замена синонимов. Глубокий рерайт даёт отличие текстов по методу сверки Ш2 на уровне 80 и более процентов. Пример глубокого рерайта – последовательный перевод на венгерский-русский + финский-русский + китайский-русский. При выборе языков желательно ориентироваться на объем искажений, получаемых в процессе перевода, наибольшее отличие рерайта от текста донора дадут лексически отдаленные языки, рис. 4, например финский.