КонтрПлагиат методом перефразирования и рерайта для антиплагиат ВУЗ. Как повысить оригинальность текста за несколько часов и пройти проверку с первого раза - страница 3



Написание уникального текста, будь то реферат, курсовая или ВКР, может показаться на первый взгляд несложным процессом: грамотный подбор синонимов, перестановка слов и словосочетаний – и работа уникальна и готова к сдаче! Однако на практике оказывается, что реальность не так проста. Процесс проверки текста в системе антиплагиата проходит несколько этапов:

– Первичная обработка текста – удаление стоп-слов, знаков препинания и неалфавитных символов. Что может относится к стоп-словам: предлоги, а также слова не несущие смысловой нагрузки – без, быть, все, вы, для, его, есть, или, как, когда, кто, меня, мне, так, там, уже, чего, что, чтобы, этой, этом, этот, анализ, исследование, метод, результаты, данные, модель, проблема, теория, гипотеза, область, фактор, переменная, эффект, показатель, доказательство, вывод и т. д.

– Лемматизация – приведение слов к их нормальной форме, например, фраза: «Учитывая складывающуюся в стране ситуацию, использовать какую-либо систему проверки на плагиат (даже со всеми ее недостатками) – необходимо», примет вид «Учитывать складываться страна ситуация, использовать система проверка на плагиат (недостаток) – необходимо».

– Хеширование слов – каждое лемматизированное слово хешируется (предобразование в выходную битовую строку установленной длины) с помощью хеш-функции для унификации длины и упрощения сортировки.

– Формирование хеша шинглов (словосочетания из n-слов, n-граммы, рис. 3) – последовательность хешей слов представляется в виде значений, то есть перекрывающихся последовательностей из n хешей заданной длины шингла. Как правило, первично, используется шингл, состоящий из двух слов.


Рисунок 3 – Шинглы, состоящие из двух слов


– Хеширование значений шинглов.

– Запись хеша последовательностей с идентификатором текста и местоположением в тексте записывается в специальный файл, называемый индексом. Значения записываются в отсортированном порядке, что позволяет осуществлять двоичный поиск в индексном файле.

Из анализа алгоритма проверки уникальности текстов сервисом антиплагиат можно сделать следующие выводы:

– проверкой учитываются слова, несущие смысловую нагрузку. Введение в текст водянистых терминов – «по нашему мнению», «исходя из анализа», «подводя итог» и т. д. уникальности не прибавляет;

– изменение шинглов из двух слов (биграмм) приводит к повышению уникальности текстов, так как изменяется хеш шинглов;

– уникальность текста нужно повышать не фрагментарно, а целостно, так как это изменяет общее хеш-значение.

С учётом особенности процесса антиплагиат-проверки для создания качественного уникального научного текста используются три основных приёма:

– Обычный (легкий, поверхностный) рерайтинг. Для антиплагиат-сервисов, как правило, он не подходит, так как достигаемое отличие текстов (при сверке по шинглам из 2 слов – Ш2) не даёт возможности преодолеть порог срабатывания модуля перефразирования, преодоление которого возможно при показателе отличия текстов Ш2 = 80% и более процентов. Примером обычного рерайта является однократный перевод текста на иностранный язык и обратно на русский, при этом показатель Ш2 лежит в пределах 50—80%.

– Глубокий рерайтинг, текст «пересказывается» с использованием уникальных текстовых комбинаций, что существенно больше, чем перестановка предложений и замена синонимов. Глубокий рерайт даёт отличие текстов по методу сверки Ш2 на уровне 80 и более процентов. Пример глубокого рерайта – последовательный перевод на венгерский-русский + финский-русский + китайский-русский. При выборе языков желательно ориентироваться на объем искажений, получаемых в процессе перевода, наибольшее отличие рерайта от текста донора дадут лексически отдаленные языки, рис. 4, например финский.