Почему искусственный интеллект - не панацея при прохождении проверки на плагиат?

Как обойти проверку на антиплагиат в 2025 году?

С появлением и массовым внедрением в повседневную жизнь больших языковых моделей (LLM), используемых искусственным интеллектом (ИИ) в нейросетях, наиболее популярными из них стали:

1. GPT-4 (и GPT-3) от OpenAI: Модель, известная своей способностью генерировать высококачественные тексты. Используется в различных приложениях для рерайта и генерации контента.

2. ChatGPT от OpenAI: Основан на моделях GPT и предоставляет интерфейс для интерактивного взаимодействия, включая задачи по рерайтингу и перефразированию.

3. QuillBot: Инструмент для перефразирования, использующий машинное обучение для изменения текста, сохраняя его оригинальный смысл.

4. Paraphraser.io: Онлайн-инструмент для перефразирования, который использует искусственный интеллект для изменения структуры текста.

5. Wordtune: AI-помощник для письма, который помогает с перефразированием и улучшением текста, делая его более читабельным и структурированным.

6. Spinbot: Онлайн платформа для автоматического рерайта, преобразующая текст в новый, уникальный контент.

7. Grammarly: Хотя основная функция Grammarly — это проверка орфографии и грамматики, она также предлагает функции изменения и улучшения текста с использованием AI.

8. Rephrase.info: Простой в использовании инструмент для перефразирования онлайн, который помогает создать уникальную версию введенного текста.

9. Article Rewriter by SmallSEOTools: Бесплатный инструмент, который предлагает базовые функции рерайта для создания уникального содержания из существующего текста.

10. Text Cortex AI: Генератор, ориентированный на создание маркетингового контента, но также может быть использован для перефразирования и рерайта текстов.

Эти инструменты варьируются по уровню сложности и доступности, от простых онлайн-сервисов до сложных нейросетей, интегрируемых в платформы.

На заре их появление настроения рерайтчиков и студентов были радужными: казалось, наконец то найден тот самый волшебный грааль, та самая серебряная пуля, которая наконец-таки победит сервисы проверки текста на оригинальность. С философской точки зрения это вполне оправдано: зачем изобретать велосипед, если он давно уже изобретен? Ведь во всех остальных сферах жизни использование одного и того же текста не считается зазорным, напротив, например, в инструкциях и методических рекомендациях наоборот важно донести по пользователя информацию и никому не придет в голову специально переписывать их, чтобы они не были похоже на предыдущие. Или же в программировании – использовать чужой ранее написанный код не считается зазорным, наоборот, если решение давно изобретено, зачем пытаться изобрести его заново. Да часто это и невозможно, к примеру, методов сортировки имеется только ограниченное количество.

Но почему же именно с плагиатом текста ситуация обратная? По большей части это связано с тем, что системы антиплагиата совершенно не обращают внимание на контекст использования чужого текста. Так, первая глава любой студенческой или в целом научной работы как правило является компиляцией уже имеющихся статей и работ на эту тему. В ней рассматриваются различные точки зрения авторов на проблематику исследования и выявляются методологические подходы для ее решения. Но бездушный антиплагиат все равно запишет все это в плагиат, как бы не расставлялись кавычки.

Казалось бы, решение очень простое – просто не учитывать теоретическую главу исследования при проверке на плагиат, как и скажем список литературы. Но, во-первых, такого указания от Министерства просвещения до сих пор нет, а во-вторых такие же проблемы характерны для всего исследования в целом. Так, устойчивые словосочетания невозможно заменить или выкинуть из текста, и они тоже будут записаны в плагиат. Особенно это характерно для юридических работ, где невозможно не использовать тексты законов и комментарии к ним ведущих юристов.

Итак, с активным внедрением нейросетей казалось, что проблема плагиата будет побеждена – ведь нейросеть сможет пересказать любой текст другими словами, что и требуется антиплагиату. Однако уже довольно давно в «Антиплагиат.ВУЗ» появилась функция для распознавания текстов, созданных нейросетями. Эта функция позволяет идентифицировать текстовые отрывки, написанные с использованием одной из версий ChatGPT, и помечать работу как потенциально подозрительную.

Как «Антиплагиат» распознает сгенерированный текст?

Функция детектирования AI-текстов доступна в платной версии сервиса. Каждая проверка стоит порядка 500 рублей, при единовременной покупке нескольких проверок предоставляются скидки. Алгоритмы распознавания обучены на обширных данных, что минимизирует риск ошибок, утверждают представители «Антиплагиата».

Как объясняют в компании, они самостоятельно создали алгоритм, базируясь на многолетних исследованиях в области обработки естественного языка. Исполнительный директор Юрий Чехович уточнил, что, несмотря на достижения таких моделей, как ChatGPT или Jasper, их тексты все еще заметно отличаются от тех, что написаны человеком.

Система оценивает текст на предмет наличия фрагментов, созданных с использованием языковых моделей начиная с GPT-2, включая те, что используются в современной версии ChatGPT. Если алгоритм находит подобные фрагменты, их выделяют красным цветом, и документ помечается как подозрительный. Методы распознавания основаны на оценке «предсказуемости» каждого слова в тексте. Например, такие приложения, как «Каждый день он ходит на...», значительно более предсказуемо завершат фразу словами «работу» или «учебу». Такая предсказуемость характерна для нейронных сетей, особенно устаревших, хотя и у людей иногда встречаются шаблонные выражения, но менее часто.

Как определить текст, сгенерированный нейросетью:

1. Слишком прямолинейное изложение. Нейросетям свойственно прогнозировать следующее слово, что иногда мешает вести абстрактные рассуждения.

2. Возможны ошибки-фантазии. При недостатке информации нейросеть может генерировать вымышленные данные.

3. Отсутствие персонализации. ChatGPT черпает опыт из множества источников, но не обладает глубокой экспертизой, как человек.

В данном исследовании https://t-j.ru/can-you-trick-anitplagiat/ авторы использовали ChatGPT для создания научной статьи на экономическую тематику без ручной правки. Всего было сгенерировано 12 текстов, включая разные версии GPT-моделей, на русском и английском языках. Затем английские тексты переводили через нейросетевой переводчик DeepL без редактуры. Исследовали, как это влияет на детектирование «Антиплагиатом».

В нескольких случаях «Антиплагиат» успешно определил фрагменты, созданные нейросетью, а максимальная уникальность была у текстов, сначала сгенерированных на английском и затем переведенных на русский.

Можно ли обойти «Антиплагиат»?

Некоторые пользователи смогли обойти функцию распознавания, отредактировав текст вручную или изменив его структуру. Вмешательство человека в изначально сгенерированную работу позволяет повысить вероятность прохождения проверки.

Выводы:

1. Полностью сгенерированный в ChatGPT текст скорее всего будет отмечен как подозрительный.

2. Англоязычный текст, переведенный на русский, имеет больше шансов пройти проверку.

3. Комбинация нейросетевого и ручного рерайта текстовых блоков повышает шансы на успешное прохождение проверки, но устойчивые выражения и термины не получится исключить или заменить целиком.