什么是“查重很低但是AIGC很高”?
这一现象指的是:某篇文本在传统的查重系统(如Turnitin、知网等)中显示的重复率非常低,表明其与已有文献的相似度不高,具有较高的“原创性”;但同时,在专门的AIGC检测工具(如GPTZero、ZeroGPT等)中,却被判定为由人工智能(AI)生成的概率非常高。
简而言之,就是内容“看起来”是原创的(非抄袭),但“感觉上”是机器写的(非人写)。
为什么会发生这种情况?
主要原因在于两种检测技术的原理不同:
- 查重系统:主要通过比对文本与数据库中的现有文献,寻找字词、短语或句子的直接匹配或高度相似片段。它关注的是“内容来源”是否重复。
- AIGC检测器:则分析文本的“内在特征”,如词汇多样性、句法结构、逻辑连贯性、困惑度(perplexity)、突发性(burstiness)等。AI生成的文本往往在这些统计特征上表现出特定的模式(例如,过于流畅、用词中庸、缺乏深度个人化表达或情感波动)。
因此,一个由AI精心生成的文本,虽然在字面上与任何现有文献都不重复(查重低),但其“写作指纹”却暴露了其非人类的来源(AIGC高)。
这种现象的影响
这对学术诚信、内容创作和出版等领域提出了新的挑战:
- 学术领域:学生可能利用AI生成看似原创的论文,规避查重,但内容缺乏深度思考和真实研究过程。
- 内容创作:网站或媒体可能用AI批量生成“原创”内容以优化SEO,但内容质量可能低下,缺乏独特见解。
- 信任危机:读者难以判断内容的真实性与作者的投入程度,可能导致对信息源的信任度下降。
如何应对?
面对这一现象,可以从多个角度入手:
- 教育与意识:加强学术伦理教育,让学生和作者理解AI工具的合理使用边界。
- 技术结合:机构应同时使用查重工具和AIGC检测工具进行综合评估,不能仅依赖查重率。
- 人工评审:对于高AIGC风险的文本,应进行更深入的人工审阅,关注论证深度、创新性和个人风格。
- 政策制定:明确在特定场景(如学术发表、作业提交)中使用AI生成内容的规范和披露要求。
结语
“查重很低但是AIGC很高”是AI技术发展带来的新课题。它提醒我们,评价内容的价值,不能只看表面的“原创性”,更要关注其背后的思维过程、知识深度和人文价值。未来,人机协作的智慧将比单纯的技术对抗更为重要。