随着人工智能技术的发展,越来越多学生和研究者开始借助AI工具辅助撰写学术论文。然而,不少用户发现:即使内容“原创”,AI生成的论文仍可能被查重系统标记为高重复率,甚至被识别为AIGC(人工智能生成内容)。这背后的原因值得深入探讨。
主流查重平台(如知网、维普、Turnitin等)近年来纷纷引入AI生成内容识别模块。这些系统通过训练大量AI文本样本,能够识别出由大语言模型(如GPT、文心一言、通义千问等)生成的语言模式,包括句式结构、词汇分布、逻辑连贯性等特征。
尽管AI能生成流畅文本,但其输出往往具有高度一致性:例如频繁使用“综上所述”“值得注意的是”“一方面……另一方面……”等固定表达。这类语言在人类写作中虽常见,但当整篇论文都呈现此类风格时,容易被算法判定为非人工创作。
许多AI模型在训练时使用了海量网络文本,其中就包括大量已发表的学术论文。因此,AI在生成内容时可能无意中复现某些原文片段或观点表述,即便未直接复制,也可能因语义高度相似而触发查重警报。
学术论文的核心在于原创性研究。AI生成的内容通常缺乏实验数据、一手调研或深度分析,仅是对已有知识的重组。这种“表面原创”难以通过严谨的学术审查,也更容易被查重系统结合上下文逻辑判断为可疑内容。