2020,流行的匹配词语有学术不端、知网等。知网为学术不端行为的揭露提供了强有力的技术支持。
下面介绍下我们常用的系统:知网与paperpass。知网是官方的系统,大部分学校用的都是知网。paperpass因为操作方便、不太贵且非常严格,被我们大学生广泛使用,我个人初稿修改就用过paperpass。
知网只是众多的查重系统中的一个。这些查重系统的机制都差不多:将论文拆分成好几个部分,然后分别与系统内部的数据库进行比对。
比对都是把你提交的论文拆分成一堆句子,再拆分成一堆关键字,然后与他们维护的数据库做对比,计算重复的文字在你文章里的比重,算法类似于百度的关键字匹配。
这么说,大家也就明白了,你简单地把一个句子的各别词换成同意词,把字句变被字句,加一两个“的”等是不行的,除非你把句子40%的词都换了。
众多的查重系统之间最大的不同就是他们数据库内文献的多少不同,重复的粒度不同,以及重复断定阀值不同。
数据库的大小就不说了,那后两个是什么呢?
查重的粒度指可以被认定为重复句的最小句长。举个例子,现在的系统都把分号与句号当作分句符。paperpass把这个最小句长设为8,这意味着小于8个字的句子无论怎样都不会被认为是重复的,因为没有到人家查重检测的门槛。知网的好像是13。
相似的阀值是指和原文相似多少以上为重复的最小字数。举个例子,paperpass把你的文章中的文字分为三种绿色、橙色与红色,分别表示该句与原文的重复度在40%以下、40%~60%、60%以上。除绿色内容以外,其他内容都会被计算为相似度。
而知网的阀值会把你的文章中的句子分为两类:重复与原创。同时,还要说明一下,这个阀值有可能不是固定的,一般系统会设一个重点检查的论文,比如说,你抄文献A的比较多,知网查出你的文章与A的重复度在5%以上,系统就会重点查A,如果你这句子与A有50%的相似也可能会判为重复。
我所理解的查重系统的大概原理也就这些了。如果想要了解更多知网查重的信息,童鞋们可以到www.ccnki.cc了解查询。