<p class="ql-block">论文查重的基础知识和基本原理</p><p class="ql-block">1.提交论文时应了解的知识点</p><p class="ql-block">系统只接收论文的纯文本内容,对于图片,表格,公式编辑器等内容会被忽略。简单来说,就是把word格式的论文全文复制,然后粘贴到txt格式纯文本下能够保存的内容。粘贴文本提交和上传文档提交两种方式本质上是一样的,对于上传文档提交,系统会把文档中的纯文本提取出来粘贴在提交框内,非纯文本内容(图片,表格,公式编辑器等)会被自动忽略。</p><p class="ql-block">2.论文查重后,总体相似度(抄袭率)是如何计算的?</p><p class="ql-block">系统先根据换行符把文章切分成段落,然后再根据标点符号把段落切分成句子,再把每个句子分别进行查重检测。</p><p class="ql-block">论文的查重粒度是句子,两个句子的相似度主要取决于句子包含哪些词,以及词在句子中的位置。目前句子相似度只有文字上的对比,不考虑语义上的相近。如果做到语义上的查重,那我们就没法改重了。</p><p class="ql-block">总体相似度 = 相似字数 / 检测字数</p><p class="ql-block">被系统自动识别出来的非正文部分(如目录,标题,公式,图表,参考文献等)不参与检测,检测字数一般略小于论文字数。</p><p class="ql-block">相似字数 =(句子1字数 * 句子1相似度 + 句子2字数 * 句子2相似度 + ...... + 句子n字数 * 句子n相似度),句子相似度范围0.00~1.00,绿色句子相似度按照0计算。</p><p class="ql-block">3.数据库对比范围</p><p class="ql-block">任何一个查重系统的数据库对比范围都是有限的,所以可能存在虽然论文抄袭了,但是系统没有找到相似来源的情况。我在仔细研究了paperfree之后,下面就以paperfree为对象说一下,对比数据库由本地数据库和网络数据库组成,本地数据库包含历年的学位论文,学术期刊,会议论文,专利论文等等,网络数据库包含百度文库,豆丁文库,道客巴巴,新浪博客等互联网资源。</p><p class="ql-block">4.检测时间与哪些因素有关?</p><p class="ql-block">检测时间一般与论文字数有关, 1 万字左右的论文大概需要3 ~5 分钟。如果在毕业季的高峰时段(15:00~17:00,20:00~23:00),论文提交后还需要排队几分钟才开始检测。</p>