论文查重的基础知识和基本原理

外文期刊投稿咨询

论文查重的基础知识和基本原理1.提交论文时应了解的知识点系统只接收论文的纯文本内容，对于图片，表格，公式编辑器等内容会被忽略。简单来说，就是把word格式的论文全文复制，然后粘贴到txt格式纯文本下能够保存的内容。粘贴文本提交和上传文档提交两种方式本质上是一样的，对于上传文档提交，系统会把文档中的纯文本提取出来粘贴在提交框内，非纯文本内容（图片，表格，公式编辑器等）会被自动忽略。2.论文查重后，总体相似度（抄袭率）是如何计算的？系统先根据换行符把文章切分成段落，然后再根据标点符号把段落切分成句子，再把每个句子分别进行查重检测。论文的查重粒度是句子，两个句子的相似度主要取决于句子包含哪些词，以及词在句子中的位置。目前句子相似度只有文字上的对比，不考虑语义上的相近。如果做到语义上的查重，那我们就没法改重了。总体相似度 = 相似字数 / 检测字数被系统自动识别出来的非正文部分（如目录，标题，公式，图表，参考文献等）不参与检测，检测字数一般略小于论文字数。相似字数 =（句子1字数 * 句子1相似度 + 句子2字数 * 句子2相似度 + ...... + 句子n字数 * 句子n相似度），句子相似度范围0.00~1.00，绿色句子相似度按照0计算。3.数据库对比范围任何一个查重系统的数据库对比范围都是有限的，所以可能存在虽然论文抄袭了，但是系统没有找到相似来源的情况。我在仔细研究了paperfree之后，下面就以paperfree为对象说一下，对比数据库由本地数据库和网络数据库组成，本地数据库包含历年的学位论文，学术期刊，会议论文，专利论文等等，网络数据库包含百度文库，豆丁文库，道客巴巴，新浪博客等互联网资源。4.检测时间与哪些因素有关？检测时间一般与论文字数有关， 1 万字左右的论文大概需要3 ~5 分钟。如果在毕业季的高峰时段（15:00~17:00,20:00~23:00），论文提交后还需要排队几分钟才开始检测。