近年來學術界的論文、作業抄襲事件頻傳,文件比對技術的研究成為重要的議題。過去的文件比對研究,主要是運用統計、向量、矩陣及移動位置等方式進行,但只要抄襲者在字串間加入贅詞或將句子進行部分修飾後,抄襲比對系統通常無法正確的比對出抄襲的段落,因而助長了學生抄襲的投機心態。本研究利用中文斷詞(Chinese Word Segmentation)及資料庫集合運算(Database Set Operation)為基礎,建構一個字串比對系統,以解決贅詞過多及詞彙順序問題。本研究利用中文斷詞方式將字串斷成許多詞彙,並使用