文章查重易语言源码新版本1.04更新内容:
1.新增历史记录。
2.取消偏移相似度,取消查重单元,取消多线程,改用Redis数据库。
提速十倍+,查重一篇千字文章,200ms内出结果,如果想要更快,用redis连接池试试。

大家2024新年好!
花了一点时间,选了一篇精华帖进行更新,感谢大家曾经给我投的票!

老规矩,全部开源,全部必备文件打包放在云盘,文件126MB,在最后面。
下文附上使用教程、使用说明、注意事项。

如果你运行不了已编译的exe文件,或者打不开源代码,
可能是支持库没装,可能包含EXUI支持库、njRedis支持库、正则表达式支持库
请尝试以下操作:

请注意,必备的文件都存储在【必备支持库及安装包】文件夹里面
1.在该目录下,找到所有的*.fne文件,复制到你的易语言支持库路径下:
举例:D:Program Files (x86)易语言5.92lib

2.在该目录下,找到ExuiKrnln文件夹,复制到你的易语言支持库路径下:
举例:D:Program Files (x86)易语言5.92lib

3.在该目录下,找到所有的*.lib文件,复制到你的易语言支持库路径下:
举例:D:Program Files (x86)易语言5.92static_lib

4.在该目录下,找到Redis-x64-3.0.504.msi文件,双击安装Redis服务(一直下一步即可)。
仅支持64位机,或前往官方github下载:https://github.com/MicrosoftArchive/redis/releases

使用例程:
1.解压压缩包
解压完直接打开源代码【文章查重1.04Redis.e】,或已编译的二进制文件【文章查重1.04.exe】,如果你打不开,看看帖子上面的【使用说明】

2.(可选)安装字体
字体文件放在【字体】文件夹里面,名称:AlibabaPuHuiTi-2-55-Regular.ttf
推荐,因为软件默认字体就是这个

3.导入你的数据集
为了让大家体验该软件查重的功能,压缩包已经附带了数据集。
存于【文章内容】里面,也是默认的扫描路径。
如果你想导入自己的数据集,每个样本对应一个txt文件,请用GBK编码。或自己改一下代码。

打开软件直接点扫描,扫描默认目录,点确认即可。

其他说明】
一、编译后必备文件
ExuiKrnln.dll(EXUI)
EinstoAPI.dll(C++编写的HASH-API)
sqlite3.dll(SQLITE3)
.分词数据库data.db(分词数据库)
.分词数据库Vocabulary.ini(分词数据库其他配置)
.分词数据库idf.txt(词权重)
.分词数据库stopwords.db(停用词)

二、C++ api 源代码
存于dll-source-code.cpp中

三、使用教程

简单的使用例程

重置数据库:单击执行后,保存设置即可重置所有数据。
最大汉明距离:不建议修改。关键词足够多时,根据谷歌大数据总结结果,推荐为3。
性能选择:默认高效模式。精细模式时,耗时更长,但相似度只会更准确。
细分阈值,当分割句子的长度大于该阈值时,会选择使用深度细分模式继续细分句子。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系贝贝进行处理。
本站默认解压密码:www.hibbba.com