问答

请问各位大佬,如何准确汇总相似文章

作者:admin 2021-07-21 我要评论

在摸索学习数据分析处理。 其中在相似文章汇总处卡住,找不到较好的相关教程、文档、思绪。 目前我使用的是simhash,分4分比照,但是效果不佳。 海明距离小于等...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)

在摸索学习数据分析处理。
其中在相似文章汇总处卡住,找不到较好的相关教程、文档、思绪。

目前我使用的是simhash,分4分比照,但是效果不佳。

海明距离小于等于3的基本是原文一字不改的文章。
我发现海明距离9以内的也非常相似。

按照simhash64位分4份,按照1份相同就判断为海明距离3以内。
如果想分为8分,又要怎么计算呢。

我希望实现9以内的能够汇总在一起。

另外请问如何通过标题做相似汇总?

请各位大佬给点思绪或者教程。

不胜感激!以身相许!

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • 请问各位大佬,如何准确汇总相似文章

    请问各位大佬,如何准确汇总相似文章

  • 一个SocketChannel注册到多个Selector

    一个SocketChannel注册到多个Selector

  • spring-task 设置10秒执行一次,怎么每

    spring-task 设置10秒执行一次,怎么每

  • 关于node-sass module build failed

    关于node-sass module build failed

腾讯云代理商
海外云服务器