LSH
-
SimHash算法原理深度剖析:从数学基础到概率分析
SimHash算法原理深度剖析:从数学基础到概率分析 相信不少开发者都听说过 SimHash 算法,尤其是在处理海量文本数据去重、相似度比较等场景下。你是不是也好奇,这个听起来有点“神奇”的算法,到底是怎么工作的?别急,今天咱们就来一...
-
ANNS算法在不同数据规模与应用场景中的性能优化
近似最近邻搜索(Approximate Nearest Neighbor Search,简称ANNS)是大规模数据处理中常用的技术,尤其是在高维数据检索、推荐系统、图像搜索等领域。然而,不同的数据规模和场景对ANNS算法的表现有显著影响。...
-
MinHash vs One Permutation Hashing: A Deep Dive into Performance and Application
MinHash 与 One Permutation Hashing 的深度对比:性能与应用解析 哈喽,大家好!我是爱折腾的算法工程师。今天,咱们来聊聊在处理海量数据时,两个非常重要的算法——MinHash 和 One Permutat...
