HOOOS

文本相似度

不同ANNS算法在图像、文本、基因数据上的性能对比

咱们今天来聊聊近似最近邻搜索（ANNS）算法这个话题。你是不是经常在各种应用里看到“猜你喜欢”、“相关推荐”这类功能？这些功能的背后，ANNS 算法功不可没。简单来说，ANNS 算法就是帮你在一大堆数据里，快速找到和你想要的那个最像的几个...

689 2025/3/18 ANNS 近似最近邻搜索算法比较
别只知道MinHash！这些LSH算法也超好用

咱们聊聊局部敏感哈希（Locality Sensitive Hashing，简称LSH）那些事儿。你可能听说过MinHash，它是LSH家族里的一员猛将，尤其擅长处理集合相似度问题。但LSH可不止MinHash这一把刷子，今天就带你认识一...

822 2025/3/21 LSH MinHash SimHash
SimHash 在大规模文本数据处理中的实战指南，开发者必备！

你好，作为一名开发者，你可能经常需要处理大量的文本数据。无论是搜索引擎、内容推荐系统，还是反抄袭系统，都离不开对文本相似度的计算。而 SimHash 算法，正是一种高效、实用的解决方案。今天，我将带你深入了解 SimHash，探讨它在大规...

726 2025/3/21 SimHash 文本相似度 LSH 大数据算法
SimHash算法原理深度剖析：从数学基础到概率分析

SimHash算法原理深度剖析：从数学基础到概率分析相信不少开发者都听说过 SimHash 算法，尤其是在处理海量文本数据去重、相似度比较等场景下。你是不是也好奇，这个听起来有点“神奇”的算法，到底是怎么工作的？别急，今天咱们就来一...

670 2025/3/21 SimHash 局部敏感哈希文本相似度
SimHash、MinHash、LSH 大比拼：谁才是文本相似度计算之王？

在海量文本数据处理中，如何快速准确地判断两篇文章是否相似，是个老生常谈却又至关重要的问题。你是不是也经常遇到这样的场景：搜索引擎去重、推荐系统内容过滤、论文查重等等？别担心，今天咱们就来聊聊几种常用的文本相似度计算算法，尤其是 SimHa...

776 2025/3/21 文本相似度 SimHash MinHash
LSH 降维与其他降维方法大比拼：PCA、t-SNE，谁才是你的菜？

嘿，大家好，我是数据挖掘小能手。今天，咱们来聊聊在数据处理中，一个非常重要的话题——降维。说到降维，你可能马上会想到几种经典的方法，比如 PCA (主成分分析), t-SNE (t-分布邻域嵌入)，当然，还有咱们今天要重点探讨的 L...

694 2025/3/21 LSH PCA t-SNE 降维数据挖掘
OPH算法揭秘：不只是推荐系统，这些领域它也在发光发热！

不知道你有没有好奇过，刷视频的时候，平台是怎么知道你喜欢看什么的？或者在购物网站上，那些“猜你喜欢”的商品又是怎么挑出来的？这背后，其实藏着很多精妙的算法，OPH (One-Permutation Hashing) 算法就是其中之一。 ...

766 2025/3/21 OPH算法推荐系统数据挖掘
k-NN算法在文本聚类中的应用：参数选择与调优

你有没有想过，海量的文本数据（比如新闻、博客、评论）是如何被自动归类的？这背后，有一种叫做“文本聚类”的技术在默默发挥作用。而k-NN（k-Nearest Neighbors，k近邻）算法，作为一种简单又有效的机器学习算法，在文本聚类中...

570 1 2025/3/22 k-NN算法文本聚类参数调优
Faiss 索引的未来展望探索向量搜索技术的无限可能

嘿，小伙伴们，大家好呀！我是你们的老朋友——一个热爱技术，喜欢分享的码农。今天咱们聊点啥呢？聊聊一个在当下火得发烫，未来更是潜力无限的技术—— Faiss！什么是 Faiss？为啥这么火？简单来说，Faiss 就是一个由 ...

702 2025/3/28 Faiss 向量搜索索引相似性搜索机器学习