SimHash、MinHash、LSH 大比拼：谁才是文本相似度计算之王？

在海量文本数据处理中，如何快速准确地判断两篇文章是否相似，是个老生常谈却又至关重要的问题。你是不是也经常遇到这样的场景：搜索引擎去重、推荐系统内容过滤、论文查重等等？别担心，今天咱们就来聊聊几种常用的文本相似度计算算法，尤其是 SimHash、MinHash 和 LSH，看看它们各自有什么“独门绝技”，又分别适合什么样的“战场”。

先别急着看公式，咱们先来个形象的比喻。想象一下，你要在一堆苹果里找出两个最像的。你怎么做？

方法一： 你可以仔细比较每个苹果的大小、颜色、形状、纹理……然后给每个苹果打个分，最后比较分数。（这就像传统的基于特征向量的相似度计算方法，比如 TF-IDF）
方法二： 你可以把每个苹果都拍张照片，然后把照片缩小成“指纹”，再比较指纹的相似度。（这就是 SimHash、MinHash 和 LSH 这类局部敏感哈希算法的思路）

显然，第二种方法更高效，尤其是在苹果数量巨大的时候。但不同的“指纹”生成方法，效果和效率也大相径庭。下面咱们就来逐一揭秘 SimHash、MinHash 和 LSH 的“指纹”生成术。

一、 SimHash：化繁为简的“降维打击”

SimHash 是一种降维技术，可以将高维的特征向量（比如一篇文章的关键词及其权重）映射成一个低维的二进制指纹（比如 64 位）。它的核心思想是：

分词、加权： 先对文本进行分词，得到每个词的权重（比如 TF-IDF 值）。
哈希： 对每个词计算一个 n 位的哈希值（比如 64 位）。
加权合并： 对每个词的哈希值，如果某一位是 1，则加上该词的权重；如果是 0，则减去该词的权重。这样就得到一个 n 维的向量。
降维： 对上一步得到的 n 维向量，如果某一位大于 0，则设为 1；否则设为 0。最终得到一个 n 位的二进制指纹。

这个过程，就像把一个复杂的苹果，用一组简单的“是”或“否”的问题来描述：是不是红色的？是不是圆形的？有没有疤痕？……最后得到一个“是/否”序列，作为苹果的指纹。

SimHash 的优点：

简单高效： 计算速度快，存储空间小。
对相似文本敏感： 相似的文本，其 SimHash 指纹也相似（汉明距离较小）。

SimHash 的缺点：

对短文本效果不佳： 短文本的特征较少，容易产生“指纹冲突”。
对不相似文本的区分度不够： 即使两篇完全不同的文章，也可能因为关键词的哈希值分布不均，导致 SimHash 指纹相似。

二、 MinHash：集合相似度的“精准刻画”

MinHash 是一种估计集合相似度的算法。在文本相似度计算中，可以将每篇文章看作一个词的集合，然后用 MinHash 来估计两篇文章的 Jaccard 相似度（即两个集合的交集大小除以并集大小）。

MinHash 的核心思想是：

随机排列： 对所有可能的词（或 n-gram）进行多次随机排列。
取最小值： 对每次排列，记录每篇文章中第一个出现的词（或 n-gram）的哈希值。这样，每篇文章就得到一个由多个最小值组成的向量。
估计相似度： 两篇文章的 MinHash 向量中，相同元素的比例，就是它们 Jaccard 相似度的估计值。

这个过程，就像给每个苹果都拍几张不同角度的照片，然后比较照片中最小的像素值是否相同。如果相同像素值的比例越高，就说明两个苹果越相似。

MinHash 的优点：

理论保证： MinHash 是 Jaccard 相似度的无偏估计，具有良好的理论基础。
对短文本效果较好： 即使是短文本，也能通过多次随机排列，得到较为稳定的相似度估计。

MinHash 的缺点：

计算量较大： 需要进行多次随机排列和哈希计算。
存储空间较大： 需要存储每篇文章的 MinHash 向量。

三、 LSH：局部敏感哈希的“家族”

LSH（Locality Sensitive Hashing）不是一种具体的算法，而是一类算法的统称。它的核心思想是：设计一种哈希函数，使得相似的输入项，以较高的概率映射到相同的哈希桶中；而不相似的输入项，则以较低的概率映射到相同的哈希桶中。

SimHash 和 MinHash 都可以看作是 LSH 的特例。但 LSH 还有很多其他的变种，比如：

基于 p-stable 分布的 LSH： 适用于欧氏距离下的相似度搜索。
基于余弦相似度的 LSH： 适用于向量的夹角相似度搜索。
基于编辑距离的 LSH： 适用于字符串的编辑相似度搜索。

这些 LSH 算法，就像给苹果拍不同类型的照片（比如 X 光片、红外线照片），然后根据不同照片的特征，来判断苹果的相似度。

LSH 的优点：

适用范围广： 可以根据不同的相似度度量，选择不同的 LSH 算法。
可扩展性强： 可以通过增加哈希函数的数量或哈希桶的数量，来提高相似度搜索的准确率。

LSH 的缺点：

参数选择困难： 需要根据数据的分布和相似度度量，选择合适的哈希函数和参数。
可能存在假阳性和假阴性： 相似的输入项可能被映射到不同的哈希桶中（假阴性），不相似的输入项也可能被映射到相同的哈希桶中（假阳性）。

四、算法对比与选择

说了这么多，到底该怎么选呢？咱们来个总结对比：

算法	优点	缺点	适用场景
SimHash	简单高效，计算速度快，存储空间小。	对短文本效果不佳，对不相似文本的区分度不够。	大规模长文本的快速去重，对精度要求不高的场景。
MinHash	理论保证，对短文本效果较好。	计算量较大，存储空间较大。	短文本相似度计算，对精度要求较高的场景。
LSH	适用范围广，可扩展性强。	参数选择困难，可能存在假阳性和假阴性。	各种相似度搜索场景，对性能和精度有不同要求的场景。

其实，没有哪种算法是“万能”的，关键是要根据具体的应用场景和数据特点，选择合适的算法。有时候，还可以将多种算法结合起来使用，取长补短，达到更好的效果。

比如，在搜索引擎中，可以先用 SimHash 对海量网页进行快速去重，然后再用 MinHash 或 LSH 对候选网页进行更精细的相似度排序。在推荐系统中，可以用 LSH 对用户和物品的特征向量进行相似度搜索，快速找到用户可能感兴趣的物品。

总之，文本相似度计算是一个充满挑战和乐趣的领域。希望今天的分享能给你带来一些启发，让你在处理文本数据时更加游刃有余！

如果你还有什么问题，或者想了解更多关于文本相似度计算的知识，欢迎在评论区留言，咱们一起交流学习！

SimHash、MinHash、LSH 大比拼：谁才是文本相似度计算之王？

一、 SimHash：化繁为简的“降维打击”

二、 MinHash：集合相似度的“精准刻画”

三、 LSH：局部敏感哈希的“家族”

四、 算法对比与选择

点评评价

四、算法对比与选择