网页
-
中国稀有姓氏排行榜
例如,李、王、张三个大姓人口均接近1亿,都超过中国大陆总人口的7%;占中国大陆总人口1%以上的姓氏共有18个,占人口0.1%以上的姓氏共有129个,而这129个姓氏的人口约占中国大陆总人口的87%。 由于中国姓氏数量众多,其中有一些姓...
-
别只知道MinHash!这些LSH算法也超好用
咱们聊聊局部敏感哈希(Locality Sensitive Hashing,简称LSH)那些事儿。你可能听说过MinHash,它是LSH家族里的一员猛将,尤其擅长处理集合相似度问题。但LSH可不止MinHash这一把刷子,今天就带你认识一...
-
SimHash算法原理深度剖析:从数学基础到概率分析
SimHash算法原理深度剖析:从数学基础到概率分析 相信不少开发者都听说过 SimHash 算法,尤其是在处理海量文本数据去重、相似度比较等场景下。你是不是也好奇,这个听起来有点“神奇”的算法,到底是怎么工作的?别急,今天咱们就来一...
-
LSH哈希函数设计与选择:MinHash、SimHash及其他
LSH 哈希函数设计与选择:MinHash、SimHash 及其他 想必你已经对局部敏感哈希(Locality Sensitive Hashing,LSH)有了相当的了解,LSH 的核心思想在于利用哈希函数将高维数据映射到低维空间,同...
-
MinHash vs One Permutation Hashing: A Deep Dive into Performance and Application
MinHash 与 One Permutation Hashing 的深度对比:性能与应用解析 哈喽,大家好!我是爱折腾的算法工程师。今天,咱们来聊聊在处理海量数据时,两个非常重要的算法——MinHash 和 One Permutat...
-
中文词形还原方法大揭秘:规则、词典与代码实战
“词形还原”这个词,听起来有点儿学术,但其实它就在我们身边。想想你平时用搜索引擎的时候,输入“苹果的功效”和“苹果功效”,得到的结果是不是差不多?这就是词形还原在起作用。简单来说,词形还原就是把一个词的不同形态,比如“吃”、“吃了”、“正...
-
Faiss nprobe 调优:可视化召回率与速度权衡曲线
Faiss 性能调优?别只盯着 nprobe 干瞪眼! 用 Faiss 做向量搜索的朋友们,是不是经常遇到这个灵魂拷问: nprobe 这个参数,到底设成多少才合适?设小了吧,搜得飞快,结果召回率惨不忍睹;设大了吧,召回率是上去...
-
Playwright与Selenium分布式爬虫实战:架构师如何平衡扩展性、稳定性与成本
当我们需要抓取动态渲染的网页时,传统爬虫束手无策。作为架构师,我经历过这样的技术选型痛苦: 某电商项目需要实时监控5000+商品页面 反爬机制导致普通请求失效率高达60% 动态加载内容让XPath选择器集体失灵 这...
-
Playwright Browser Contexts 在高并发场景下的妙用:提升系统稳定性与性能的秘诀
作为一名测试工程师,我经常需要模拟真实用户场景来测试Web应用的性能和稳定性。在高并发场景下,如何有效地模拟大量用户同时访问和操作,一直是困扰我的难题。最近,我深入研究了 Playwright 的 Browser Contexts 功能,...
-
专注力提升秘籍? 告别分心,效率翻倍的科学方法!
你是否也曾遇到这样的困境?工作时,一会儿看看手机,一会儿又被无关紧要的邮件吸引;学习时,明明坐在书桌前,思绪却早已飞到九霄云外。注意力涣散,似乎成了现代人的通病。但别担心,专注力并非天生,后天完全可以培养!今天,我就来和你聊聊专注力背后的...
