加入收藏 | 设为首页 | 会员中心 | 我要投稿 银川站长网 (https://www.0951zz.com/)- 云通信、基础存储、云上网络、机器学习、视觉智能!
当前位置: 首页 > 站长资讯 > 动态 > 正文

微信向量检索分析一体化数仓探寻OLAP For Embedding

发布时间:2023-11-03 09:17:28 所属栏目:动态 来源:
导读:全世界对过去一年所开发的大型语言模型( LLM)以及类似的产品非常感兴趣。这些产品的出现催生了一场新的科技革命。embedding 和 vector search(向量搜索)的概念是支持推荐、问答、图像搜索等功能的核心。于是,我们

全世界对过去一年所开发的大型语言模型( LLM)以及类似的产品非常感兴趣。这些产品的出现催生了一场新的科技革命。embedding 和 vector search(向量搜索)的概念是支持推荐、问答、图像搜索等功能的核心。

于是,我们协助画像业务进行 Pipeline 架构改造,实现画像 embedding 从“季度更新”到“日更新”的功能架构升级,以及 All in One 分析处理体验;这让画像刻画“更实时、更准确”,诸多业务指标显著提升!

文本搜索:传统的检索是基于文本分词的精确匹配;早期全文检索引擎都是基于不同的索引方式(倒排索引,BTree 等)加上精确匹配和排序算法(BM25、TF-IDF)等实现的,代表如早期的 Elastic Search (ES);但它的局限性仍然很显著,就是无法表达图像,或是音频,甚至是近似类型的词等更多种模态中的数量的通用形式的信息。

语义检索:通用的语义检索,通过深度学习的训练,将真实世界数字化后的离散特征提取出来,投影到数学空间上,同时神奇的保留距离之间相似度的能力,这就是 embedding;例如:”图片“通过 embedding 映射在高维空间,图片的相似度检索就会变成“高维空间”Top K“距离求解”问题,也就是近似向量检索问题(Approximate Nearest Neighbor Search, ANNS)。

我们基于 ClickHouse 原生的向量数据库能力,在微信实际应用场景中进行了探索,取得了不错的效果:

1.用户 lookalike 定向场景:短视频红点投放中,例如客户提供万级量级种子包,画像系统使用 embedding 表征用户的特征和行为。

2.文章 embedding 近似度分析:算法调试检索场景;例如实现一个——给“用户 A”推荐与 A“阅读习惯类似群体”阅读过的文章这个策略。研究员一般会采用不同 embedding 模型 + 多类距离计算方式 +不同的算法组合策略等方式,尝试调试出主观上表现好召回策略,后续再上 AB 实验分析。这个问题的核心是,如何在一个大规模的网络中,通过多种算法组合策略,实现对召回策略的优化。

(编辑:银川站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章