向量图数据库:大模型时代的崭新数据基础设施

2023-11-01


近期,渊亭科技技术委员会牵头组织了企业内部大模型专题系列培训会,旨在提高员工在大模型领域的专业知识和技能。培训会主题丰富,涵盖了大模型的原理、特点、应用场景以及构建和训练方法等多个方面。在培训过程中,天机·军事大模型产品的核心研发人员与小伙伴们一起深入探讨大模型相关的原理和特点,并学习了如何根据最前沿的技术与工具来构建和训练大模型。


以下为《大模型与向量图数据库》主题培训的重点内容整理,抛砖引玉供大家参考。



向量图数据库是支持向量存储和查询的图数据库,涵盖了知识图谱和大模型技术这两大热门领域。运用该技术可以解决当前知识图谱产品的困境,并成为大语言模型的知识大脑。 知识工程的底层存储从简单的键值对存储结构演变为复杂的文档和图数据库存储结构,但仍存在许多使用上的瓶颈,难以普及。大模型的到来给知识工程带来了冲击,也带来了新的机遇。本文从知识工程、大模型、向量数据库、图数据库角度出发分析,并结合相关技术特点,介绍图向量数据库的设计想法和应用。





在构建知识图谱时,图数据面临着处理多模态数据的挑战,包括处理命名和描述差异导致的知识融合困难以及知识查询困难。不同领域和不同来源的数据,包括文本、图像、音频、视频等多模态数据需要融合修正以构建完整知识图谱,这需要投入大量人力和时间。


多模态数据处理对知识图谱至关重要,但是图数据库无法适应简化数据处理需求,所以无法在中小企业中广泛的应用。



通过对具备行业知识的向量数据库进行提示优化或者微调训练,得到具备行业知识的大模型,并将其作为知识工程的核心。

1、大模型通常通过深度学习算法在向量数据库上进行训练,能够捕捉到更多的语义信息和上下文关系,从而提高知识工程的整体效果。

2、大模型可以提供更好的相似性度量指标,用于评估向量之间的相似性。这对于知识工程中的搜索、推荐和关联分析等任务非常重要。

3、大模型还可以提供更好的上下文理解能力。传统的数据库在处理复杂的语义关系时可能存在一定的限制,而大模型可以通过学习语义上的关联性来更好地捕捉上下文信息。


那图数据库是否就无法使用?这就引出了我们思考:图数据库能否集成向量数据库能力加入大模型生态?



向量数据库通过使用Embedding模型,将多模态数据转化为保留语义关系的向量数据进行存储。同时,它还构建了向量索引,通过计算相似度,能够快速查找出与语义表达最接近的前N个数据库的关键技术。 


图:向量数据库的使用流程


作为图数据库的技术人员,笔者对向量数据库的使用进行了研究,并得到了结果:向量和图数据库的结合是下一代知识工程数据基座的理想选择。



比较可以看出:两者在数据存储方式、查询方式、数据处理能力以及应用场景等方面存在差异,各自适用于不同类型的数据处理任务。





图:HNSW的结构(图片来源于网络)


HNSW创建了一个有层次的树状结构,其中每个节点代表一组向量。这种结构以类似于社交网络的方式连接各个节点,节点之间的连接基于向量之间的相似性。算法首先创建一组初始节点,每个节点都包含少量的随机向量。这些初始节点的构建可以通过随机方式进行,或者通过使用诸如k-means这样的算法将向量进行聚类,每个聚类成为独立的节点。


随后,算法将检查每个节点的向量,并根据相似性将节点相互连接。具体来说,每个节点会与其最相似的向量所对应的节点建立一条连接边。因此,当我们对HNSW索引进行查询时,该索引会利用这个树状图进行导航,以便找到最有可能包含与查询向量最为接近向量的节点。通过这种方式,我们可以在短时间内找到与查询向量最为接近的向量,这极大地提高了查询效率



现在,许多大型科技公司,如OpenAI,都提供自己的Embedding模型,主要是为了将文本转换为保留语义的向量。


VLAD是一种常用于图像和视频检索任务的技术。它的基本思想是将一组局部描述符(如SIFT或SURF特征)聚合为一个单一的向量描述符,这个向量描述符能够捕获集合内部的统计信息。


图:向量化过程(图片来源于网络)



为了从索引向量中找到与查询最接近的邻居,向量数据库应用相似度度量常见的相似度度量包括余弦相似度、点积、欧几里德距离、曼哈顿距离和汉明距离



综上所述,我们可以看出,在构建基于图数据库的知识图谱时,针对图像、文本和音频等多元化数据的处理需求已初现端倪,然而这一直不是图数据库所擅长的领域。此外,在深入挖掘基于语义的关系时,图数据库显得力不从心,无法给出有效的处理。


因此,这引发了我们深入思考:图数据库是否可以与向量数据库集成,借此提升自身能力呢?这种集成的可能性将有望实现多元化数据处理能力的增强,以及更精准地把握语义关系。


从向量数据库的应用场景和关键技术,我们可以看到,向量的存储类似于图数据库中的节点,构建向量索引的过程实际上就是构建图数据库边的过程底层数据的存储结构是一致的。主要的区别在于,向量数据库支持节点向量化、支持构建基于向量的索引以及支持向量高效的查询方法。


图数据库支持向量化,即向量图数据库将给我带来什么优势?



知识图谱在中小业务系统中并不常见,主要原因是制作、维护和更新知识图谱的成本高昂。此外,将不同的知识图谱结合在一起,虽然功能强大,但需要繁琐的数据清洗过程。即使我们投入大量人力来构建知识图谱,但由谁来决定将动词编码为“is_a”而不是“is a”,以及如何处理首字母大写(同义词、近义词等)和消歧义等问题呢?这是一个既困难又脆弱的过程。实际上,我们所关心的是关系,但繁琐的清洗和融合过程阻碍了我们的进步。


如今,随着GPT等LLM的崛起,我们探索出了新的道路。例如,通过图向量数据库,将节点的产描述进行Embedding转换并存储为向量如果两个向量在相似度度量上的值接近,那我们可以认为它们在语义上是相关的。


比如下面展示了一些存储了向量的节点:


图:未建立语义关系&建立语义关系对比(图片来源于网络)


在图数据库中,它们是离散且没有明确关系的。通过将节点名称和描述根据语义进行Embedding向量化,并利用HNSW算法将语义相近的点建立邻居关系,我们能够实现语义查询。例如,如果我们查询的结果是“iPhone”,那么根据语义,我们就可以获得与iPhone最相似的其他智能手机。


图数据库与向量的结合具有独特的优势: 通过确定的节点信息,我们可以直接利用语义关系进行拓展,而无需进行向量搜索。图数据库与向量的无缝融合为数据管理和分析带来了新的思路和技术,开启了未知领域。



向量嵌入和隐式接近图方面变得更加厉害。事实上,这种赋权是双向的,可能性是无限的。以下部分是具有高度推测性,也许会引发争议,可以引起讨论。


现在的向量数据在AI中的使用,一般在线性记忆的自主Agent中,类似于ReAct(思考-执行-观察)的反复线性执行来获得最接近的答案。对于各类任务,例如问答、任务执行等,都能获得比单次回答更加准确的结果。


图:Agent对工具的集成(图片来源于网络)


自主Agent模仿了人类行为的交互模式,利用了思维链推理能力。但是,我们知道我们的大脑并不是线性的结构,似乎图结构存储记忆更加适合。在基于LLM代理接近图的随机游走过程中,是否可以探索模糊联想并挖掘出更加有趣的结果?


向量数据库能够很好地支持语义的向量存储和查询,广泛应用于文本、图像、音频等多模态数据的相似度查询。随着大模型的迅速发展,向量数据库面临着更高的要求,例如支持分布式、云原生、大规模数据和高性能等。在下一代向量数据库中,语义查询将不再局限于文本片段和问答搜索,结合知识特征(关联网络)的语义与标量结合的查询将更具优势。


渊亭科技历来重视员工的专业成长和技能提升,通过定期组织专题培训会,为同事们提供各种形式的培训和学习机会,并同步至“星火知识中台”供大家线上学习。该平台集知识管理、学习培训、团队协作于一体,有效地为同事们提供了一个便捷、高效的学习环境。培训主题除技术领域外,还包括管理、销售、工具使用等多个方面,旨在提高员工的工作效率和技能水平,同时也有利于促进企业内部的知识共享和团队协作。渊亭科技公众号将精选优质培训内容,以图文并茂的方式梳理技术知识,助力技术爱好者提升技能,实现技术成长!