构建基于Clojure、C++与etcd的分布式实时RAG向量索引服务

分布式架构

文章字数: 3.6k

阅读时长: 16 分

一个纯Python的LlamaIndex原型在处理每秒数百个文档的实时流时遇到了瓶颈。问题很典型：Python的全局解释器锁（GIL）限制了CPU密集型的向量计算和索引构建的并行能力，索引写入操作成为了整个系统的性能瓶颈，阻塞了查询请求。简单的垂直扩展已无济于事，我们需要一个根本性的架构变革，将写入密集型的索引构建与读取密集型的查询服务分离开，并使其具备水平扩展的能力。

初步的构想是拆分服务：一个负责业务流程编排、稳定可靠的服务，以及一个或多个极致性能、专职处理向量运算的底层工作节点。这种异构组合让我们自然地放弃了单一语言栈的限制。

技术选型决策过程很直接：

业务编排层: Clojure。我们需要一个能够处理高并发数据流、管理复杂状态、且运行在稳定平台（JVM）上的语言。Clojure的不可变数据结构、强大的并发原语（如core.async channels）以及与Java生态的无缝互操作性，使其成为构建健壮、高可维护性数据管道和业务逻辑中枢的理想选择。
**高性能索引节点: C++**。向量索引的构建和搜索是纯粹的计算密集型任务，涉及大量的浮点运算和内存操作。C++提供了对内存的精确控制，没有GC停顿，能够最大化利用CPU缓存，是压榨硬件性能极限的不二之选。我们可以直接使用像HNSWLib或Faiss这样的原生库，或者手写特定的优化实现。
服务协调与状态管理: etcd。一旦有了多个C++索引节点，就需要一个机制进行服务发现、状态同步和故障转移。etcd基于Raft协议，提供了高可用的键值存储，非常适合存储节点的健康状态、地址信息、当前负责的索引分片等元数据。它的Watch机制也能让Clojure编排层实时感知到节点的增减变化。
架构思想借鉴: LlamaIndex。我们不再直接使用LlamaIndex的Python库，而是借鉴其核心思想：将文档处理、嵌入生成、索引构建和查询解析的流程进行解耦。我们的系统将重新实现一个分布式的 VectorStoreIndex。

最终的架构图如下：

graph TD
    subgraph "数据源 (Data Sources)"
        A[Kafka/API Stream]
    end

    subgraph "Clojure 编排服务 (Orchestration Service)"
        B(Ingestion Pipeline) -- Clojure core.async --> C{Embedding Model}
        C -- Vectors --> D(Dispatch Logic)
        D -- gRPC Add --> E[C++ Indexing Worker 1]
        D -- gRPC Add --> F[C++ Indexing Worker 2]
        D -- gRPC Add --> G[C++ Indexing Worker N]

        H(Query Service API) -- gRPC Query --> D
    end

    subgraph "etcd 集群 (Coordination)"
        I[(etcd)]
    end

    subgraph "C++ 高性能索引节点 (Indexing Workers)"
        E -- Heartbeat/Register --> I
        F -- Heartbeat/Register --> I
        G -- Heartbeat/Register --> I
    end

    D -- Read Worker List --> I

    style E fill:#f9f,stroke:#333,stroke-width:2px
    style F fill:#f9f,stroke:#333,stroke-width:2px
    style G fill:#f9f,stroke:#333,stroke-width:2px

1. 服务协调层：etcd中的元数据设计

一切的基础是可靠的服务发现。C++工作节点启动后，必须向etcd注册自己，并维持一个租约（lease）来证明其存活。Clojure编排层则通过etcd监视这些注册信息。

etcd中的键结构设计如下：

服务注册: /rag/index/nodes/{node_id} -> {"host": "10.0.1.10", "port": 50051, "shard_id": "shard-A"}
租约: 每个节点在注册时会创建一个租约，并持续续约。如果节点宕机，租约到期，etcd会自动删除对应的键。

以下是Clojure中使用 clj-etcd 库来监视工作节点变化的代码片段。在真实项目中，这会是一个长时间运行的后台进程。

(ns rag-orchestrator.etcd
  (:require [clj-etcd.client :as etcd]
            [cheshire.core :as json]
            [clojure.core.async :as async]))

;; 原子状态，用于存储当前可用的工作节点列表
(defonce active-workers (atom {}))

;; 配置etcd客户端
(def etcd-client (etcd/client "http://etcd-node1:2379,http://etcd-node2:2379"))

(defn parse-worker-info [kv]
  (try
    (let [key (-> kv :key String.)
          node-id (last (clojure.string/split key #"/"))
          val (-> kv :value String. (json/parse-string true))]
      [node-id val])
    (catch Exception e
      ;; 生产环境中需要详细的日志记录
      (println (str "Failed to parse worker info: " (.getMessage e)))
      nil)))

(defn update-active-workers!
  "根据etcd的初始列表更新原子状态"
  [kvs]
  (let [workers (->> kvs
                     (map parse-worker-info)
                     (filter some?)
                     (into {}))]
    (reset! active-workers workers)
    (println (str "Initial workers loaded: " @active-workers))))

(defn watch-worker-nodes
  "启动一个异步进程来监视etcd中节点的变动"
  [prefix]
  (let [watch-chan (async/chan 10)]
    ;; 1. 首先获取一次全量节点列表
    (try
      (let [initial-response (etcd/get etcd-client prefix {:prefix true})]
        (update-active-workers! (:kvs initial-response)))
      (catch Exception e
        (println (str "Failed to get initial worker list: " (.getMessage e)))))

    ;; 2. 启动一个watch
    (etcd/watch etcd-client prefix watch-chan)

    ;; 3. 异步处理watch事件
    (async/go-loop []
      (when-let [event (async/<! watch-chan)]
        (doseq [e (:events event)]
          (let [kv (:kv e)
                [node-id info] (parse-worker-info kv)]
            (cond
              (= :PUT (:type e))
              (do
                (println (str "Worker registered/updated: " node-id))
                (swap! active-workers assoc node-id info))

              (= :DELETE (:type e))
              (do
                (println (str "Worker gone: " node-id))
                (swap! active-workers dissoc node-id)))))
        (recur)))
    watch-chan))

;; 在应用启动时调用
(comment
  (def worker-watcher (watch-worker-nodes "/rag/index/nodes/")))

这个watch-worker-nodes函数不仅在启动时获取了全量的工作节点，还创建了一个core.async的go block来持续处理来自etcd的事件，动态地更新active-workers这个atom。这是Clojure处理并发状态的惯用手法，既安全又高效。

2. 性能核心：C++索引节点的实现

C++节点是整个系统的引擎。我们使用gRPC进行通信，使用etcd-cpp-apiv3库与etcd交互，并集成一个向量索引库（此处以HNSWLib为例）。

gRPC接口定义 (indexing.proto):

syntax = "proto3";

package indexing;

service VectorIndex {
  // 添加或更新文档向量
  rpc Add(AddRequest) returns (AddResponse) {}

  // 查询最相似的K个向量
  rpc Query(QueryRequest) returns (QueryResponse) {}
}

message AddRequest {
  string document_id = 1;
  repeated float vector = 2;
}

message AddResponse {
  bool success = 1;
  string message = 2;
}

message QueryRequest {
  repeated float query_vector = 1;
  int32 k = 2;
}

message QueryResult {
  string document_id = 1;
  float score = 2;
}

message QueryResponse {
  repeated QueryResult results = 1;
}

C++服务核心逻辑 (vector_service.cc):

这里的代码展示了服务的主体部分，包括gRPC服务器的实现、HNSWLib的封装以及与etcd的集成。

#include <iostream>
#include <memory>
#include <string>
#include <vector>
#include <thread>
#include <mutex>

#include <grpcpp/grpcpp.h>
#include "indexing.grpc.pb.h"
#include "hnswlib/hnswlib.h"
#include "etcd/Client.hpp"

// 一个线程安全的HNSWLib索引封装
class ThreadSafeHnswIndex {
public:
    ThreadSafeHnswIndex(int dim, int max_elements)
        : dim_(dim), max_elements_(max_elements) {
        // 初始化HNSW索引
        // 使用L2距离，M是图的连接数，ef_construction是构建时的搜索范围
        index_ = new hnswlib::HnswL2(dim, max_elements, 16, 200);
    }

    ~ThreadSafeHnswIndex() {
        delete index_;
    }

    // 添加向量。注意：HNSWLib的添加操作不是完全线程安全的，
    // 在高并发写入场景下需要外部锁。
    void add_vector(const std::string& id, const std::vector<float>& vec) {
        std::lock_guard<std::mutex> lock(mutex_);
        int label = next_label_++;
        doc_id_map_[label] = id;
        index_->addPoint(vec.data(), label);
    }

    // 查询向量
    std::vector<std::pair<std::string, float>> query(const std::vector<float>& vec, int k) {
        std::lock_guard<std::mutex> lock(mutex_);
        auto result_queue = index_->searchKnn(vec.data(), k);
        std::vector<std::pair<std::string, float>> results;
        while (!result_queue.empty()) {
            auto& top = result_queue.top();
            results.push_back({doc_id_map_[top.second], top.first});
            result_queue.pop();
        }
        // HNSW返回的是距离平方，且是小顶堆，需要反转
        std::reverse(results.begin(), results.end());
        return results;
    }

private:
    hnswlib::HnswL2* index_ = nullptr;
    int dim_;
    int max_elements_;
    std::mutex mutex_;

    // 映射HNSW内部标签到我们的文档ID
    std::unordered_map<int, std::string> doc_id_map_;
    std::atomic<int> next_label_{0};
};

// gRPC服务实现
class VectorIndexServiceImpl final : public indexing::VectorIndex::Service {
public:
    explicit VectorIndexServiceImpl(int dim) : index_(dim, 1000000) {}

    grpc::Status Add(grpc::ServerContext* context, const indexing::AddRequest* request,
                     indexing::AddResponse* response) override {
        std::vector<float> vec(request->vector().begin(), request->vector().end());
        
        // 这里的错误处理需要更完善，比如维度检查
        if (vec.size() != 1536) { // 假设嵌入维度为1536
            response->set_success(false);
            response->set_message("Invalid vector dimension.");
            return grpc::Status(grpc::StatusCode::INVALID_ARGUMENT, "Invalid vector dimension.");
        }
        
        index_.add_vector(request->document_id(), vec);
        response->set_success(true);
        return grpc::Status::OK;
    }

    grpc::Status Query(grpc::ServerContext* context, const indexing::QueryRequest* request,
                       indexing::QueryResponse* response) override {
        std::vector<float> vec(request->query_vector().begin(), request->query_vector().end());
        auto results = index_.query(vec, request->k());
        for (const auto& res : results) {
            auto* query_res = response->add_results();
            query_res->set_document_id(res.first);
            query_res->set_score(res.second);
        }
        return grpc::Status::OK;
    }

private:
    ThreadSafeHnswIndex index_;
};

void register_and_heartbeat(const std::string& etcd_uri, const std::string& node_id, 
                            const std::string& service_address, const std::string& shard_id) {
    etcd::Client etcd(etcd_uri);
    // 创建一个10秒的租约
    etcd::Response lease_resp = etcd.leasegrant(10).get();
    long long lease_id = lease_resp.value().lease();

    std::string key = "/rag/index/nodes/" + node_id;
    std::string value = "{\"host\": \"" + service_address.substr(0, service_address.find(':')) + 
                        "\", \"port\": " + service_address.substr(service_address.find(':') + 1) + 
                        ", \"shard_id\": \"" + shard_id + "\"}";
    
    // 附加租约注册自己
    etcd.put(key, value, lease_id).get();
    std::cout << "Registered to etcd with key: " << key << std::endl;

    // 启动心跳
    while (true) {
        etcd.leaserenew(lease_id);
        std::this_thread::sleep_for(std::chrono::seconds(5));
    }
}

int main(int argc, char** argv) {
    if (argc < 5) {
        std::cerr << "Usage: " << argv[0] << " <etcd_uri> <node_id> <service_address> <shard_id>" << std::endl;
        return 1;
    }
    
    std::string etcd_uri(argv[1]);
    std::string node_id(argv[2]);
    std::string service_address(argv[3]);
    std::string shard_id(argv[4]);

    // 在后台线程中进行etcd注册和心跳
    std::thread etcd_thread(register_and_heartbeat, etcd_uri, node_id, service_address, shard_id);
    etcd_thread.detach();

    // 启动gRPC服务
    VectorIndexServiceImpl service(1536); // 假设嵌入维度
    grpc::ServerBuilder builder;
    builder.AddListeningPort(service_address, grpc::InsecureServerCredentials());
    builder.RegisterService(&service);
    
    std::unique_ptr<grpc::Server> server(builder.BuildAndStart());
    std::cout << "Server listening on " << service_address << std::endl;
    server->Wait();

    return 0;
}

这段C++代码的核心在于：

ThreadSafeHnswIndex: 对hnswlib进行了简单的封装，并使用std::mutex来保护并发写入。在生产环境中，可能需要更精细的锁策略，例如读写锁，或者分段锁来提高并发性能。
register_and_heartbeat: 单独的线程负责与etcd通信。它首先获取一个租约ID，然后将自己的信息与租约绑定写入etcd。之后，它会进入一个循环，定期续租，确保etcd知道它还活着。这是一种健壮的服务注册模式。
main: 解析命令行参数，启动etcd心跳线程，然后构建并启动gRPC服务器，阻塞等待请求。

3. 粘合剂：Clojure编排层的实现

Clojure服务需要消费数据流，调用嵌入模型（通常通过Java库），然后根据某种策略（如轮询、哈希）将向量分发到可用的C++工作节点。

(ns rag-orchestrator.dispatcher
  (:require [rag-orchestrator.etcd :as etcd]
            [clojure.core.async :as async]
            [io.grpc :as grpc]
            [io.grpc.netty :as netty]
            [indexing.VectorIndex.client :as index-client]
            [indexing.messages :as messages]))

;; 假设我们有一个函数来获取嵌入向量
(declare get-embedding-vector)

;; 创建并缓存gRPC客户端连接
(def grpc-clients (atom {}))

(defn get-grpc-client [host port]
  (let [key [host port]]
    (if-let [client (get @grpc-clients key)]
      client
      (let [channel (netty/channel {:host host :port port})
            new-client (index-client/stub channel)]
        (swap! grpc-clients assoc key new-client)
        new-client))))

(defn dispatch-vector-to-worker
  "将单个文档向量发送到选择的worker"
  [doc]
  (try
    ;; 简单的轮询分发策略
    ;; 生产环境应使用更智能的策略，例如基于文档ID的哈希
    (let [workers @etcd/active-workers
          worker-list (vec (vals workers))]
      (when-not (empty? worker-list)
        (let [worker-info (rand-nth worker-list)
              client (get-grpc-client (:host worker-info) (:port worker-info))]
          (->> (index-client/add client 
                 (messages/map->AddRequest {:document_id (:id doc)
                                            :vector (:vector doc)}))
               ;; .get() 会阻塞等待gRPC调用完成，在core.async中应使用异步方式
               ;; 但为简化示例，此处使用同步调用
               (.get))))
    (catch Exception e
      ;; 关键的错误处理：如果一个节点失败，etcd watch会最终移除它。
      ;; 此处需要记录失败，并可能实现重试逻辑。
      (println (str "Failed to dispatch vector for doc " (:id doc) ": " (.getMessage e)))))))

(defn create-ingestion-pipeline
  "创建一个处理文档流的管道"
  [input-chan]
  (let [embedding-chan (async/chan 100)
        dispatch-chan (async/chan 100)]
    ;; 阶段1: 从输入通道读取数据，并进行嵌入计算 (并行化)
    (async/pipeline-blocking
     4 ; 并行度
     embedding-chan
     (map (fn [doc]
            (assoc doc :vector (get-embedding-vector (:content doc)))))
     input-chan)

    ;; 阶段2: 从嵌入通道读取数据，并分发到C++节点 (并行化)
    (async/pipeline
     8 ; 并行度
     dispatch-chan
     (map dispatch-vector-to-worker)
     embedding-chan)

    ;; 可以添加一个消费者来处理分发结果
    (async/go-loop []
      (when-let [result (async/<! dispatch-chan)]
        ;; Log result, etc.
        (recur)))
    
    input-chan))

;; 模拟数据源和嵌入函数
(defn get-embedding-vector [text]
  ;; 在实际项目中，这里会调用一个Java库 (e.g., ONNX Runtime, DJL)
  (repeatedly 1536 #(+ (rand) -0.5)))

(comment
  ;; 启动整个系统
  (etcd/watch-worker-nodes "/rag/index/nodes/")
  
  (def documents-chan (async/chan 100))
  (create-ingestion-pipeline documents-chan)

  ;; 模拟数据流入
  (async/go
    (dotimes [n 1000]
      (async/>! documents-chan {:id (str "doc-" n) :content (str "This is document content " n)}))))

这段Clojure代码展示了：

客户端缓存: get-grpc-client 函数负责创建和复用gRPC客户端连接，避免了重复建立TCP连接的开销。
分发逻辑: dispatch-vector-to-worker 从etcd/active-workers原子中获取当前可用的节点列表，并采用简单的随机选择策略进行分发。
core.async 管道: create-ingestion-pipeline 是整个流程的核心。它使用async/pipeline-blocking来并行执行CPU密集型或IO密集的嵌入计算，然后用async/pipeline来并行执行网络IO密集型的gRPC调用。这充分利用了多核CPU和异步IO，是Clojure构建高性能数据处理应用的典范。

方案的局限性与未来展望

这个异构系统架构虽然解决了最初的性能瓶颈，但也引入了新的复杂性。

运维成本: 维护一个涉及Clojure (JVM)、C++ 和 etcd 的多语言、多组件系统，对CI/CD、监控和日志聚合都提出了更高的要求。
数据一致性: 当前的简单分发模型没有处理索引分片（sharding）和副本（replication）。一个生产级系统需要更复杂的策略来保证数据的持久化和高可用。例如，可以利用etcd来协调分片的主从关系，实现写入主节点、复制到从节点。
C++内存管理: C++节点中的向量数据完全存储在内存中。对于超大规模的索引，需要考虑内存映射文件（mmap）或更复杂的磁盘/内存混合存储策略，以防止内存耗尽。同时，索引的持久化和快照机制也必须实现，以便在节点重启后能快速恢复。
查询路由: 当前查询服务需要将请求广播到所有工作节点并聚合结果。随着节点数量增加，这会成为新的瓶颈。未来的优化路径是实现一个智能的查询路由器，它知道哪个分片包含了哪些数据，从而将查询精确地发送到相关的节点。这个路由信息本身，也可以存储在etcd中。

etcd Clojure LlamaIndex C++ RAG 分布式系统

构建金融级微前端架构的实时事件总线 RabbitMQ 与 Web-STOMP 实践

2023-10-27 架构设计

RabbitMQ 事件驱动架构 Micro-frontends Web-STOMP

构建企业级依赖扫描平台：结合TiDB的横向扩展能力与Angular的复杂数据可视化实践

2023-10-27 DevSecOps

Angular TiDB 依赖扫描 Storybook Jotai