Integración con Data Lake

Amplía las capacidades de tu nodo RPC conectándolo a un data lake para acceder al ledger histórico completo.

Resumen de la integración

La versión 23.0 de RPC introduce la integración del data lake para el punto final getLedgers, lo que permite acceder a los ledgers históricos fuera del período de retención local de tu nodo (generalmente 7 días). Todos los demás puntos finales RPC seguirán funcionando según la configuración HISTORY_RETENTION_WINDOW de tu nodo.

El proceso implica configurar un data lake para el ledger y luego configurar tu nodo RPC para usarlo.

información

La metadata de un ledger devuelta por getLedgers puede variar dependiendo de su origen. Cuando un ledger se obtiene del almacén de datos local del RPC, su metadata está sujeta a la configuración de tu RPC. Sin embargo, los ledgers obtenidos del data lake generalmente se almacenan con toda la metadata incluida.

1. Acceder a un Data Lake

Tienes dos opciones para utilizar un data lake:

Data Lake público: La manera más sencilla es usar un data lake disponible públicamente. Por ejemplo, el data lake del ledger Stellar está disponible a través del programa AWS Open Data en s3://aws-public-blockchain/v1.1/stellar/ledgers/pubnet.
Data Lake autohospedado: Este método te permite tener más control sobre la integridad, disponibilidad y acceso a los datos, pero requiere que crees y administres tu propio data lake. La herramienta Galexie puede ayudarte a desplegar un data lake en AWS S3 o Google Cloud Storage (GCS). Para instrucciones detalladas, consulta la Guía del administrador de Galexie.

2. Configuración de RPC para Integración con Data Lake

Prerrequisito

Antes de comenzar, configura tu nodo RPC con las credenciales del proveedor en la nube y asegúrate de que tenga permisos de lectura para el bucket del data lake.

Pasos de configuración

Actualiza el archivo de configuración de tu nodo RPC con las siguientes opciones:

Especificar ruta de almacenamiento: Define el backend de almacenamiento (GCS o S3) y proporciona la ruta completa al bucket (por ejemplo, my-bucket/path/to/data).
Habilita el Feature Flag: Establece SERVE_LEDGERS_FROM_DATASTORE en true.
Configurar backend de Ledger: Configura cómo se lee la información del almacenamiento de datos a través de BufferedStorageBackend.

Ejemplos de configuración

A continuación, algunos ejemplos para configurar los backends GCS y S3.

A. Ejemplo de Configuración GCS

# Enable fetching historical ledgers from the datastore when not available locally
SERVE_LEDGERS_FROM_DATASTORE = true

# External datastore configuration for GCS
[datastore_config]
  type = "GCS"

[datastore_config.params]
  destination_bucket_path = "your-bucket/path/to/data"

[datastore_config.schema]
  ledgers_per_file = 1
  files_per_partition = 64000

[buffered_storage_backend_config]
  buffer_size = 100
  num_workers = 10
  retry_limit = 3
  retry_wait = "5s"

B. Ejemplo de Configuración S3

# Enable fetching historical ledgers from the datastore when not available locally
SERVE_LEDGERS_FROM_DATASTORE = true

# External datastore configuration for S3
[datastore_config]
  type = "S3"

[datastore_config.params]
  destination_bucket_path = "your-bucket/path/to/data`"
  region = "your_s3_region" # e.g., "us-east-1"

[datastore_config.schema]
  ledgers_per_file = 1
  files_per_partition = 64000

[buffered_storage_backend_config]
  buffer_size = 100
  num_workers = 10
  retry_limit = 3
  retry_wait = "5s"

3. Verificación de la Configuración

Después de configurar tu nodo RPC, puedes verificar que la integración funciona haciendo una solicitud GetLedgers para un número de secuencia del ledger que sea anterior a la ventana estándar de retención de tu nodo. El RPC debería devolver con éxito los datos del ledger desde el data lake.

Solicitud de Ejemplo:

curl -X POST https://<rpc-host>/ \
-H "Content-Type: application/json" \
-d '{
    "jsonrpc": "2.0",
    "id": "1",
    "method": "getLedgers",
    "params": {
        "startLedger": 100,
        "pagination": {
            "limit": 1
        }
    }
}'

Resumen de la integración​

1. Acceder a un Data Lake​

2. Configuración de RPC para Integración con Data Lake​

Prerrequisito​

Pasos de configuración​

Ejemplos de configuración​

3. Verificación de la Configuración​