Migra permisos desde Hadoop

En este documento, se describe cómo puedes migrar permisos de Apache Hadoop Distributed File System (HDFS), Ranger HDFS y Apache Hive a roles de Identity and Access Management (IAM) en Cloud Storage o BigQuery.

El proceso de migración de permisos consta de los siguientes pasos:

  1. Primero, crea un archivo de configuración YAML del conjunto de reglas de principales para generar un archivo de asignación de principales. Luego, ejecuta la herramienta de migración de permisos con el archivo YAML del conjunto de reglas de la entidad principal y los archivos de metadatos de HDFS o Ranger para generar un archivo de asignación de entidades principales.
  2. Genera un archivo de asignación de permisos de destino creando primero un archivo YAML de conjunto de reglas de permisos. Luego, ejecuta la herramienta de migración de permisos con el archivo YAML del conjunto de reglas de permisos y los archivos de configuración de asignación de tablas, y los archivos de metadatos de HDFS o Ranger, para generar un archivo de asignación de permisos de destino.
  3. Ejecuta la herramienta de migración de permisos con el archivo de permisos de destino para aplicar permisos a Cloud Storage o BigQuery. También puedes usar la secuencia de comandos de Python proporcionada para generar un archivo de Terraform que puedes usar para aplicar permisos por tu cuenta.

Antes de comenzar

Antes de migrar los permisos, verifica que hayas hecho lo siguiente:

También puedes encontrar la secuencia de comandos del generador de Terraform en el archivo terraform.zip dentro del paquete de lanzamiento.

Genera un archivo de asignación de principales

Un archivo de asignación de principales define reglas de asignación que asignan principales de tu fuente a principales de Trusted Cloud IAM.

Para generar un archivo de asignación de principales, primero debes crear manualmente un archivo YAML de conjunto de reglas de principales para definir cómo se asignan los principales desde tu fuente a los principales de Trusted Cloud IAM. En el archivo YAML del conjunto de reglas de principales, define reglas de asignación para cada una de tus fuentes, ya sea ranger, HDFS o ambas.

En el siguiente ejemplo, se muestra un archivo YAML de conjunto de reglas de principales que asigna grupos de Apache Ranger a cuentas de servicio en Trusted Cloud by S3NS:

  ranger:
    user_rules:
      - skip: true
    group_rules:
      # Skip internal Ranger groups.
      - skip: true
        when: "group.groupSource == 0"

      # Map all roles to Google Cloud Platform service accounts.
      - map:
          type:
            value: serviceAccount
          email_address:
            expression: "group.name + 'my-service-account@my-project.s3ns-system.iam.gserviceaccount.com'"

    role_rules:
      - skip: true

  hdfs:
    user_rules:
      - skip: true
    group_rules:
      - skip: true
    other_rules:
      - skip: true

En el siguiente ejemplo, se muestra un archivo YAML del conjunto de reglas de principales que asigna usuarios de HDFS a usuarios de Trusted Cloud específicos:

  ranger:
    user_rules:
      - skip: true
    group_rules:
      - skip: true
    role_rules:
      - skip: true

  hdfs:
    user_rules:
      # Skip user named 'example'
      - when: "user.name == 'example'"
        skip: true
      # Map all other users to their name at google.com
      - when: "true"
        map:
          type:
            value: user
          email_address:
            expression: "user.name + '@google.com'"

    group_rules:
      - skip: true
    other_rules:
      - skip: true

Para obtener más información sobre la sintaxis para crear un archivo YAML de conjunto de reglas de principales, consulta Archivos YAML de conjunto de reglas.

Una vez que hayas creado un archivo YAML del conjunto de reglas de principales, súbelo a un bucket de Cloud Storage. También debes incluir el archivo HDFS, el archivo de Apache Ranger generado por la herramienta dwh-migration-dumper o ambos, según la fuente desde la que migres los permisos. Luego, puedes ejecutar la herramienta de migración de permisos para generar el archivo de asignación de principales.

En el siguiente ejemplo, se muestra cómo puedes ejecutar la herramienta de migración de permisos para migrar desde HDFS y Apache Ranger, lo que genera un archivo de asignación de principales llamado principals.yaml.

./dwh-permissions-migration expand \
    --principal-ruleset gs://MIGRATION_BUCKET/principals-ruleset.yaml \
    --hdfs-dumper-output gs://MIGRATION_BUCKET/hdfs-dumper-output.zip \
    --ranger-dumper-output gs://MIGRATION_BUCKET/ranger-dumper-output.zip \
    --output-principals gs://MIGRATION_BUCKET/principals.yaml

Reemplaza MIGRATION_BUCKET por el nombre del bucket de Cloud Storage que contiene tus archivos de migración.

Una vez que ejecutes la herramienta, inspecciona el archivo principals.yaml generado para verificar que contenga principales de tu fuente asignados a principales de IAM de Trusted Cloud. Puedes editar el archivo de forma manual antes de continuar con los próximos pasos.

Genera el archivo de permisos de destino

El archivo de permisos de destino contiene información sobre la asignación de los permisos de origen establecidos en el clúster de Hadoop a los roles de IAM para las carpetas administradas de BigQuery o Cloud Storage. Para generar un archivo de permisos de destino, primero debes crear manualmente un archivo YAML de conjunto de reglas de permisos que especifique cómo se asignan los permisos de Ranger o HDFS a Cloud Storage o BigQuery.

En el siguiente ejemplo, se aceptan todos los permisos de Ranger para Cloud Storage:

gcs:
  ranger_hive_rules:
    - map: {}
      log: true

En el siguiente ejemplo, se aceptan todos los permisos de HDFS, excepto el principal hadoop:

gcs:
  hdfs_rules:
    - when:
        source_principal.name == 'hadoop'
      skip: true
    - map: {}

En el siguiente ejemplo, se anula la asignación de roles predeterminada para la tabla tab0 y se usan los valores predeterminados para todos los demás permisos.

gcs:
  ranger_hive_rules:
    ranger_hive_rules:
      - when: table.name == 'tab0'
        map:
          role:
            value: "roles/customRole"
      - map: {}

Para obtener más información sobre la sintaxis para crear un archivo YAML de conjunto de reglas de permisos, consulta Archivos YAML de conjunto de reglas.

Una vez que hayas creado un archivo YAML del conjunto de reglas de permisos, súbelo a un bucket de Cloud Storage. También debes incluir el archivo HDFS, el archivo de Apache Ranger generado por la herramienta dwh-migration-dumper o ambos, según la fuente desde la que migres los permisos. También debes incluir los archivos YAML de configuración de tablas y el archivo de asignación de principales.

Luego, puedes ejecutar la herramienta de migración de permisos para generar el archivo de permisos de destino.

En el siguiente ejemplo, se muestra cómo puedes ejecutar la herramienta de migración de permisos para migrar desde HDFS y Apache Ranger, con los archivos de configuración de asignación de tablas y el archivo de asignación de principales llamado principals.yaml, lo que genera un archivo de asignación de principales llamado permissions.yaml.

./dwh-permissions-migration build \
    --permissions-ruleset gs://MIGRATION_BUCKET/permissions-config.yaml \
    --tables gs://MIGRATION_BUCKET/tables/ \
    --principals gs://MIGRATION_BUCKET/principals.yaml \
    --ranger-dumper-output gs://MIGRATION_BUCKET/ranger-dumper-output.zip \
    --hdfs-dumper-output gs://MIGRATION_BUCKET/hdfs-dumper-output.zip \
    --output-permissions gs://MIGRATION_BUCKET/permissions.yaml

Reemplaza MIGRATION_BUCKET por el nombre del bucket de Cloud Storage que contiene tus archivos de migración.

Una vez que ejecutes la herramienta, inspecciona el archivo permissions.yaml generado para verificar que contenga permisos de tu fuente asignados a vinculaciones de IAM de Cloud Storage o BigQuery. Puedes editarlo manualmente antes de continuar con los siguientes pasos.

Cómo aplicar permisos

Una vez que generes un archivo de permisos de destino, podrás ejecutar la herramienta de migración de permisos para aplicar los permisos de IAM a Cloud Storage o BigQuery.

Antes de ejecutar la herramienta de migración de permisos, verifica que cumplas con los siguientes requisitos previos:

  • Creaste los principales requeridos (usuarios, grupos, cuentas de servicio) enTrusted Cloud.
  • Creaste las carpetas o tablas administradas de Cloud Storage que alojarán los datos migrados.
  • El usuario que ejecuta la herramienta tiene permisos para administrar roles en las carpetas o tablas administradas de Cloud Storage.

Puedes aplicar permisos con el siguiente comando:

./dwh-permissions-migration apply \
--permissions gs://MIGRATION_BUCKET/permissions.yaml

En el ejemplo anterior, MIGRATION_BUCKET es el nombre del bucket de Cloud Storage que contiene tus archivos de migración.

Aplica permisos como una configuración de Terraform

Para aplicar los permisos migrados, también puedes convertir el archivo de permisos de destino en una configuración de infraestructura como código (IaC) de Terraform y aplicarlo a Cloud Storage.

  1. Verifica que tengas Python 3.7 o una versión posterior.
  2. Crea un entorno virtual nuevo y actívalo.
  3. Desde el directorio permissions-migration/terraform, instala las dependencias del archivo requirements.txt con el siguiente comando:

    python -m pip install -r requirements.txt
  4. Ejecuta el comando del generador:

    python tf_generator PATH LOCATION OUTPUT

    Reemplaza lo siguiente:

    • PATH: Es la ruta de acceso al archivo permissions.yaml generado.
    • LOCATION: La ubicación de tu bucket de Cloud Storage en la que la secuencia de comandos verifica y crea carpetas según la configuración de permisos.
    • OUTPUT: Es la ruta al archivo de salida, main.tf.

Archivos YAML de conjuntos de reglas

Los archivos YAML del conjunto de reglas se usan para correlacionar principales y roles cuando se migran permisos de HDFS o Apache Ranger aTrusted Cloud. Los archivos YAML de conjuntos de reglas usan Common Expression Language (CEL) para especificar predicados (en los que el resultado es booleano) y expresiones (en los que el resultado es una cadena).

Los archivos YAML de conjuntos de reglas tienen las siguientes características:

  • Las reglas de asignación de cada tipo se ejecutan de forma secuencial, de arriba hacia abajo, para cada objeto de entrada.
  • Las expresiones CEL tienen acceso a variables de contexto, y estas dependen de la sección del conjunto de reglas. Por ejemplo, puedes usar la variable user para asignar objetos de usuario de origen y la variable group para asignar grupos.
  • Puedes usar expresiones de CEL o valores estáticos para cambiar los valores predeterminados. Por ejemplo, cuando asignas un grupo, puedes anular el valor de salida type del valor predeterminado group a otro valor, como serviceAccount.
  • Debe haber al menos una regla que coincida con cada objeto de entrada.

En una migración de permisos de HDFS o Apache Ranger, se puede usar un archivo YAML de conjunto de reglas para definir un archivo de correlación de principales o un archivo de correlación de roles.

Asignación de reglas en archivos YAML de conjuntos de reglas

El archivo YAML del conjunto de reglas consta de reglas de asignación que especifican cómo coinciden los objetos de tu origen con tu destino durante una migración de permisos. Una regla de asignación puede contener las siguientes secciones o cláusulas:

  • when: Es una cláusula de predicado que limita la aplicabilidad de la regla.
    • Una cadena que representa una expresión CEL booleana. Los valores pueden ser true o false.
    • La regla solo se aplica si la cláusula when se evalúa como true.
    • El valor predeterminado es true.
  • map: Es una cláusula que especifica el contenido de un campo de resultado. El valor de esta cláusula depende del tipo de objeto procesado y se puede definir de la siguiente manera:
    • expression para evaluar como una cadena
    • value para una cadena constante
  • skip: Especifica que el objeto de entrada no se debe asignar.
    • Puede ser true o false.
  • log: Es una cláusula de predicado que ayuda a depurar o desarrollar reglas.
    • Una cadena que representa una expresión CEL booleana. Los valores pueden ser true o false.
    • El valor predeterminado es false.
    • Si se configura como true, el resultado contiene un registro de ejecución que se puede usar para supervisar o diagnosticar problemas en la ejecución.

Cómo crear un archivo YAML de conjunto de reglas principal

Un archivo de asignación de principales se usa para generar identificadores de principal proporcionando un valor para email_address y type.

  • Usa email_address para especificar el correo electrónico del principal de Trusted Cloud .
  • Usa type para especificar la naturaleza del principal en Trusted Cloud. El valor de type puede ser user, group o serviceAccount.

Cualquier expresión CEL que se use en las reglas tiene acceso a variables que representan el objeto procesado. Los campos de las variables se basan en el contenido de los archivos de metadatos de HDFS o Apache Ranger. Las variables disponibles dependen de la sección del conjunto de reglas:

  • Para user_rules, usa la variable user.
  • Para group_rules, usa la variable group.
  • Para other_rules, usa la variable other.
  • Para role_rules, usa la variable role.

En el siguiente ejemplo, se asignan usuarios de HDFS a usuarios en Trusted Cloudcon su nombre de usuario, seguido de @google.comcomo su dirección de correo electrónico:

hdfs:
  user_rules:
    # Skip user named 'example'
    - when: "user.name == 'example'"
      skip: true
    # Map all other users to their name at google.com
    - when: "true"
      map:
        type:
          value: user
        email_address:
          expression: "user.name + '@google.com'"

Cómo anular la asignación de roles predeterminada

Para usar principales no predeterminados, puedes omitir o modificar las asignaciones de roles predeterminadas con los archivos de conjunto de reglas.

En el siguiente ejemplo, se muestra cómo puedes omitir una sección de reglas:

hdfs:
  user_rules:
    - skip: true
  group_rules:
    - skip: true
  other_rules:
    - skip: true

Cómo crear un archivo YAML de conjunto de reglas de permisos

Se usa un archivo YAML de conjunto de reglas de permisos para generar un archivo de asignación de permisos de destino. Para crear un archivo YAML de conjunto de reglas de permisos, usa expresiones de CEL en tu archivo YAML de conjunto de reglas de permisos para asignar permisos de HDFS o Apache Ranger a roles de Cloud Storage o BigQuery.

Asignación de roles predeterminada

Los roles de archivos HDFS se determinan según los permisos de los archivos fuente:

  • Si el bit w está establecido, el rol predeterminado es writer.
  • Si el bit r está establecido, el rol predeterminado es reader.
  • Si no se establece ninguno de los bits, el rol estará vacío.

Ranger HDFS:

  • Si el conjunto de acceso contiene write, el rol predeterminado es writer.
  • Si el conjunto de acceso contiene read, el rol predeterminado es reader.
  • Si el conjunto de acceso no contiene ninguno de los dos, el rol está vacío.

Ranger:

  • Si el conjunto de acceso contiene update, create, drop, alter, index, lock, all, write o refresh, el rol predeterminado es writer.
  • Si el conjunto de acceso contiene select o read, el rol predeterminado es reader.
  • Si el conjunto de acceso no contiene ninguno de los permisos anteriores, el rol está vacío.

Cloud Storage:

  • roles/storage.objectUser, escritor
  • roles/storage.objectViewer: Lector

BigQuery:

  • roles/bigquery.dataOwner, escritor
  • roles/bigquery.dataViewer: Lector

En el siguiente ejemplo, se muestra cómo puedes aceptar las asignaciones predeterminadas sin realizar ningún cambio en el archivo YAML del conjunto de reglas:

ranger_hdfs_rules:
  - map: {}

Cómo anular la asignación de roles predeterminada

Para usar roles no predeterminados, puedes omitir o modificar las asignaciones de roles predeterminadas con los archivos de conjunto de reglas.

En el siguiente ejemplo, se muestra cómo puedes anular una asignación de roles predeterminada con una cláusula de mapa con el campo de rol que usa una causa de valor:

ranger_hdfs_rules:
  - map:
    role:
      value: "roles/customRole"

Cómo combinar asignaciones de permisos

Si se generan varias asignaciones de permisos para el mismo recurso objetivo, se usa la asignación con el acceso más amplio. Por ejemplo, si una regla de HDFS otorga un rol de lector al principal pa1 en una ubicación de HDFS y una regla de Ranger otorga un rol de escritor al mismo principal en la misma ubicación, se asigna el rol de escritor.

Citas de cadenas en expresiones CEL

Usa comillas "" para encerrar toda la expresión CEL en YAML. Dentro de la expresión CEL, usa comillas simples '' para entrecomillar cadenas. Por ejemplo:

"'permissions-migration-' + group.name + '@google.com'"