Lo spazio dei nomi gerarchico è una funzionalità offerta da Cloud Storage che ti consente di organizzare gli oggetti in cartelle e archiviare i dati in una struttura di file system logica, semplificando le attività di gestione dei dati. Lo spazio dei nomi gerarchico fornisce la semantica delle directory ad alte prestazioni e le operazioni sulle cartelle atomiche necessarie per accelerare i carichi di lavoro di analisi e AI/ML con uso intensivo dei dati.
Questa pagina fornisce una panoramica dello spazio dei nomi gerarchico, incluse le funzionalità principali, i casi d'uso comuni, i vantaggi e le limitazioni.
Come funziona
Per utilizzare le cartelle in un bucket, devi abilitare lo spazio dei nomi gerarchico quando crei il bucket. L'impostazione dello spazio dei nomi gerarchico del bucket non può essere modificata dopo la creazione del bucket. Per informazioni su come abilitare lo spazio dei nomi gerarchico per il bucket, consulta Creare e gestire bucket con lo spazio dei nomi gerarchico abilitato.
Il seguente diagramma mostra un esempio di un bucket con lo spazio dei nomi gerarchico abilitato in cui gli oggetti sono organizzati in una struttura gerarchica di cartelle. Una cartella in un bucket con lo spazio dei nomi gerarchico abilitato può contenere sia oggetti sia cartelle secondarie.
Funzionalità principali
Lo spazio dei nomi gerarchico offre le seguenti funzionalità:
Query al secondo (QPS) iniziali più elevate: i bucket con lo spazio dei nomi gerarchico abilitato offrono limiti QPS iniziali fino a 8 volte superiori per la lettura e la scrittura degli oggetti rispetto ai bucket senza lo spazio dei nomi gerarchico abilitato. Il QPS iniziale più elevato semplifica la scalabilità dei carichi di lavoro con uso intensivo dei dati e offre una velocità effettiva migliorata. Per informazioni sui metodi di ottimizzazione del rendimento durante l'utilizzo delle cartelle nei bucket con lo spazio dei nomi gerarchico abilitato, consulta Gestione delle cartelle.
Cartelle: le cartelle fungono da contenitore per oggetti e altre cartelle, con supporto per operazioni come la creazione, l'eliminazione e l'ottenimento di cartelle. L'archiviazione dei dati in una struttura di cartelle migliora il rendimento, garantisce la coerenza e semplifica la gestione dei carichi di lavoro con uso intensivo dei dati e orientati ai file.
Operazioni sulle cartelle: le operazioni sulle cartelle forniscono funzionalità di affidabilità e gestione tra cui la creazione, l'eliminazione, l'elenco e la ridenominazione delle cartelle.
Ridenominazione delle cartelle: l'operazione di ridenominazione delle cartelle consente di rinominare in modo atomico il percorso di una cartella e delle relative cartelle sottostanti senza eliminare alcun oggetto. Questa tecnica è efficiente e consente di risparmiare tempo, soprattutto per le cartelle di grandi dimensioni con più oggetti.
Elenco delle cartelle: l'operazione di elenco delle cartelle elenca tutte le cartelle nel bucket o in una cartella specifica, aiutandoti a gestire e comprendere la struttura dei dati archiviati.
Quando dovresti utilizzare lo spazio dei nomi gerarchico?
Dovresti prendere in considerazione l'abilitazione dello spazio dei nomi gerarchico quando lavori con applicazioni che prevedono una gerarchia e una semantica del file system. Lo spazio dei nomi gerarchico è utile per le attività con uso intensivo dei dati, come i carichi di lavoro di analisi e AI/ML. Di seguito sono riportati alcuni scenari comuni in cui dovresti prendere in considerazione l'utilizzo dello spazio dei nomi gerarchico:
Elaborazione basata su Hadoop: i carichi di lavoro Hadoop e Spark prevedono tradizionalmente una struttura di archiviazione del file system e una denominazione basata sul tempo per file e cartelle. Lo spazio dei nomi gerarchico si integra con il connettore Cloud Storage per fornire una velocità effettiva migliorata e ridenominazioni atomiche delle cartelle, migliorando l'integrità e la coerenza dei dati per molte pipeline di elaborazione dei dati.
Elaborazione di carichi di lavoro orientati ai file: i carichi di lavoro come l'elaborazione di analisi batch , i servizi finanziari o il computing ad alte prestazioni sono strutturati in partizioni basate su una gerarchia di cartelle e file. Lo spazio dei nomi gerarchico consente di gestire questi ambienti con un'API dedicata per la gestione delle cartelle. Inoltre, lo spazio dei nomi gerarchico semplifica la gestione delle cartelle che contengono altre cartelle e oggetti. Con un singolo comando API, puoi rinominare rapidamente una cartella insieme a tutti i suoi contenuti, risparmiando tempo e risorse preziosi.
Elaborazione AI/ML: gli strumenti di AI/ML come TensorFlow, Pandas e PyTorch prevedono il controllo dell'accesso e la semantica del file system. Lo spazio dei nomi gerarchico, soprattutto se combinato con Cloud Storage FUSE, offre una velocità effettiva maggiore e un accesso efficiente ai dati. Di conseguenza, lo spazio dei nomi gerarchico migliora il rendimento e l'affidabilità dell'iterazione del modello ML.
Prima di abilitare lo spazio dei nomi gerarchico per il bucket, devi tenere presente le limitazioni dello spazio dei nomi gerarchico. Per informazioni sulle limitazioni dello spazio dei nomi gerarchico, consulta Limitazioni.
Vantaggi dello spazio dei nomi gerarchico
Quando abiliti lo spazio dei nomi gerarchico per i bucket, puoi eseguire le seguenti operazioni:
Ottimizzare l'organizzazione: puoi organizzare i dati in una struttura di cartelle gerarchica, che ti aiuta a gestire e individuare file o set di dati.
Stabilire un ecosistema di file system: lo spazio dei nomi gerarchico introduce funzionalità del file system come cartelle, ridenominazione delle cartelle e elenco delle cartelle, utili per le applicazioni orientate ai file, inclusi l'ecosistema Hadoop e i carichi di lavoro di AI/ML.
Migliorare il rendimento: scalando i carichi di lavoro con uso intensivo dei dati per gestire una velocità effettiva maggiore, puoi migliorare il rendimento complessivo dell' applicazione.
Supporto piattaforme
I bucket con lo spazio dei nomi gerarchico supportano le seguenti funzionalità della piattaforma Cloud Storage:
Tutte le API degli oggetti Cloud Storage e le funzionalità di Cloud Storage ampiamente utilizzate. Per i dettagli sulle funzionalità non supportate, vedi Limitazioni.
Trasferimento di dati da un bucket standard a un bucket con lo spazio dei nomi gerarchico utilizzando Storage Transfer Service.
Integrazione con i seguenti prodotti:
Connettore Cloud Storage, gestito da Managed Service for Apache Spark per i carichi di lavoro Hadoop. Per saperne di più, consulta Utilizzare i bucket con lo spazio dei nomi gerarchico abilitato per i carichi di lavoro Hadoop.
Cloud Storage FUSE per l'accesso ai bucket simile a un file system utilizzando i client.
Compatibilità con le operazioni e le funzionalità di Cloud Storage
I bucket con lo spazio dei nomi gerarchico abilitato hanno le seguenti interazioni con altre operazioni di Cloud Storage:
Come vengono gestite le operazioni sugli oggetti nei bucket con cartelle
I bucket con lo spazio dei nomi gerarchico abilitato gestiscono le operazioni sugli oggetti in questi modi:
- Operazioni come
Upload,RewriteeComposecreano automaticamente le cartelle principali mancanti, a condizione che tu disponga delle autorizzazioni necessarie. Di conseguenza, non è necessario creare in anticipo le cartelle prima di caricare gli oggetti. - Sebbene le cartelle possano essere create automaticamente durante le operazioni sugli oggetti, tu
devi eliminarle in modo esplicito utilizzando l'operazione
DeleteFolder. - Quando utilizzi l'operazione
ListObjectscon il parametrodelimiter, i bucket restituiscono ogni cartella secondaria comeprefix.Tuttavia, le cartelle vuote vengono escluse per impostazione predefinita. Per includere le cartelle vuote, in modo simile a un elenco di file system tipico, devi impostare il parametroincludeFoldersAsPrefixes. Per informazioni sui metodi di ottimizzazione del rendimento durante l'elenco degli oggetti nei bucket con lo spazio dei nomi gerarchico abilitato, consulta Elencare gli oggetti.
Come vengono gestite le cartelle gestite nei bucket con cartelle
I bucket con lo spazio dei nomi gerarchico abilitato offrono un controllo dell'accesso granulare se utilizzati con le cartelle gestite. Nei bucket con lo spazio dei nomi gerarchico abilitato, la cartella è la directory effettiva che contiene i dati, mentre la cartella gestita è una risorsa specializzata utilizzata per applicare autorizzazioni IAM granulari a quella directory. Per gestire l'accesso alle cartelle, devi creare una cartella gestita con lo stesso nome della cartella e poi applicare i criteri IAM.
Le cartelle gestite vengono gestite nei seguenti modi nei bucket con lo spazio dei nomi gerarchico abilitato.
- La creazione di una cartella gestita crea automaticamente tutte le cartelle principali mancanti, inclusa la cartella con lo stesso nome. Ad esempio, supponiamo di avere un bucket vuoto con lo spazio dei nomi gerarchico abilitato chiamato
example-ai-datasets. Se crei una cartella gestita all'interno diexample-ai-datasetschiamata2025/training-data/, Cloud Storage crea automaticamente la cartella principale folder2025/e la cartella di destinazionetraining-data/. - Una cartella gestita non può esistere senza la cartella associata.
- L'eliminazione di una cartella elimina automaticamente la cartella gestita associata.
- La ridenominazione di una cartella rinomina automaticamente la cartella gestita associata.
- I bucket con lo spazio dei nomi gerarchico devono rispettare le regole di denominazione delle cartelle gestite e le regole di denominazione delle cartelle. Sebbene i nomi delle cartelle possano essere nidificati fino a 50 livelli di profondità, i nomi delle cartelle gestite possono essere nidificati solo fino a 15 livelli di profondità. La dimensione massima del nome della cartella gestita è limitata dalla dimensione massima del nome della cartella, ovvero 512 byte se codificata in UTF-8.
Come vengono gestite le operazioni sui bucket nei bucket con cartelle
Le sezioni seguenti descrivono come vengono gestite le operazioni sui bucket quando lo spazio dei nomi gerarchico è abilitato.
Puoi elencare tutti i bucket con lo spazio dei nomi gerarchico abilitato, indipendentemente dal layout di archiviazione. Il layout di archiviazione di un bucket descrive la disposizione degli oggetti all'interno di un bucket, in uno spazio dei nomi piatto o in uno spazio dei nomi gerarchico. Per istruzioni su come visualizzare il layout di archiviazione di un bucket, consulta Visualizzare il layout di archiviazione di un bucket. Per elencare tutti i bucket, segui le istruzioni riportate in Elencare i bucket.
Puoi eliminare i bucket con lo spazio dei nomi gerarchico abilitato a condizione che il bucket sia vuoto. I bucket vuoti non contengono oggetti o cartelle gestite. I bucket vuoti possono contenere cartelle vuote (senza oggetti all'interno).
Come vengono gestite le regole di Gestione del ciclo di vita degli oggetti nei bucket con cartelle
Gestione del ciclo di vita degli oggetti consente di automatizzare le azioni sugli oggetti
in base a condizioni, come l'età o il prefisso. Tuttavia, le regole di Gestione del ciclo di vita degli oggetti possono comportarsi in modo diverso nei bucket con spazio dei nomi gerarchico e nei bucket con spazio dei nomi piatto a causa dell'operazione RenameFolder:
Regole di Gestione del ciclo di vita degli oggetti per i bucket con uno spazio dei nomi piatto: l'operazione di ridenominazione prevede la ridenominazione di ogni oggetto utilizzando gli strumenti copiando ogni oggetto in una località di destinazione ed eliminando l'oggetto originale dalla località di origine. Di conseguenza, nella località di destinazione vengono creati nuovi oggetti con nuovi orari di creazione. Se vengono applicate regole di Gestione del ciclo di vita degli oggetti basate sull'età per la località di destinazione, non verranno applicate immediatamente ai nuovi oggetti perché i relativi orari di creazione vengono reimpostati.
Regole di Gestione del ciclo di vita degli oggetti per i bucket con lo spazio dei nomi gerarchico abilitato: la ridenominazione di una cartella opera a livello di cartella, senza dover rinominare ogni singolo oggetto. Di conseguenza, l'orario di creazione degli oggetti viene mantenuto, il che significa che le regole di Gestione del ciclo di vita degli oggetti basate sull'età sono applicate immediatamente agli oggetti rinominati se soddisfano i criteri di età.
Prezzi
Per informazioni sui prezzi, consulta Prezzi di Cloud Storage.
Limitazioni
Di seguito sono riportate le limitazioni dello spazio dei nomi gerarchico:
Devi scegliere se utilizzare o meno lo spazio dei nomi gerarchico quando crei il bucket; l'impostazione dello spazio dei nomi gerarchico del bucket non può essere modificata dopo la creazione del bucket.
Per abilitare lo spazio dei nomi gerarchico, un bucket deve anche abilitare l' accesso uniforme a livello di bucket.
Le seguenti funzionalità di Cloud Storage non sono supportate per i bucket che utilizzano lo spazio dei nomi gerarchico:
- Blocco bucket
- Spostamento dei bucket
- Replica tra bucket
- Blocchi degli oggetti
- Blocco della conservazione degli oggetti
- Controllo delle versioni degli oggetti