Architettura
Hardware
La Data Platform è veicolata dalla macchina HPC “MarghERita”, dotata di 75 nodi fisici computazionali, composti ognuno da 2 Processori Intel Xeon Gold 6336Y 2.4GHz 24 core, 512GB di RAM, con scheda elaborazione dati Nvidia Tesla T4 e Data Lake composto da 230TB di flash e 700TB di archiviazione (Dell Isilon Powerscale).
I nodi computazionali e lo storage (Data Lake) sono fisicamente equamente distribuiti tra il Datacenter sito nei locali della Regione Emilia-Romagna in Viale Aldo Moro 52 (Bologna) e il Datacenter Lepida di Ferrara (all’interno della CAGE dedicata a Regione Emilia-Romagna).
Software
La Data Platform è basata sulla soluzione building block OpenNebula, che consente, se necessario, la multi-tenancy e integra moduli «customizzati» e «ottimizzati» di varie soluzioni open source.
Il sistema centrale di calcolo è basato su architettura Kubernetes orchestrata con il software di gestione Rancher. Il file system HDFS e l’accesso al Data Lake sono gestiti tramite Apache Ambari.
I componenti attualmente supportati dalla Data Platform e disponibili per lo sviluppo di progetti di Big Data Analytics e Artificial Intelligence sono:
Computer:
- Apache Spark
- Trino SQL engine
Storage:
- Apache Hive
- OneFS HDFS
Data engineer:
- Apache Kafka
- Apache Ni-Fi
- Apache Airflow
Data governance:
- Apache Ranger
- Apache Atlas
Development:
- JupyterHub
Data visualization:
- Apache Superset
Code versioning:
- GitLab
API manager:
- WSO2
L’accesso alle applicazioni di sviluppo sopracitate è gestito dagli amministratori della piattaforma MarghERita. ed avviene tramite VPN gestita da Lepida.
La quota di risorse (CPU, GPU, RAM) e lo spazio disco necessari per la messa in opera del progetto, dichiarate in fase di presentazione della domanda, saranno configurate e allocate alle applicazioni.
Le applicazioni di sviluppo sono deployate in aree di lavoro dedicate al progetto. Le risorse risultano logicamente isolate (multi-tenancy) assicurando il rispetto della privacy sui dati e l’assenza di conflitti tra processi computazionali.
Per ulteriori informazioni sulle caratteristiche della piattaforma inviare una email a margherita@regione.emilia-romagna.it