L'intelligenza artificiale sta rivoluzionando il modo in cui interagiamo con la tecnologia, ma l'implementazione in locale offre un mix unico di opportunità e sfide. Scopiamo insieme i vantaggi e gli svantaggi di portare l'AI direttamente nel nostro ambiente operativo.
Requisiti hardware e software per AI in locale
Far girare su una macchina locale un modello di intelligenza artificiale non è cosa da poco. Tanto per capirci abbiamo bisogno di una macchina molto performante, con una CPU pensata per l'AI che integri GPU/iGPU e magari anche un NPU per ottimizzare le prestazioni. Inoltre è fondamentale disporre di una quantità adeguata di RAM (veloce) e di spazio di archiviazione sufficiente per gestire i dati e i modelli.

La configurazione hardware deve essere accompagnata da un software adeguato, che includa librerie e framework specifici per l'AI, come TensorFlow o PyTorch, oppure utilizzare LM Studio che gestisce automaticamente il download dei modelli da Hugging Face e semplifica l'installazione delle dipendenze necessarie.
Perché utilizzare un modello AI in locale?
La risposta è sempre la stessa: ottimizzazione dei costi o, nel mio caso, per quanto riguarda la mia azienda, ottimizzazione delle entrate.
Come sempre utilizzare e integrare intelligenza artificiale all'interno di un progetto implica utilizzare modelli di AI in cloud: Google, OpenAI, Meta, ecc. ecc. L'utilizzo di questi modelli ha un prezzo per milione di Token. Pertanto, avere un modello AI in locale permette di ridurre significativamente i costi operativi a lungo termine, poiché non si è più vincolati ai pagamenti ricorrenti per l'accesso ai servizi cloud.
Se come nel mio caso si integrano soluzioni AI per una clientela, l'azienda che l'ha integrata vede solamente passarsi davanti dei soldi che escono dal conto del cliente, e vanno sul conto di OpenAI ad esempio. È un flusso che non si ferma in azienda. Avere un Server locale sufficientemente potente da mettere a disposizione modelli di AI ai propri clienti significa guadagnare anche su quel processamento, ovviamente questo a patto di valutare attentamente che il volume di richieste sia compatibile con l'hardware acquistato.
In buona sostanza integrando un Server AI nei propri uffici gli applicativi dei clienti non punteranno più sul cloud di Google o di OpenAi, ma punteranno sul server locale.
Privacy e sicurezza dei dati
C'è anche un altra motivazione che rende un modello AI locale preferibile rispetto ad un modello in cloud, ovvero la privacy dei dati.
Nei modelli in cloud stiamo mandando dei dati, anche sensibili su cloud, sappiamo veramente che fine faranno quei dati? In soluzioni locali i dati restano lì, non fuoriescono dai confini di azienda cliente e fornitore. Questo aspetto è cruciale, soprattutto per le aziende che operano in settori regolamentati o che gestiscono informazioni sensibili. Mantenere il controllo sui dati significa anche poter garantire la conformità alle normative sulla protezione dei dati, come il GDPR. Inoltre avere un server locale permette di implementare misure di sicurezza personalizzate, adattate alle specifiche esigenze dell'azienda.

Come implementare un server AI locale
Per prima cosa è necessario dotarsi di soluzioni adeguate al tipo di traffico da sostenere.
Attualmente i miei clienti non fanno globalmente più di 300 richieste al giorno. Va benissimo un Mini PC dotato di hardware adeguato.
Nel mio caso abbiamo deciso di optare per un BOSGAME M5 con Chip AMD Ryzen AI Max+ con 96Gb di RAM LPDDR5X e 2TB di SSD NVMe. Una buona macchina che può tranquillamente reggere anche carichi di lavoro nell'ordine delle 2000/3000 chiamate al giorno. Se consideriamo un costo fisso da applicare al cliente a prescindere dal numero di Token di €. 0,015 (un centesimo e mezzo di euro) a chiamata, su 300 richieste si avrebbe un guadagno di €. 4,50 al giorno. Su 3000 chiamate al giorno l'incasso salirebbe a €. 45,00 al giorno. In un mese sarebbero €. 1350,00 di fatturato, togliendo circa 20/25 euro di costi di corrente. Naturalmente l'incasso potrebbe anche migliorare molto di più qualora si decidesse di fare una stima sui token consumati oppure nel caso in cui volessimo applicare dei costi basati semplicemente sul tempo trascorso tra chiamata e risposta. Questo mini server AI ha un costo di circa 2500 euro. In sostanza potendolo utilizzare al massimo, poniamo con 2000 chiamate al giorno si ripagherebbe in tre mesi!
Utilizzo di Mac Studio M3 Ultra per AI
Qui andiamo su Hardware veramente mostruoso e le chiamate giornaliere posso salire serenamente fino a toccare le 10.000 al giorno. Mantenendo invariati i costi di cui sopra per 0,015 euro a chiamata avremmo 150 euro al giorno e un fatturato mensile di circa 4.500 euro. Anche considerando i costi operativi, il guadagno netto sarebbe significativo, permettendo di ripagare l'investimento iniziale in meno di due mesi. Inoltre, con un hardware così potente, si potrebbero esplorare ulteriori applicazioni e servizi, ampliando l'offerta e aumentando la clientela.

Soluzione ibrida per server AI
È esattamente la strada che ho in testa. Integrare due server AI, uno basato su BOSGAME M5 e uno basato su Mac Studio in modo che possa servire chiamate con problemi semplici sul BOSGAME e chiamate con problemi complessi su Mac Studio. Magari facendo decidere al BOSGAME quando effettuare la chiamata su un modello e quando sull'altro in base alla complessità.
In questo va naturalmente tenuto conto anche della latenza e della gestione del carico di lavoro, per garantire che il sistema rimanga reattivo e performante. Implementare un algoritmo di routing intelligente potrebbe ottimizzare ulteriormente le risorse, assicurando che ogni server venga utilizzato al massimo delle sue capacità.
Svantaggi dell'AI in locale
Tuttavia, ci sono alcuni svantaggi da considerare. La complessità dell'architettura ibrida potrebbe richiedere un maggiore manutenzione e monitoraggio, ...