生成式AI大模型在智能對話、內(nèi)容創(chuàng)作、編程等人機交互場景中大放異彩,各行業(yè)企業(yè)也在積極構(gòu)建自己的AI模型,以支撐垂直專業(yè)領(lǐng)域的智能化應(yīng)用,提升企業(yè)洞察力,創(chuàng)造業(yè)務(wù)新價值。
但AI大模型不具備長期記憶能力,在服務(wù)垂直專業(yè)領(lǐng)域時會存在知識深度和記憶時效性不足的問題,企業(yè)構(gòu)建屬于自己的大模型面臨挑戰(zhàn)。
基于此現(xiàn)狀,柏睿數(shù)據(jù)推出LLMOps平臺、向量存儲查詢引擎兩種產(chǎn)品方案,助力企業(yè)高效、簡單地構(gòu)建和應(yīng)用完美適配業(yè)務(wù)場景的AI大模型。企業(yè)不僅能夠通過柏睿LLMOps平臺在大模型上做垂直領(lǐng)域的模型微調(diào),還可通過向量存儲查詢引擎,基于企業(yè)的自有知識資產(chǎn)構(gòu)建本地知識問答服務(wù),使得服務(wù)更加專業(yè)、實時且智慧。
柏睿LLMOps: 高效微調(diào)大模型
LLMOps本質(zhì)是人工智能研發(fā)運營體系(MLOps)的子類別。柏睿數(shù)據(jù)智能平臺Rapids AI 是一個以數(shù)據(jù)為中心、以MLOps為方法論的機器學(xué)習(xí)平臺,致力于解決 AI 生產(chǎn)過程中團隊協(xié)作難、管理亂、交付周期長等問題,最終實現(xiàn)高質(zhì)量、高效率、可持續(xù)的 AI 生產(chǎn)過程。
在大模型時代,柏睿數(shù)據(jù)在基于Rapids AI的已有MLOps生態(tài)鏈中補充LLMOps的能力,更加關(guān)注大語言模型的構(gòu)建和運行,其能力特點包括:
訓(xùn)練微調(diào)模型能力。通過柏睿LLMOps平臺,通過柏睿LLMOps提供的優(yōu)化的基礎(chǔ)架構(gòu)、資源管理能力和精簡的開發(fā)流程,企業(yè)能夠在本地訓(xùn)練和微調(diào)大模型,確保在模型訓(xùn)練、迭代和部署過程中提高效率和控制能力,從而充分利用大模型實現(xiàn)人工智能賦能業(yè)務(wù)場景的變革能力。
可視化編排能力。柏睿LLMOps平臺的可視化工作流編排能力,使數(shù)據(jù)科學(xué)家和研究人員能夠結(jié)合大模型及其他應(yīng)用,通過prompt工程,快速構(gòu)建工作鏈,充分發(fā)揮大模型的全部潛力,實現(xiàn)敏捷交付。
資產(chǎn)管理能力。與傳統(tǒng)MLOps類似,LLMOps也具有數(shù)據(jù)、模型、代碼的統(tǒng)一管理和運維能力。對資產(chǎn)的版本和質(zhì)量進行持續(xù)監(jiān)控和高效統(tǒng)一管理,并加以風(fēng)險防控和安全管理等手段,從而實現(xiàn)有效治理。
應(yīng)用運維能力。通過可視化的方式編寫Prompt并調(diào)試,并自動接入上下文或數(shù)據(jù)集,只需幾分鐘即可發(fā)布AI應(yīng)用。同時提供模型API服務(wù),助力企業(yè)快速將大模型的能力集成到業(yè)務(wù)場景應(yīng)用中,而無需關(guān)注復(fù)雜的后端架構(gòu)和部署過程。
通過柏睿LLMOps平臺,企業(yè)可以簡化LLM支持應(yīng)用程序的開發(fā)、部署和維護過程,更高效地部署好用、可靠、精準(zhǔn)地AI大模型,加速釋放大語言模型(LLM)在垂直應(yīng)用場景中的全部潛力。
柏睿向量存儲查詢引擎:強化LLM記憶的“海馬體”
但 LLM 更像是容易失憶的大腦,需要海馬體來強化記憶,向量數(shù)據(jù)庫就是支撐LLM長期記憶的“海馬體”:基于向量數(shù)據(jù)庫,一方面,LLM 通過瀏覽專用數(shù)據(jù)與知識使回答更精準(zhǔn);另一方面,LLM 能回憶自己過往的知識和經(jīng)驗,通過“反思”為用戶提供更個性化的服務(wù)。
向量數(shù)據(jù)庫作為一種能夠存儲和處理圖片、文字、語音等多種數(shù)據(jù)類型的系統(tǒng),通過embedding加工使LLM接觸和學(xué)習(xí)的數(shù)據(jù)向量化,能夠有效地支持多模態(tài)數(shù)據(jù)的存儲、索引和查詢。向量搜索通過與向量數(shù)據(jù)庫中存儲的海量向量進行相似度匹配,找到最符合要求的k個記錄,此過程可以助力LLM實現(xiàn)相似文本搜索、文本推薦系統(tǒng)、問題回答和知識檢索等功能。
柏睿數(shù)據(jù)作為一家深耕“Data + AI”技術(shù)的公司,一直致力于將AI的能力與數(shù)據(jù)庫結(jié)合,面向AI大模型時代推出向量存儲查詢引擎,支持?jǐn)?shù)據(jù)的向量化存儲和向量索引。柏睿數(shù)據(jù)RapidsDB的數(shù)據(jù)聯(lián)邦機制能夠支持結(jié)構(gòu)化數(shù)據(jù)和向量數(shù)據(jù)的存儲與查詢,且采用全內(nèi)存分布式架構(gòu)和大規(guī)模并行計算引擎,具備高性能、高可用、彈性擴展等特點,切實解決企業(yè)對向量的快速檢索需求。
基于柏睿數(shù)據(jù)的大模型訓(xùn)練運維管理生產(chǎn)線 LLMOps及向量存儲查詢引擎,結(jié)合特定行業(yè)或應(yīng)用的場景,企業(yè)可獲得匹配自身垂直領(lǐng)域的智能化能力。
LLM+RapidsDB:人人都是數(shù)據(jù)分析師
通過在具有完全知識產(chǎn)權(quán)的全內(nèi)存分布式數(shù)據(jù)庫RapidsDB中引入LLM,柏睿數(shù)據(jù)推出了具有自然語言接口的分析型數(shù)據(jù)庫。用戶通過自然語言提問,可以從RapidsDB的多張數(shù)據(jù)表中快速查詢結(jié)果并返回相應(yīng)分析報告,進一步降低數(shù)據(jù)庫的使用門檻,真正實現(xiàn)“人人都是數(shù)據(jù)分析師”。
通常,自然語言轉(zhuǎn)SQL是將數(shù)據(jù)庫中所有表的schema傳遞給大模型,大模型會根據(jù)提問和schema信息生成相應(yīng)的SQL。但是,如果數(shù)據(jù)庫中存在大量的數(shù)據(jù)表,則會導(dǎo)致傳遞給數(shù)據(jù)的schema信息超出token的限制,從而無法完成自然語言轉(zhuǎn)SQL的任務(wù)。
針對該問題,柏睿數(shù)據(jù)首先將數(shù)據(jù)庫中的schema通過embedding轉(zhuǎn)為向量,并存放于向量數(shù)據(jù)庫;再計算問題和schema 向量的相似度,選擇與問題匹配的表信息,將篩選后的schema傳遞給大模型,從而大大減少了單次prompt的token消耗。這樣一方面解決了數(shù)據(jù)表過多無法生成SQL的問題,一方面減少了token數(shù),降低大模型的使用成本。
同時,為讓大模型生成更準(zhǔn)確的SQL,柏睿數(shù)據(jù)也在本地利用LLMOps對大模型進行微調(diào),強化大模型對中文的理解和輸出,并通過SQL語料的微調(diào),提高SQL生成的準(zhǔn)確率。
行業(yè)大模型應(yīng)用:物聯(lián)網(wǎng)下的智慧工廠
在工廠設(shè)備全生命周期管理中,各個環(huán)節(jié)都會采集、匯聚海量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)、實時流數(shù)據(jù)和歷史數(shù)據(jù)等多種類型的數(shù)據(jù),并需要從這些海量數(shù)據(jù)中高效、實時地獲取能夠為業(yè)務(wù)人員所用的有效信息。
柏睿數(shù)據(jù)智慧工廠解決方案通過將大語言模型與物聯(lián)網(wǎng)技術(shù)相結(jié)合,賦能工廠智能運維場景,重塑數(shù)據(jù)追蹤和分析流程,助力工業(yè)企業(yè)獲得更深入的洞察和智能決策,提高生產(chǎn)質(zhì)效、降低成本。
首先,采集工廠設(shè)備大數(shù)據(jù),包括建立設(shè)備靜態(tài)、動態(tài)統(tǒng)一的數(shù)據(jù)庫以及設(shè)備管理全業(yè)務(wù)環(huán)節(jié)的日常業(yè)務(wù)數(shù)據(jù)庫。
其次,建立“引發(fā)工況的可能問題”的樣例庫。分析不同類型設(shè)備出現(xiàn)的不同故障表現(xiàn)及原因并采取適當(dāng)行為解決該故障,由此形成故障體系。
再次,通過建立專家知識庫配置平臺,將行業(yè)專家的知識整理后錄入知識庫,作為工廠故障診斷分析、優(yōu)化運行的指導(dǎo)依據(jù)。
最終,一方面將知識庫的內(nèi)容向量化存儲到向量數(shù)據(jù)庫中,與LLM結(jié)合,輸出應(yīng)對故障和優(yōu)化問題的、基于經(jīng)驗的回答;另一方面,使用積累的數(shù)據(jù)對LLM進行微調(diào),使得系統(tǒng)在每次處理和分析數(shù)據(jù)的過程中都能夠通過持續(xù)的數(shù)據(jù)庫運算進行“學(xué)習(xí)”。
由此,大數(shù)據(jù)平臺從工廠運營的經(jīng)驗中收集新的故障檢修信息,通過自動學(xué)習(xí)架構(gòu)捕捉獲得的經(jīng)驗進行編譯后,再提供給所有使用者。
未來,柏睿數(shù)據(jù)將持續(xù)發(fā)力“Data + AI”的前沿技術(shù)與應(yīng)用,與客戶、伙伴攜手同行,助力AI大模型深入關(guān)鍵行業(yè)的垂直場景,共同構(gòu)筑數(shù)字化全域能力,共同推動產(chǎn)業(yè)數(shù)智化發(fā)展,共同建設(shè)智能美好未來!