鯨品(pǐn)堂|如何構建企業專屬GPT

2024-02-19 516

大語言模型(LLM)具有令人印象深刻的自然語言理解和生成能力, 2022年11月底OpenAI發布了ChatGPT,一(yī)躍成為人工智(zhì)能(néng)AI領域的現象級應用。但由於LLM的訓練數據集主要來源於(yú)互聯網數據,企業私域信息並未被LLM所訓練,當客(kè)戶查詢關於企(qǐ)業的業(yè)務信息的時候,LLM會出現幻覺,無法進行正確回應。因此,企業界(尤其是中小型企業)具有強烈的願(yuàn)望能夠打通企業數據和LLM的互聯網數(shù)據,構建企業專屬GPT,利用LLM的能力服務企業目標客戶。


在企業中(zhōng),GPT 構造器(qì)的(de)角色(sè)通常麵向以下幾個方(fāng)麵職責。



數據收集與處理:負責(zé)收集和整理大量的文本數(shù)據,這些(xiē)數據將用於訓(xùn)練(liàn) GPT 模型。本文中主要的數據來自於FAQ,文檔和網頁(yè)。


模(mó)型訓練:使用收集到的數據對(duì) GPT 模(mó)型(xíng)進(jìn)行訓(xùn)練,這可能涉及到選擇合適的模型架構、超參數調整(zhěng)、訓練過程的監控和優化等。在使用向量表示的時候,會對文檔(dàng)通過數據工程進行分塊,並進行向量(liàng)化。


模型(xíng)評估與優化:在模型訓練完成後,需(xū)要評估模型的準確定和性能,並根(gēn)據評估結果對模型進行優化和調(diào)整,並進(jìn)行RLHF。


應用集成:將訓練好的 GPT 模型集成到企業(yè)的產品或服務中,例如用於構建聊(liáo)天機器人、消息通道、文本生成工具(jù)、語言理解係統等。


模型迭代:隨著技術的發展和業務需(xū)求的變(biàn)化,負責對 GPT 模型進行迭代更(gèng)新,以保持其在企業應用中的有效性和競(jìng)爭力,同時會對其問答知識進行訓練,確保(bǎo)業務(wù)的持續更(gèng)新。


知識管理:負責管理 GPT 模(mó)型訓練和使用過(guò)程中產生的知識,確(què)保知識的合規性和安全性。



企業GPT構造器的總體架構


企業GPT構造器的具體(tǐ)角色和職責可能會(huì)根據企業的規模、業務需求和資源配(pèi)備而有所不同(tóng)。在一些企(qǐ)業中,這些任務可(kě)能由專門(mén)的AI團(tuán)隊承擔,而(ér)在其他企業中(zhōng),可能由數據科學家或(huò)軟件工程師負責。在這當中,企業GPT構造器的IT基礎形態各異。本(běn)文介紹一款基於多租戶架構的企業GPT構造器,其總體設計思路如下圖所示。


圖片關鍵詞


企(qǐ)業(yè)租戶管理員作為信息生產者,負責企業GPT的喂(wèi)養工作。企業業務部門如銷售部、市場部等(děng)作為信息消費者,使用企業GPT服務為客戶提供服務。係統主要分為企業GPT的(de)喂養服務兩部分,接下來以(yǐ)這兩點結合筆者的(de)實戰進行介紹。



企(qǐ)業GPT構造器喂養


在企業GPT喂養工作中,租(zū)戶管理員負責輸入企業官(guān)網及其他相關網站,係統通過抓取技術進行文本采集;支持上傳對應的文檔(dàng),通過表單識別(bié)進行文本采集;並支(zhī)持問題/答案的直接輸入。這些喂養的網頁和文檔(dàng)將進行分塊和向量(liàng)化處理,以(yǐ)向量的方式存儲於向量數據(jù)庫(kù)中。


01
企業官網抓取


官網作為租戶(尤其是中小型企業)最重要的權威信息發布渠道,跟(gēn)企(qǐ)業(yè)業務緊密結合。因此企業GPT構建器采用網站抓取技術,能夠提取官網多級目錄,並列出目錄由租戶決定喂養哪些URL的信息。


雖然企業官網網頁數據結構化不強,但是對於中小型企業來說不需要進行手動(dòng)處理即可作為喂養素材,整體上是(shì)一種比較經濟的處理方式。


圖片關鍵詞

企業官網抓取


02
企業文檔加載


企業文檔包括了行業規範、洞見及趨勢,企業產品/服務功能描述、非功能描述、特性和優勢、操作手冊、交付方式、商業(yè)合作模式、應用範圍、主要(yào)應用(yòng)案例等(děng),這些企業文檔能夠幫(bāng)助客戶了解企業相(xiàng)關業務(wù)。


係統支持word、pdf、ppt、markdown及txt等文件。文檔相對網頁更加結構化,更加能夠聚合(hé)信息,對於規模稍大的企業來說文(wén)檔資源也比較(jiào)豐富,應(yīng)該算比網頁更加優質的(de)素材。為(wéi)了提升喂(wèi)養文檔質量,文(wén)檔盡量做到主題(tí)明確、描述(shù)清晰(xī),內聚地表達業務內容。盡量避免在一些多級(jí)標題的(de)場(chǎng)景下,小(xiǎo)標題會被切分成單獨(dú)的chunk,與正文分割開。


圖片關鍵詞

企業文檔(dàng)喂養


03
問題/答複對輸入


企業問題/答複(FAQ)對可以進行輸入,並(bìng)作為單獨的向量存放在向量數據庫中。


作為最優質的企業信息,問題/答複對向量將更加容易被向量檢索到,能夠在答複客(kè)戶時作為第一優先級答案。


04
企業GPT喂養流程


基於中(zhōng)小型企業的特點,企業GPT構造器喂養流程分為:


// 預處(chù)理:針對企業文檔,對於部分圖片方式(shì)的文檔,需要使用 OCR 功能進行預先識別,並對文檔進行邊(biān)界框(kuàng)中文本的位置(zhì)、文本內容、表、選(xuǎn)擇標記(也稱為複選框或單選按鈕)和文檔結構分析。


// 格式化:經過(guò)預處理的文本將進行格式化,格(gé)式化的步驟如下:

  • STEP1. 將html富文本或markdown的知(zhī)識統(tǒng)一處理(lǐ)為純文本格式

  • STEP2. 構建標題樹,在富文本場(chǎng)景下(xià)通過構(gòu)建內容標題樹的方式來優化chunk,比如把chunk按照“#大標題(tí)-中標題-小標題#:內容”的方式構建。


檢(jiǎn)索時額外檢索(suǒ)同一標(biāo)題樹下的(de)chunk,隨後做拚接。如果一次(cì)構建的知識塊過長,則將此知識塊文本按照400-500個token長度,並在其後根據標點符號和換行符等來切分段(duàn)落來切分。


// 向量化:通過大數據模型(LLM)的向量化(Embedding)接口,對經過格式化的文本分塊進行處理,以OpenAI的Embedding接口為例,其對格式化後(hòu)的文本進行向量化,本文(wén)案例選擇的是text-embedding-ada-002模型。


// 向量存儲:將(jiāng)向(xiàng)量化後的企業知識存入到向量(liàng)數據庫中(zhōng),包含了(le)來源(yuán)ID、類型、分塊(kuài)向(xiàng)量、原始文本內(nèi)容等,並進(jìn)行(háng)多租戶數據隔離。


圖片關鍵詞

企業GPT喂養流程



企(qǐ)業GPT構造器服(fú)務


企業通過使(shǐ)用 GPT模型來獲得多(duō)種自然(rán)語言處理(NLP)服務(wù),這些服務可以幫助(zhù)企(qǐ)業提高效率、改善客戶體驗、提供7*24小時服務等。以下(xià)簡要介紹(shào)企業(yè)可(kě)以通過(guò) GPT 獲得的部分服務。


01
消息公眾號設計

在企業信(xìn)息向量化存儲之後,還需要對(duì)企業交互式消息公眾號進行設計,我們可(kě)以配置chatbot的頭像logo,名稱,服務介紹,服務電話,主頁,服務郵箱等信息。


02
Prompt設計(jì)

同(tóng)時我們需(xū)要對企業GPT機器(qì)人做角色定(dìng)義。設置AI創造力因子(Temperature)來確定AI答複的確定性(xìng)或者創造性。並應用(yòng)提示(shì)工程對其角色進行清(qīng)晰明確的描述,以便AI模型理解我們的需求(qiú),提示工程通常有三個主要元素組成:任務、指令(lìng)、角色,可以通過調整(zhěng)Temperature參數來控製生成文(wén)本的多樣(yàng)性,較高值會導致更加隨(suí)機和多樣化的(de)文本生成,而較低值則會導(dǎo)致更加保守和確定性(xìng)的文(wén)本生成。並(bìng)通過(guò)少樣本示例實(shí)現企業(yè)希望扮演的角色目標,下圖是一(yī)個Prompt的設計例子。


圖片關鍵詞(cí)企業(yè)GPT Prompt設置


03
服務流程

通過交互式(shì)消息,企業GPT可(kě)以對(duì)外提供消(xiāo)息服務,其提供服務的流程如下圖所示。


圖片關鍵詞

企業GPT通(tōng)過交互式消息為客戶提供服務


企業的目標客戶通過交互式消息或者Web插件,訪問企業GPT,步驟如下:

  • Step1:根據設定的業務場景(預配(pèi)置交互(hù)流程)及企業角色(提示工程),如市場營銷、客戶服務、辦公助手等,企業客戶(hù)訪問企業GPT。

  • Step2:企業(yè)GPT通過構(gòu)造(zào)LLM對客戶問題文(wén)本進行向量化。

  • Step3:使用向量搜索,在向量數據庫中搜索離(lí)客戶問題向量最相似的Top K(K可以設(shè)置)文本內容(róng)並返回,判斷的標準(zhǔn)為問題向量和喂養分塊向量之間的距離(向量之間的歐氏距離或(huò)者餘弦距離)。

  • Step4:企業GPT判斷Top K向量同客戶問題向量的相似度。

  • Step5:將匹配度得分>N分(N可以配置)的相關設(shè)置的Prompt、文本內容、當前(qián)及會話曆史(shǐ)問答,統(tǒng)一送到會話(huà)LLM,會話LLM根據這些信息進行組織推理。在某些場景下需要做上下文回溯,雖(suī)然(rán)能夠準確地檢索內容,但(dàn)是這部分內容(róng)並不全,檢索時額(é)外檢索(suǒ)最相關chunk的相鄰chunk,隨後做拚接。

  • Step6:組裝好的答案和參考文檔信息通過交互式消息返回客戶(hù)端。


04
服務展示

係統本身支持多(duō)種交互式消息,下圖是(shì)多種交互式消息的展示(shì)例子(zǐ)。


圖片關鍵詞

05
訓練(liàn)和增(zēng)強

在實際(jì)項目執行過程(chéng)中,部分麵向客戶的答複需要嚴謹(jǐn),因此(cǐ)對機器人的答複進行(háng)訓練和增強。


圖片關鍵詞

多種交互式消息通道(dào)的企業GPT展示


用戶問題與回(huí)複的答案將會自動被填入文本框內。可以進行編輯,並(bìng)以“Q&A”的格式訓練至(zhì)知識庫內。可以選擇訓練至一個已有的“Q&A”知識文(wén)檔內,也可以創建一(yī)個新的“Q&A”知(zhī)識文檔來儲存本次(cì)訓練的知識。



企業GPT構造器應用場景


企業GPT在構(gòu)造之後,可以通過(guò)交互式(shì)消息通道或者Web插件為企業的各個部門客戶(hù)提供服務,且不限於下列場景例子。


Scene1. 品牌營銷

配合交互式消息的主動觸達功能,可以向客戶發送促銷信息,通過企業GPT,能夠(gòu)為客(kè)戶解答促(cù)銷信息的內容,也可以自動(dòng)答(dá)複企業官網/社媒賬號,引導客戶直接訪問(wèn)購買,也可以為客戶(hù)提供政(zhèng)策谘(zī)詢服務。


圖片關鍵詞

品牌營銷場景


Scene2. 客戶服務

可以通過交(jiāo)互式消息(xī)發送客戶(hù)物(wù)流(liú)信息,待客(kè)戶接收商品之(zhī)後,在喂(wèi)養相關(guān)商品的產品使用手冊(cè)周,客戶可以(yǐ)通過企業GPT,客戶可以谘詢企業人工座席工作時間,企業GPT能夠告訴客戶如何使用商品,幫助客(kè)戶排除商品的使用故障等(děng)。

圖片關鍵詞圖片關鍵詞

客戶服務場(chǎng)景


Scene3. 助手服務

在(zài)喂養了(le)企業的財務、人(rén)事等相關政策文(wén)檔後,企業員工可以(yǐ)不用(yòng)閱讀繁瑣的各類文檔,通過企業GPT,以對話的方式(shì)谘詢財務係統發票問題,人事政(zhèng)策問題等內(nèi)容,大大提升新員工培訓效率及員工獲得感。


圖片關鍵詞

企(qǐ)業(yè)助手場景


助手服務還可以(yǐ)廣泛應(yīng)用於企業業務支撐,如對銷售人員的專業知識支持,運(yùn)維人員的設備知識支持等。



實戰應用案例


国产亚洲熟妇在线视频科(kē)技企(qǐ)業GPT構造器(qì)能夠快速地幫助企業(yè)構建自己的GPT,目前已成功(gōng)實戰了HETU產品線hetuGPT、NuriGPT、MRGPT以及wctGPT。


其中(zhōng),印尼N電商是一家通過互利聯盟營銷社區為品牌所有者、經銷商、有(yǒu)影響力者(zhě)和消費者提供創新和全新在線購物體(tǐ)驗的技術公司。作為一家電商,其(qí)經營的電子產品種類繁多,客服人員無法對所有(yǒu)電子(zǐ)產品的參數、操作方式了如指掌,因而常常在答複客戶詢問產品(pǐn)的時候,需要打(dǎ)開大量的文(wén)檔進行查(chá)詢, NuriGPT有效地解(jiě)決了這個痛點,N電商客服團隊(duì)負責人Arnold說:

“HETU 企業GPT幫助N電商構建了企業級NuriGPT來支持(chí)電商業務,知識喂養的方式很方便,隻需要上傳文檔,客服人員就可以快速的從(cóng)各種電子產品文檔中檢索出產品參(cān)數、操作方式、常見故(gù)障解(jiě)決方法,其ChatGPT的自然語言交互體驗非常好,並自動支(zhī)持多語言的轉換,幫助客服人員快速解決客戶的問題,大大(dà)降低客服人員的工作負載。”


官方微信(xìn)公眾號

国产亚洲熟妇在线视频雲計算科技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安(ān)備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕