在閱讀本文前,有幾個熱身的問題,您嘗試回答一下。
1. 什么是大語言模型(LLM)?
(相關資料圖)
2. 大語言模型開發與傳統機器學習開發有什么區別?
3. 什么是任務特定模型?
4. 什么是大語言模型的微調和參數有效調整?
5. 如何理解大語言模型的一體多用特性?
下面就讓我們開啟探討大語言模型奧秘之旅。
前文回顧:
AI技術干貨|從頭開始圖解大語言模型(上篇)
AI技術干貨|從頭開始圖解大語言模型(中篇)
引言
深度學習的子領域中有兩個重要的概念:大型語言模型(LLMs)和生成式人工智能(Generative AI)。這兩者在許多方面都有交集,并且都屬于深度學習的研究范疇。如果您對生成式人工智能感興趣,建議您閱讀金博士的《生成式人工智能簡介》一文。
在過去的幾年中,生成式人工智能發展迅速,吸引了大量的關注。這種類型的人工智能能夠生成全新的內容,包括文本、圖像、音頻和合成數據。
本文我們探討一下什么是大型語言模型。這類模型預先通過大量的文本數據進行訓練,通常是從互聯網或其他公開可獲取的書籍中提取的。預訓練期間,模型學習并理解文本數據的模式和結構。之后,在微調階段,模型會根據特定的任務進行優化,這些任務可能包括機器翻譯、文本生成、情感分析等。
下面我們通過幾個通俗易懂的示例,逐步對大模型的工作機理展開進行講解,希望能夠讓更多的讀者掌握相關的背景知識。
前文回顧;
AI技術干貨|從頭開始圖解大語言模型(上篇)
AI技術干貨|從頭開始圖解大語言模型(中篇)
大語言模型的定義和特征
大語言模型的特征
大型語言模型的一個顯著特性是它們的“多任務”能力,即一個模型能適應并完成各種不同的任務。這種特性使得大型語言模型在諸多領域中具有巨大的應用價值,例如:聊天機器人、內容生成、自然語言理解和生成等,任何涉及理解和生成文本的場景,它們都能大顯身手。
那么“預訓練”和“微調”到底是什么含義呢?試想一下訓練一只狗。通常,你會訓練你的狗學習基本的命令,比如“坐下”,“過來”,“趴下”,和“?!?。這些命令在日常生活中通常就足夠用了,能夠幫助你的狗成為一個良好的寵物公民。然而,如果你需要特殊的服務犬,比如警犬、導盲犬或者獵犬,你就需要給它進行額外的特殊訓練。
這個思路同樣適用于大型語言模型。這些模型進行通用目的的訓練,來解決常見的語言問題,如文本分類、問題回答、文檔摘要和跨行業的文本生成等。然后,這些模型可以根據不同領域,如零售、金融和娛樂等,利用相對較小規模的領域數據集,進行微調,解決特定的問題。
這個過程中的“預訓練”階段,就相當于教狗狗基本的命令。而“微調”階段,則對應于對狗狗進行特殊的額外訓練。預訓練的模型就像一只已經學會基本命令的狗,能夠進行基本的任務;而經過微調后的模型,則像是一個專門訓練過的服務犬,可以完成更特定、更復雜的任務。
讓我們進一步將大型語言模型的概念分解為三個主要特征。
1. “大型”有兩個含義。首先,它表示訓練數據集的巨大規模,有時達到PB(petabyte,即千兆字節)級別。其次,它指的是參數的數量。在機器學習中,參數通常被稱為超參數。參數基本上是機器從模型訓練中學到的記憶和知識。參數決定了一個模型在解決問題(如預測文本)時的技能水平。
2. “通用目的”意味著這些模型足以解決常見問題。有兩個原因導致了這個觀點。首先,無論具體任務是什么,人類語言都有其通用性。其次,資源是有限的。只有某些組織有能力使用巨大的數據集和大量的參數來訓練這種大型語言模型。
3. “預訓練”和“微調”,即在有能力的組織為他人創建基礎語言模型之后,用戶使用大規模數據集為通用目的預訓練一個大型語言模型,然后使用一個小得多的數據集為特定目標微調它。
在這個框架下,你可以將大型語言模型看作是一個強大的、高度適應性的工具。它們被設計為可以處理各種不同的語言任務,并且可以根據需要進行調整和優化,以滿足特定的需求。而這一切,都是基于大規模數據集的預訓練和精細的微調實現的,這是大型語言模型的核心思想和主要優勢所在。
大語言模型的分類
關鍵詞: