What is a large language model?

A large language model (LLM) is an artificial intelligence system that has been trained on a vast dataset, often consisting of billions of words taken from books, the web, and other sources, to generate human-like, contextually relevant responses to queries. Because LLMs are designed to understand questions—called “prompts” in LLM terminology—and generate natural language responses, they can perform tasks such as answering customer questions, summarizing information in a report, generating first drafts of emails, even writing poetry and computer code. LLMs typically have a deep understanding of the grammar and semantics of the language in which they are trained, and they can be refined using a company’s own data.

What are the top five large language models?

Experts disagree on the top LLMs, but five that many tout are GPT-4 from OpenAI, Claude 2 from Anthropic, Llama 2 from Meta, Orca 2 from Microsoft Research, and Command from Cohere. ChatGPT is also from OpenAI.

What is the difference between LLMs and AI?

Artificial intelligence is a broad term that encompasses many technologies that can mimic human-like behavior or capabilities. Large language models are a type of generative AI, the umbrella term for AI models that generate content including text, images, video, spoken language, and music.

國家/地區

什麼是大型語言模型 (LLM)？

Mark Jackley | 內容策略師 | 2024 年 2 月 16 日

文章概覽

什麼是大型語言模型？
大型語言模型常見問題

大型語言模型 (Large Language Model, LLM) 是一種越來越受歡迎的人工智慧技術，旨在產生類似人類的書面查詢回應。LLM 經過大量文字資料訓練，學會根據提供的上下文預測下一個單字或單字序列，甚至能夠模仿特定作者或體裁的寫作風格。

LLM 起源於實驗室，並在 2020 年初引起關注，隨後逐漸發展成為獨立產品，並成為許多商業軟體中的增值功能。由於其卓越的理解請求和產生有用回應的能力，LLM 被廣泛應用於各種領域，包括自然語言處理、機器翻譯、內容生成、聊天機器人以及文件摘要等。

什麼是大型語言模型？

大型語言模型是一種人工智慧系統，經過大量資料訓練，這些資料通常包含來自書籍、網站及其他來源的數十億字，旨在生成類似人類的、與上下文相關的回應。由於 LLM 設計上能理解問題 (在 LLM 的術語中稱為「提示」) 並生成自然語言回應，因此它們能執行各種任務，例如回答客戶問題、總結報告內容、撰寫電子郵件草稿，甚至創作詩歌與程式碼。LLM 通常對其訓練語言的語法與語意有深刻理解，並且可以使用公司的自有資料進行進一步的調整與優化。

儘管 LLM 無法像人類那樣真正理解語言，但 LLM 能夠識別和解釋人類語言，展現其在自然語言處理方面取得的重大進步。最知名的 LLM 可能是 ChatGPT，這是 OpenAI 開發的人工智慧程式，經過數十億字書籍、文章和網站資料的訓練。用戶可以透過網頁瀏覽器或行動應用程式直接訪問 ChatGPT，或通過可程式化 API 將其與商業軟體連接。其他常見的 LLM 包括 Cohere、GPT-4 和 BARD。

用於訓練 LLM 的文字資料可以是結構化的 (例如資料庫中的資料) 或非結構化的。大多數企業擁有大量非結構化資料，包括簡訊、電子郵件和文件。

LLM 在商業領域的熱門應用包括客服聊天機器人、數位助理和翻譯服務，這些應用比傳統的逐字翻譯工具更具上下文相關性、口語化且自然。LLM 還能執行相當高階的任務，例如預測蛋白質結構和編寫軟體程式碼。醫療照護、製藥、金融和零售等行業都在充分運用 LLM。例如，醫療服務提供者可能會使用 LLM 來對來電熱線的病患進行分診，而投資公司則可能利用 LLM 來篩選並總結財報、新聞故事和社群媒體貼文，從中發現股票趨勢。LLM 可以協助企業管理和分析資料，並從中挖掘出有助於創造商業價值的見解。而在這些情境中，LLM 執行任務的速度也遠超過人類分析師。

這促使市場對該技術產生了極大的興趣，根據 Valuates Reports 2023 年的研究，預計到 2029 年，全球 LLM 市場將以 21.4% 的複合年成長率成長，達到 408 億美元。

在思考大型語言模型時，有一些關鍵概念需要瞭解，其中包括：這些概念包括：

自然語言：人類在日常情境中使用的語言，例如對話或書面報告，並非為了技術用途 (如程式碼) 而開發的語言。
自然語言處理：這是一種資料處理技術，可分析書面或口語文字的結構與意義。
語言模型：這是一種自然語言模型，可根據上下文預測短語或句子中下一個最合適的單字。

像人類一樣，LLM 並非完美無缺。LLM 的輸出品質取決於輸入的品質，也就是用來訓練的資料。過時的資料可能會導致錯誤，例如聊天機器人提供有關公司產品的錯誤回答。資料不足則可能使 LLM 編造答案，或稱為「幻覺 (hallucinate)」。儘管 LLM 在預測方面表現出色，但目前在解釋為何會得出某個結論方面較為不足。許多 LLM 是以書籍、報紙文章甚至是維基百科頁面進行訓練，這引發了對版權侵權的擔憂。若管理不當，LLM 可能會帶來安全風險，例如在回應中使用敏感或私人資訊。

一種名為檢索增強生成 (RAG) 的 AI 技術可以幫助解決這些問題，提升 LLM 輸出的準確性和相關性。RAG 提供了一種在不改變底層模型的情況下，加入目標資訊的方法。RAG 模型建立知識庫，通常是基於企業自有資料，並可以不斷更新，提供即時且相關的答案。例如，聊天機器人和其他對話系統可以利用 RAG 確保其對客戶問題的回答是根據最新的庫存資料、購買者偏好和過往購買紀錄，並排除過時或與 LLM 預期運作環境無關的資訊。

在企業開始專門訓練之前，建立 AI 卓越中心有助提高成功機會。本電子書將解釋為何如此，並提供建立有效卓越中心的建議。

存取電子書

大型語言模型常見問題

排名前五名的大型語言模型有哪些？

專家們對於頂尖的 LLM 存有不同看法，但許多人推崇的五大 LLM 包括來自 OpenAI 的 GPT-4、來自 Anthropic 的 Claude 2、來自 Meta 的 Llama 2、來自 Microsoft Research 的 Orca 2，以及來自 Cohere 的 Command。ChatGPT 也來自 OpenAI。

LLM 與 AI 有何不同？

人工智慧 (AI) 是一個廣泛的術語，涵蓋了許多模擬人類行為或能力的技術。大型語言模型 (LLM) 屬於生成式 AI 的一種，生成式 AI 是指那些能創造內容的 AI 模型，包括文字、圖像、影片、語音及音樂等。