一本丁香综合久久久久不卡网站,二次元裸体无奶罩自慰,亚洲熟妇无码AV在线播放,亚洲国产AV无码一区二区三区

你知道ChatGPT是怎么工作的嗎

2023-06-15 17:15:27
近期ChatGPT等人工智能模型的推出,讓人工智能、AI、ChatGPT等詞不斷登上熱搜。發布五天,ChatGPT用戶便超過100萬人,無情碾壓了臉書公司10個月破百萬用戶的紀錄。發布短短兩個月,ChatGPT日活躍用戶數突破1億,打破了Twitter保持的9個月的紀錄,成為史上用戶數增長最快的消費者應用。但是,你知道ChatGPT是怎么工作的嗎?
ChatGPT是一類機器學習自然語言處理模型的推斷,被稱為大型語言模型(LLM)。 LLM消化了大量的文本數據,并推斷出文本中單詞之間的關系。在過去的幾年里, 隨著我們看到計算能力的進步, 這些模型也在不斷增長。隨著輸入數據集和參數空間大小的增加, LLM的能力也在增加。語言模型的最基本的訓練涉及到預測一連串詞語中的一個詞。最常見的是,這被觀察為下一個標記預測和屏蔽語言模型。

在2018年,openAI首次推出生成式預訓練轉化器(GPT)模型, 名為GPT-1. 這些模型在2019年的GPT-2, 2020年的GPT-3以及最近在2022年的InstructGPT和ChatGPT中繼續發展. 在將人類反饋整合到系統中之前, GPT模型進化的最大進步是由計算效率方面的成就推動的, 這使得GPT-3能夠在比GPT-2多得多的數據上進行訓練, 使其擁有更多樣化的知識基礎和執行更廣泛任務的能力.

所有的GPT模型都利用了轉化器結構, 這意味著它們有一個編碼器來處理輸入序列, 一個解碼器來生成輸出序列. 編碼器和解碼器都有一個多頭的自我注意機制, 允許模型對序列的部分進行不同的加權, 以推斷出意義和背景. 此外, 編碼器利用掩蔽語言模型來理解單詞之間的關系, 并產生更易理解的反應.

驅動GPT的自我關注機制通過將標記(文本片段, 可以是一個詞, 一個句子或其他文本分組)轉換為向量, 代表該標記在輸入序列中的重要性. 為了做到這一點, 該模型:

1.為輸入序列中的每個標記創建一個查詢, 鍵和值向量.
2.通過采取兩個向量的點積, 計算第一步中的查詢向量與其他每個標記的關鍵向量之間的相似性.
3.通過將第2步的輸出輸入softmax函數, 生成規范化的權重.
4.產生一個最終向量, 通過將步驟3中產生的權重乘以每個標記的值向量, 代表該序列中標記的重要性.

GPT使用的'多頭'注意機制是自我關注的進化. 該模型不是一次性執行第1-4步, 而是并行地多次迭代這一機制, 每次都會產生一個新的查詢, 鍵和值向量的線性投影. 通過以這種方式擴展自我關注, 該模型能夠掌握輸入數據中的子含義和更復雜的關系.

ChatGPT是InstructGPT的衍生產品, 它引入了一種新穎的方法, 將人類反饋納入訓練過程, 使模型的輸出與用戶的意圖更好地結合起來.

第1步: 監督微調(SFT)模型
第一次開發涉及微調GPT-3模型, 雇用了40個承包商來創建一個有監督的訓練數據集, 其中輸入有一個已知的輸出供模型學習. 輸入, 或提示, 是從實際的用戶輸入開放API中收集的. 然后, 標簽人員對提示寫出適當的回應, 從而為每個輸入創建一個已知的輸出. 然后, GPT-3模型使用這個新的, 有監督的數據集進行微調, 以創建GPT-3.5, 也稱為SFT模型.

第2步: 獎勵模式
在步驟1中訓練SFT模型之后, 該模型生成對齊更好的響應以對用戶提示. 下一個改進的形式是訓練獎勵模型, 其中模型輸入是一系列提示和響應, 輸出是稱為獎勵的縮放值. 為了利用強化學習, 需要獎勵模型, 在強化學習中, 模型學習產生輸出以最大化其獎勵(參見步驟3).

第3步: 強化學習模型
在最后階段, 模型將收到隨機提示并返回響應. 響應是使用模型在步驟2中學習的'策略'生成的. 該策略代表機器已經學會用于實現其目標的策略; 在這種情況下, 最大化其獎勵. 根據步驟2中開發的獎勵模型, 然后確定提示和響應對的縮放器獎勵值. 然后, 獎勵會反饋到模型中以進化策略.

北大青鳥開設了人工智能、大數據、5G云計算、Java、前端、軟件開發等課程,辦學十余年,擁有豐富的教學經驗。如果你想學習一些人工智能方面的知識,也歡迎致電400-8035-955或在下方留下聯系方式來北大青鳥咨詢!

上一篇:人工智能是怎么自主學習的
下一篇:人工智能會威脅到人類嗎?人類會被機器取代嗎?

姓名:
手機:
北大青鳥深圳校區
返回頂部
咨詢熱線 0755-86191118
香蕉欧美成人精品A∨在线观看| 国产无人区码卡二卡三卡免费| 天天摸天天做天天爽水多| 亚洲精品美女久久久久9999| av人人揉揉资源站免费| 人妻无码一区二区视频|