越南美女视频在线网站,韩国美女伦理视频

LLM進入“拖拽時代”！只靠Prompt，幾秒定制一個大模型，效率飆升12000倍

新智元

2025-06-24 14:35:08

現(xiàn)在的大模型基本都具備零樣本泛化能力，但要在真實場景中做特定的適配，還是得花好幾個小時來對模型進行微調。

即便是像LoRA這樣的參數(shù)高效方法，也只能緩解而不能消除每個任務所需的微調成本。

剛剛，包括尤洋教授在內的來自新加坡國立大學、得克薩斯大學奧斯汀分校等機構的研究人員，提出了一種全新的「拖拽式大語言模型」——Drag-and-Drop LLMs！

DnD是一種基于提示詞的參數(shù)生成器，能夠對LLM進行無需訓練的自適應微調。

通過一個輕量級文本編碼器與一個級聯(lián)超卷積解碼器的組合，DnD能在數(shù)秒內，僅根據(jù)無標簽的任務提示詞，生成針對該任務的LoRA權重矩陣。

顯然，對于那些需要快速實現(xiàn)模型專業(yè)化的場景，DnD可以提供一種相較于傳統(tǒng)微調方法更強大、靈活且高效的替代方案。

總結來說，DnD的核心優(yōu)勢如下：

極致效率：其計算開銷比傳統(tǒng)的全量微調低12,000倍。

卓越性能：在零樣本學習的常識推理、數(shù)學、編碼及多模態(tài)基準測試中，其性能比最強大的、需要訓練的LoRA模型還要高出30%。

強大泛化：僅需無標簽的提示詞，即可在不同領域間展現(xiàn)出強大的泛化能力。

DnD實現(xiàn)方法

通過觀察，研究人員發(fā)現(xiàn)，LoRA適配器無非是其訓練數(shù)據(jù)的一個函數(shù)：梯度下降會將基礎權重「拖拽」至一個特定任務的最優(yōu)狀態(tài)。

如果能夠直接學習從提示到權重的映射，那么就可以完全繞過梯度下降過程。

DnD通過兩個核心步驟獲得「拖拽」能力：準備訓練數(shù)據(jù)（左上）與訓練參數(shù)生成器（右上）。

在準備數(shù)據(jù)時，將模型參數(shù)（權重）與特定數(shù)據(jù)集的條件（提示詞）進行顯式配對。

在訓練時，DnD模型將條件作為輸入來生成參數(shù)，并使用原始的LoRA參數(shù)作為監(jiān)督信號進行學習。

基于這些洞見，團隊提出了「拖拽式大語言模型」，它無需微調即可生成任務專屬的權重。

團隊首先在多個不同數(shù)據(jù)集上分別訓練并保存相應的LoRA適配器。

為了賦予模型「拖拽」的能力，團隊將這些數(shù)據(jù)集的提示詞與收集到的LoRA權重進行隨機配對，構成DnD模型的訓練數(shù)據(jù)——即「提示詞-參數(shù)」對。

參數(shù)生成器是一個由級聯(lián)卷積塊構成的解碼器。

參數(shù)生成器的模塊細節(jié)如下：每個超卷積塊包含三個超卷積模塊，用于在不同維度上提取并融合特征信息。

訓練時，團隊采用一個現(xiàn)成的文本編碼器提取提示詞的嵌入向量，并將其輸入生成器。

生成器會預測出模型權重，團隊利用其與真實LoRA權重之間的均方誤差（MSE）損失來對其進行優(yōu)化。

在推理階段，團隊只需將來自全新數(shù)據(jù)集（訓練中未見過）的提示詞輸入DnD，僅需一次前向傳播，即可獲得為該任務量身定制的參數(shù)。

色老头一区二区三区,av基地,午夜第一页,久久成人18免费网站,免费美女视频免费,性感美女视频思念天边的你dj,美女视频在线观看 网站大全