俄罗斯柔术美女视频,杨幂小视频,韩国美女视频网站在线观看

大模型“自動(dòng)修bug”能力將提升，豆包團(tuán)隊(duì)開源首個(gè)多語言代碼修復(fù)基準(zhǔn)Multi-SWE-bench

IT之家

2025-04-10 17:12:31

IT之家 4月10日消息，豆包大模型團(tuán)隊(duì)今日通過官方公眾號(hào)宣布，首個(gè)多語言類 SWE 數(shù)據(jù)集Multi-SWE-bench現(xiàn)已正式開源，可用于評(píng)估和提升大模型“自動(dòng)修Bug”能力。

在SWE-bench基礎(chǔ)上，Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言，是真正面向“全棧工程”的評(píng)測(cè)基準(zhǔn)。其數(shù)據(jù)均來自GitHub issue，歷時(shí)近一年構(gòu)建，以盡可能準(zhǔn)確測(cè)評(píng)和提高大模型高階編程智能水平。

Multi-SWE-bench旨在推動(dòng)自動(dòng)編程技術(shù)從僅能解決單一語言（如 Python）和低復(fù)雜度的任務(wù)，朝著支持多語言、具備真實(shí)問題解決能力的通用型智能體邁進(jìn)。

SWE-bench是當(dāng)前最具代表性的代碼修復(fù)評(píng)測(cè)基準(zhǔn)，強(qiáng)調(diào)任務(wù)真實(shí)、難度高。它基于 GitHub issue，要求模型自動(dòng)定位并修復(fù)Bug，兼具跨文件修改、復(fù)雜語義推理與上下文理解等挑戰(zhàn)。

Multi-SWE-bench旨在補(bǔ)全現(xiàn)有同類基準(zhǔn)語言覆蓋方面的不足，系統(tǒng)性評(píng)估大模型在復(fù)雜開發(fā)環(huán)境下的“多語言泛化能力”，推動(dòng)多語言軟件開發(fā)Agent的評(píng)估與研究，其主要特性如下：

首次覆蓋7種主流編程語言（包括Java、Go、Rust、C、C++、TypeScript、JavaScript），構(gòu)建多語言開發(fā)環(huán)境下的代碼修復(fù)任務(wù)，系統(tǒng)評(píng)估模型的跨語言適應(yīng)與泛化能力；

引入任務(wù)難度分級(jí)機(jī)制，將問題劃分為簡單（Easy）、中等（Medium）和困難（Hard）三類，涵蓋從一行修改到多文件、多步驟、多語義依賴的開發(fā)挑戰(zhàn)；

1,632個(gè)實(shí)例全部來源于真實(shí)開源倉庫，并經(jīng)過統(tǒng)一的測(cè)試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的審核篩選，確保每個(gè)樣本具備清晰的問題描述、正確的修復(fù)補(bǔ)丁以及可復(fù)現(xiàn)的運(yùn)行測(cè)試環(huán)境。

上一篇：iPhone美國制造：只是貴一點(diǎn)，還是根本做不到？

下一篇：人形機(jī)器人，困在A輪里

色老头一区二区三区,av基地,午夜第一页,久久成人18免费网站,免费美女视频免费,性感美女视频思念天边的你dj,美女视频在线观看 网站大全

色老头一区二区三区,av基地,午夜第一页,久久成人18免费网站,免费美女视频免费,性感美女视频思念天边的你dj,美女视频在线观看网站大全