例如,PPL和BLEU分别表明KC-C和Coreset-C是最好的采样函数。 对于两种评估指标,主动学习训练模型的性能与使用整个数据训练的模型的性能之间的差距很大。 例如,对于JavaScript-CodeBERT,在10%的标注预算下,最佳PPL分数和BLEU分数分别为5.1313和10.09,比完整训练模型的3.85和14.34分别低33.28%和29.64%。 这与分类任务的结果...
以codebert为基础的代码分类研究 现如今,代码分类是计算机科学领域内一个关键的问题。准确地将代码分类,能够帮助开发者更快地找到需要的代码,也能够为代码自动生成、代码克隆检测等应用提供帮助。而以codebert为基础的代码分类研究,正是当前研究热点之一。 Codebert是一种基于transformer的代码表示学习模型,它是自然语言处理...
DFG在一定程的上能够避免AST中一些不必要的联系从而提升了模型的有效性; 其次,GraphCodeBert也是基于Transformer开发的; 最后,GraphCodeBert是通过三项预训练任务来训练模型的:MLM(掩语言模型)、EP(数据流向图的边预测)和NA(数据流向图节点和代码token之间的关系预测)。 GraphCodeBert是第一个加入语义级别的代码结构的预...
例如,PPL和BLEU分别表明KC-C和Coreset-C是最好的采样函数。 对于两种评估指标,主动学习训练模型的性能与使用整个数据训练的模型的性能之间的差距很大。 例如,对于JavaScript-CodeBERT,在10%的标注预算下,最佳PPL分数和BLEU分数分别为5.1313和10.09,比完整训练模型的3.85和14.34分别低33.28%和29.64%。 这与分类任务的结果...