而以codebert为基础的代码分类研究,正是当前研究热点之一。 Codebert是一种基于transformer的代码表示学习模型,它是自然语言处理领域中BERT(Bidirectional Encoder Representations from Transformers)的代码表示学习版本。它使用预训练的transformer模型,将代码序列映射到固定长度的向量空间中,从而实现代码表示学习。Codebert的出现...
基于实验结果,对特征选择提出建议: K-Means-C (KM-C):使用Output(Token)进行分类(非分类)任务。 K-Center-C (kC-C):使用代Embedding(Output)进行分类(非分类)任务。 BADGE-C:对所有代码任务使用Output 。 Coreset-C:对所有代码任务使用Output 。 RQ2: Acquisition Function Comparison采样函数的比较 得出结论:...
▲ Code Completion 作者提出的 GPT-C 是 GPT-2 模型的变体,在一个大规模、无监督、多语言的数据集上从零开始训练。基于 GPT-C,作者构建了一个代码补全 Framework,称之为 IntelliCode Compose,并对多种编程语言进行建模。作者将 Sequence decoding 的过程视为对树的搜索,搜到出现目标 token 为止。 ▲ Sequence ...
基于实验结果,对特征选择提出建议: K-Means-C (KM-C):使用Output(Token)进行分类(非分类)任务。 K-Center-C (kC-C):使用代Embedding(Output)进行分类(非分类)任务。 BADGE-C:对所有代码任务使用Output 。 Coreset-C:对所有代码任务使用Output 。 RQ2: Acquisition Function Comparison采样函数的比较 得出结论:...
GraphCodeBert: Pre-Trainng Code Representions with Data Flow,创新点:认为AST中有许多不必要的联系且仅是在语法层面,而DFG关注了语义层面:采用数据图流向【将程序中变量作为图的节点,将变量之间的数据流向作为边,mask掉部分边后再进行预测】
Table 10. Dβ: C4 and C8. Empty CellPrecisionRecallF1 score# ChatGPT 0.99 0.98 0.99 120 Humans 1.00 0.99 0.99 120 Accuracy 0.99 240 Macro avg 0.99 0.99 0.99 240 Weighted avg 0.99 0.99 0.99 240 5.2.2. The ability to detect code altered with prompt engineering We consider the alteration ...