딥러닝/NLP 2

Meet in the Middle: A New Pre-training Paradigm

"Fill in the Middle (FIM)"이라는 pretraining idea에서 출발한 연구 Related Work FIM 문장을 세부분으로 나눈다: prefix, middle, suffix suffix, prefix, middle의 배치로 하고, middle을 예측하도록 학습한다. 하지만 이 방법은 문제점이 몇가지 있다. suffix, prefix의 context 연결이 자연스럽지 않은 것 LM 생성은 일반적으로 최근 생성한 몇가지 토큰에 대해 바이어스 되는 경향이 있음 문장은 prefix, middle, suffix를 무작위적으로 스플릿하는데, 그렇기 때문에 문장 전체를 못봄 (이건 약간 동의하기 힘들다) Bidirectional Language Modeling과 MIM의 차이 제안 방법 "M..

딥러닝/NLP 2023.03.31

Code Generation Survey 요약 정리

Deep Learning for Source Code Modeling and Generation: Models, Applications and Challenges 이 논문은 딥러닝 기반 Code generation (CG)에 대한 ACM Computing Survey 2020 paper이다. 섹션 2: 소스 코드에 대한 전통적인 언어 모델과 그 한계를 제시하여 DL 모델의 사용에 동기를 부여 섹션 3: 인코더-디코더 프레임워크에서 소스 코드 모델링을 구성하고 이러한 프레임워크의 중요한 구성요소를 설명 섹션 4: 딥 소스 코드 모델을 구축하기 위한 최근 연구 제시 섹션 5: 다양한 빅 코드 작업에 대한 DL 기반 애플리케이션을 검토 섹션 6: 이러한 작업에 사용할 수 있는 데이터 세트를 제시 섹션 7: 현..

딥러닝/NLP 2021.05.20