team-lucid
trocr-small-korean
mptk-1b
Hubert Base Korean
Hubert(Hidden-Unit BERT)는 Facebook에서 제안한 Speech Representation Learning 모델입니다. Hubert는 기존의 음성 인식 모델과 달리, 음성 신호를 raw waveform에서 바로 학습하는 self-supervised learning 방식을 사용합니다. 이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다. 해당 모델은 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 자유대화 음성(일반남여), 다화자 음성합성 데이터, 방송 콘텐츠 대화체 음성인식 데이터 에서 약 4,000시간을 추출해 학습되었습니다. 원 논문과 동일하게 MFCC 기반으로 Base 모델을 학습한 다음, 500 cluster로 k-means를 수행해 다시 Base와 Large 모델을 학습했습니다. | Hyperparameter | Base | Large | |:--------------------|---------|--------:| | Warmup Steps | 32,000 | 32,000 | | Learning Rates | 5e-4 | 1.5e-3 | | Batch Size | 128 | 128 | | Weight Decay | 0.01 | 0.01 | | Max Steps | 400,000 | 400,000 | | Learning Rate Decay | 0.1 | 0.1 | | \\(Adam\beta1\\) | 0.9 | 0.9 | | \\(Adam\beta2\\) | 0.99 | 0.99 |
hubert-large-korean
deberta-v3-small-korean
Deberta V3 Base Korean
DeBERTa는 Disentangled Attention과 Enhanced Masked Language Model을 통해 BERT의 성능을 향상시킨 모델입니다. 그중 DeBERTa V3은 ELECTRA-Style Pre-Training에 Gradient-Disentangled Embedding Sharing을 적용하여 DeBERTA를 개선했습니다. 이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다. | | Backbone Parameters(M) | NSMC (acc) | PAWS (acc) | KorNLI (acc) | KorSTS (spearman) | Question Pair (acc) | |:-------------------|:--------------------------:|:------------------:|:------------------:|:--------------------:|:-------------------------:|:---------------------------:| | DistilKoBERT | 22M | 88.41 | 62.55 | 70.55 | 73.21 | 92.48 | | KoBERT | 85M | 89.63 | 80.65 | 79.00 | 79.64 | 93.93 | | XLM-Roberta-Base | 85M | 89.49 | 82.95 | 79.92 | 79.09 | 93.53 | | KcBERT-Base | 85M | 89.62 | 66.95 | 74.85 | 75.57 | 93.93 | | KcBERT-Large | 302M | 90.68 | 70.15 | 76.99 | 77.49 | 94.06 | | KoELECTRA-Small-v3 | 9.4M | 89.36 | 77.45 | 78.60 | 80.79 | 94.85 | | KoELECTRA-Base-v3 | 85M | 90.63 | 84.45 | 82.24 | 85.53 | 95.25 | | Ours | | | | | | | | DeBERTa-xsmall | 22M | 91.21 | 84.40 | 82.13 | 83.90 | 95.38 | | DeBERTa-small | 43M | 91.34 | 83.90 | 81.61 | 82.97 | 94.98 | | DeBERTa-base | 86M | 91.22 | 85.5 | 82.81 | 84.46 | 95.77 | \ 다른 모델의 결과는 KcBERT-Finetune 과 KoELECTRA를 참고했으며, Hyperparameter 역시 다른 모델과 유사하게 설정습니다. | dtype | Largest Layer or Residual Group | Total Size | Training using Adam | |:-----------------|:----------------------------------|:-------------|:----------------------| | float32 | 187.79 MB | 513.77 MB | 2.01 GB | | float16/bfloat16 | 93.9 MB | 256.88 MB | 1.0 GB | | int8 | 46.95 MB | 128.44 MB | 513.77 MB | | int4 | 23.47 MB | 64.22 MB | 256.88 MB |
Deberta V3 Xlarge Korean
DeBERTa는 Disentangled Attention과 Enhanced Masked Language Model을 통해 BERT의 성능을 향상시킨 모델입니다. 그중 DeBERTa V3은 ELECTRA-Style Pre-Training에 Gradient-Disentangled Embedding Sharing을 적용하여 DeBERTA를 개선했습니다. 이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다. | | Backbone Parameters(M) | NSMC (acc) | PAWS (acc) | KorNLI (acc) | KorSTS (spearman) | Question Pair (acc) | |:-------------------|:--------------------------:|:------------------:|:------------------:|:--------------------:|:-------------------------:|:---------------------------:| | DistilKoBERT | 22M | 88.41 | 62.55 | 70.55 | 73.21 | 92.48 | | KoBERT | 85M | 89.63 | 80.65 | 79.00 | 79.64 | 93.93 | | XLM-Roberta-Base | 85M | 89.49 | 82.95 | 79.92 | 79.09 | 93.53 | | KcBERT-Base | 85M | 89.62 | 66.95 | 74.85 | 75.57 | 93.93 | | KcBERT-Large | 302M | 90.68 | 70.15 | 76.99 | 77.49 | 94.06 | | KoELECTRA-Small-v3 | 9.4M | 89.36 | 77.45 | 78.60 | 80.79 | 94.85 | | KoELECTRA-Base-v3 | 85M | 90.63 | 84.45 | 82.24 | 85.53 | 95.25 | | Ours | | | | | | | | DeBERTa-xsmall | 22M | 91.21 | 84.40 | 82.13 | 83.90 | 95.38 | | DeBERTa-small | 43M | 91.34 | 83.90 | 81.61 | 82.97 | 94.98 | | DeBERTa-base | 86M | 91.22 | 85.5 | 82.81 | 84.46 | 95.77 | \ 다른 모델의 결과는 KcBERT-Finetune 과 KoELECTRA를 참고했으며, Hyperparameter 역시 다른 모델과 유사하게 설정습니다.
ModernBERT-large-multilingual
ModernBERT는 양방향 인코더 아키텍처에 현대적인 트랜스포머 기법을 적용한 모델입니다. RoPE를 사용해 최대 8,192 토큰의 긴 문맥을 효율적으로 처리하며, Local-Global 어텐션 패턴으로 계산 복잡도를 줄였습니다. GeGLU 활성화 함수와 Pre-normalization 블록, Unpadding 기법을 통해 기존 BERT 대비 최대 4배 빠른 처리 속도를 달성했습니다. 이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다.
ModernBERT-base-multilingual
ModernBERT는 양방향 인코더 아키텍처에 현대적인 트랜스포머 기법을 적용한 모델입니다. RoPE를 사용해 최대 8,192 토큰의 긴 문맥을 효율적으로 처리하며, Local-Global 어텐션 패턴으로 계산 복잡도를 줄였습니다. GeGLU 활성화 함수와 Pre-normalization 블록, Unpadding 기법을 통해 기존 BERT 대비 최대 4배 빠른 처리 속도를 달성했습니다. 이 연구는 구글의 TPU Research Cloud(TRC)를 통해 지원받은 Cloud TPU로 학습되었습니다.