beomi

79 models • 2 total models in database

Sort by:

KcELECTRA-base-v2022

🚨 Important Note: This REPO is DEPRECATED since KcELECTRA-base v2023 Released 🚨 USE `https://huggingface.co/beomi/KcELECTRA-base` and `v2022` Revision if needed. - KcELECTRA-base-v2022 (구 v2022-dev) 모델 이름이 변경되었습니다. - 위 모델의 세부 스코어를 추가하였습니다. - 기존 KcELECTRA-base(v2021) 대비 대부분의 downstream task에서 ~1%p 수준의 성능 향상이 있습니다. 공개된 한국어 Transformer 계열 모델들은 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다. 한편, 실제로 NSMC와 같은 User-Generated Noisy text domain 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며, 오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다. KcELECTRA는 위와 같은 특성의 데이터셋에 적용하기 위해, 네이버 뉴스에서 댓글과 대댓글을 수집해, 토크나이저와 ELECTRA모델을 처음부터 학습한 Pretrained ELECTRA 모델입니다. 기존 KcBERT 대비 데이터셋 증가 및 vocab 확장을 통해 상당한 수준으로 성능이 향상되었습니다. KcELECTRA는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다. (별도의 파일 다운로드가 필요하지 않습니다.) - Finetune 코드는 https://github.com/Beomi/KcBERT-finetune 에서 찾아보실 수 있습니다. - 해당 Repo의 각 Checkpoint 폴더에서 Step별 세부 스코어를 확인하실 수 있습니다. | | Size (용량) | NSMC (acc) | Naver NER (F1) | PAWS (acc) | KorNLI (acc) | KorSTS (spearman) | Question Pair (acc) | KorQuaD (Dev) (EM/F1) | | :----------------- | :-------------: | :----------------: | :--------------------: | :----------------: | :------------------: | :-----------------------: | :-------------------------: | :---------------------------: | | KcELECTRA-base-v2022 | 475M | 91.97 | 87.35 | 76.50 | 82.12 | 83.67 | 95.12 | 69.00 / 90.40 | | KcELECTRA-base | 475M | 91.71 | 86.90 | 74.80 | 81.65 | 82.65 | 95.78 | 70.60 / 90.11 | | KcBERT-Base | 417M | 89.62 | 84.34 | 66.95 | 74.85 | 75.57 | 93.93 | 60.25 / 84.39 | | KcBERT-Large | 1.2G | 90.68 | 85.53 | 70.15 | 76.99 | 77.49 | 94.06 | 62.16 / 86.64 | | KoBERT | 351M | 89.63 | 86.11 | 80.65 | 79.00 | 79.64 | 93.93 | 52.81 / 80.27 | | XLM-Roberta-Base | 1.03G | 89.49 | 86.26 | 82.95 | 79.92 | 79.09 | 93.53 | 64.70 / 88.94 | | HanBERT | 614M | 90.16 | 87.31 | 82.40 | 80.89 | 83.33 | 94.19 | 78.74 / 92.02 | | KoELECTRA-Base | 423M | 90.21 | 86.87 | 81.90 | 80.85 | 83.21 | 94.20 | 61.10 / 89.59 | | KoELECTRA-Base-v2 | 423M | 89.70 | 87.02 | 83.90 | 80.61 | 84.30 | 94.72 | 84.34 / 92.58 | | KoELECTRA-Base-v3 | 423M | 90.63 | 88.11 | 84.45 | 82.24 | 85.53 | 95.25 | 84.83 / 93.45 | | DistilKoBERT | 108M | 88.41 | 84.13 | 62.55 | 70.55 | 73.21 | 92.48 | 54.12 / 77.80 | \config의 세팅을 그대로 하여 돌린 결과이며, hyperparameter tuning을 추가적으로 할 시 더 좋은 성능이 나올 수 있습니다. - `pytorch ~= 1.8.0` - `transformers ~= 4.11.3` - `emoji ~= 0.6.0` - `soynlp ~= 0.0.493` > 💡 이전 KcBERT 관련 코드들에서 `AutoTokenizer`, `AutoModel` 을 사용한 경우 `.frompretrained("beomi/kcbert-base")` 부분을 `.frompretrained("beomi/KcELECTRA-base")` 로만 변경해주시면 즉시 사용이 가능합니다. - KcBERT학습에 사용한 데이터 + 이후 2021.03월 초까지 수집한 댓글 - 약 17GB - 댓글-대댓글을 묶은 기반으로 Document 구성 - https://github.com/KLUE-benchmark/KLUE-ELECTRA Repo를 통한 Pretrain - https://github.com/Beomi/KcBERT-finetune Repo를 통한 Finetune 및 스코어 비교 학습 데이터는 2019.01.01 ~ 2021.03.09 사이에 작성된 댓글 많은 뉴스/혹은 전체 뉴스 기사들의 댓글과 대댓글을 모두 수집한 데이터입니다. 데이터 사이즈는 텍스트만 추출시 약 17.3GB이며, 1억8천만개 이상의 문장으로 이뤄져 있습니다. > KcBERT는 2019.01-2020.06의 텍스트로, 정제 후 약 9천만개 문장으로 학습을 진행했습니다. 네이버 댓글의 경우, 비속어는 자체 필터링을 통해 `OOO` 로 표시합니다. 이 부분을 공백으로 제거하였습니다. 아래 명령어로 pip로 설치한 뒤, 아래 clean함수로 클리닝을 하면 Downstream task에서 보다 성능이 좋아집니다. (`[UNK]` 감소) Tokenizer는 Huggingface의 Tokenizers 라이브러리를 통해 학습을 진행했습니다. 그 중 `BertWordPieceTokenizer` 를 이용해 학습을 진행했고, Vocab Size는 `30000`으로 진행했습니다. Tokenizer를 학습하는 것에는 전체 데이터를 통해 학습을 진행했고, 모델의 General Downstream task에 대응하기 위해 KoELECTRA에서 사용한 Vocab을 겹치지 않는 부분을 추가로 넣어주었습니다. (실제로 두 모델이 겹치는 부분은 약 5000토큰이었습니다.) TPU `v3-8` 을 이용해 약 10일 학습을 진행했고, 현재 Huggingface에 공개된 모델은 848k step을 학습한 모델 weight가 업로드 되어있습니다. (100k step별 Checkpoint를 통해 성능 평가를 진행하였습니다. 해당 부분은 `KcBERT-finetune` repo를 참고해주세요.) 모델 학습 Loss는 Step에 따라 초기 100-200k 사이에 급격히 Loss가 줄어들다 학습 종료까지도 지속적으로 loss가 감소하는 것을 볼 수 있습니다. - 위와 같이 KcBERT-base, KcBERT-large 대비 모든 데이터셋에 대해 KcELECTRA-base가 더 높은 성능을 보입니다. - KcELECTRA pretrain에서도 Train step이 늘어감에 따라 점진적으로 성능이 향상되는 것을 볼 수 있습니다. KcELECTRA Model을 학습하는 GCP/TPU 환경은 TFRC 프로그램의 지원을 받았습니다. - KcBERT by Beomi - BERT by Google - KoBERT by SKT - KoELECTRA by Monologg - Transformers by Huggingface - Tokenizers by Hugginface - ELECTRA train code by KLUE - Monologg님의 KoELECTRA 학습기 - Colab에서 TPU로 BERT 처음부터 학습시키기 - Tensorflow/Google ver.

license:mit

47,704

kcbert-base

- KcELECTRA가 릴리즈 되었습니다!🤗 - KcELECTRA는 보다 더 많은 데이터셋, 그리고 더 큰 General vocab을 통해 KcBERT 대비 모든 태스크에서 더 높은 성능을 보입니다. - 아래 깃헙 링크에서 직접 사용해보세요! - https://github.com/Beomi/KcELECTRA - KcBERT Paper 인용 표기를 추가하였습니다.(bibtex) - KcBERT-finetune Performance score를 본문에 추가하였습니다. Huggingface Transformers가 v4.0.0으로 업데이트됨에 따라 Tutorial의 코드가 일부 변경되었습니다. KcBERT를 Google Colab에서 TPU를 통해 학습할 수 있는 튜토리얼을 제공합니다! 아래 버튼을 눌러보세요. 만약 한 파일로 받고싶으시거나/Kaggle에서 데이터를 살펴보고 싶으시다면 아래의 캐글 데이터셋을 이용해주세요. - Github릴리즈: https://github.com/Beomi/KcBERT/releases/tag/TrainDatav1 - 캐글: https://www.kaggle.com/junbumlee/kcbert-pretraining-corpus-korean-news-comments (한 파일로 받을 수 있어요. 단일파일) Kaggle에 학습을 위해 정제한(아래 `clean`처리를 거친) Dataset을 공개하였습니다! 공개된 한국어 BERT는 대부분 한국어 위키, 뉴스 기사, 책 등 잘 정제된 데이터를 기반으로 학습한 모델입니다. 한편, 실제로 NSMC와 같은 댓글형 데이터셋은 정제되지 않았고 구어체 특징에 신조어가 많으며, 오탈자 등 공식적인 글쓰기에서 나타나지 않는 표현들이 빈번하게 등장합니다. KcBERT는 위와 같은 특성의 데이터셋에 적용하기 위해, 네이버 뉴스에서 댓글과 대댓글을 수집해, 토크나이저와 BERT모델을 처음부터 학습한 Pretrained BERT 모델입니다. KcBERT는 Huggingface의 Transformers 라이브러리를 통해 간편히 불러와 사용할 수 있습니다. (별도의 파일 다운로드가 필요하지 않습니다.) - Finetune 코드는 https://github.com/Beomi/KcBERT-finetune 에서 찾아보실 수 있습니다. | | Size (용량) | NSMC (acc) | Naver NER (F1) | PAWS (acc) | KorNLI (acc) | KorSTS (spearman) | Question Pair (acc) | KorQuaD (Dev) (EM/F1) | | :-------------------- | :---: | :----------------: | :--------------------: | :----------------: | :------------------: | :-----------------------: | :-------------------------: | :---------------------------: | | KcBERT-Base | 417M | 89.62 | 84.34 | 66.95 | 74.85 | 75.57 | 93.93 | 60.25 / 84.39 | | KcBERT-Large | 1.2G | 90.68 | 85.53 | 70.15 | 76.99 | 77.49 | 94.06 | 62.16 / 86.64 | | KoBERT | 351M | 89.63 | 86.11 | 80.65 | 79.00 | 79.64 | 93.93 | 52.81 / 80.27 | | XLM-Roberta-Base | 1.03G | 89.49 | 86.26 | 82.95 | 79.92 | 79.09 | 93.53 | 64.70 / 88.94 | | HanBERT | 614M | 90.16 | 87.31 | 82.40 | 80.89 | 83.33 | 94.19 | 78.74 / 92.02 | | KoELECTRA-Base | 423M | 90.21 | 86.87 | 81.90 | 80.85 | 83.21 | 94.20 | 61.10 / 89.59 | | KoELECTRA-Base-v2 | 423M | 89.70 | 87.02 | 83.90 | 80.61 | 84.30 | 94.72 | 84.34 / 92.58 | | DistilKoBERT | 108M | 88.41 | 84.13 | 62.55 | 70.55 | 73.21 | 92.48 | 54.12 / 77.80 | \config의 세팅을 그대로 하여 돌린 결과이며, hyperparameter tuning을 추가적으로 할 시 더 좋은 성능이 나올 수 있습니다. KcBERT-Base NSMC Finetuning with PyTorch-Lightning (Colab) KcBERT-Large NSMC Finetuning with PyTorch-Lightning (Colab) > 위 두 코드는 Pretrain 모델(base, large)와 batch size만 다를 뿐, 나머지 코드는 완전히 동일합니다. 학습 데이터는 2019.01.01 ~ 2020.06.15 사이에 작성된 댓글 많은 뉴스 기사들의 댓글과 대댓글을 모두 수집한 데이터입니다. 데이터 사이즈는 텍스트만 추출시 약 15.4GB이며, 1억1천만개 이상의 문장으로 이뤄져 있습니다. 아래 명령어로 pip로 설치한 뒤, 아래 clean함수로 클리닝을 하면 Downstream task에서 보다 성능이 좋아집니다. (`[UNK]` 감소) 원본 데이터를 위 `clean`함수로 정제한 12GB분량의 txt 파일을 아래 Kaggle Dataset에서 다운받으실 수 있습니다 :) Tokenizer는 Huggingface의 Tokenizers 라이브러리를 통해 학습을 진행했습니다. 그 중 `BertWordPieceTokenizer` 를 이용해 학습을 진행했고, Vocab Size는 `30000`으로 진행했습니다. Tokenizer를 학습하는 것에는 `1/10`로 샘플링한 데이터로 학습을 진행했고, 보다 골고루 샘플링하기 위해 일자별로 stratify를 지정한 뒤 햑습을 진행했습니다. BERT Model Config는 Base, Large 기본 세팅값을 그대로 사용했습니다. (MLM 15% 등) TPU `v3-8` 을 이용해 각각 3일, N일(Large는 학습 진행 중)을 진행했고, 현재 Huggingface에 공개된 모델은 1m(100만) step을 학습한 ckpt가 업로드 되어있습니다. 모델 학습 Loss는 Step에 따라 초기 200k에 가장 빠르게 Loss가 줄어들다 400k이후로는 조금씩 감소하는 것을 볼 수 있습니다. 학습은 GCP의 TPU v3-8을 이용해 학습을 진행했고, 학습 시간은 Base Model 기준 2.5일정도 진행했습니다. Large Model은 약 5일정도 진행한 뒤 가장 낮은 loss를 가진 체크포인트로 정했습니다. HuggingFace kcbert-base 모델 에서 아래와 같이 테스트 해 볼 수 있습니다. 네이버 영화평 코퍼스 데이터셋을 대상으로 Fine Tuning을 진행해 성능을 간단히 테스트해보았습니다. - GPU는 P100 x1대 기준 1epoch에 2-3시간, TPU는 1epoch에 1시간 내로 소요됩니다. - GPU RTX Titan x4대 기준 30분/epoch 소요됩니다. - 예시 코드는 pytorch-lightning으로 개발했습니다. - 논문집 다운로드 링크: http://hclt.kr/dwn/?v=bG5iOmNvbmZlcmVuY2U7aWR4OjMy (혹은 http://hclt.kr/symp/?lnb=conference ) KcBERT Model을 학습하는 GCP/TPU 환경은 TFRC 프로그램의 지원을 받았습니다. - BERT by Google - KoBERT by SKT - KoELECTRA by Monologg - Transformers by Huggingface - Tokenizers by Hugginface - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - Monologg님의 KoELECTRA 학습기 - Colab에서 TPU로 BERT 처음부터 학습시키기 - Tensorflow/Google ver.

beomi

KcELECTRA-base-v2022

kcbert-base

Llama-3-Open-Ko-8B

KcELECTRA-base

llama-2-ko-7b

Llama-3-Open-Ko-8B-Instruct-preview

OPEN-SOLAR-KO-10.7B

KoRWKV-6B

KoAlpaca-Polyglot-5.8B

KoAlpaca-Polyglot-12.8B

Yi-Ko-6B

Qwen2.5-7B-Instruct-kowiki-qa

gemma-ko-2b

kcbert-large

KcELECTRA-small-v2022

Llama-3-KoEn-8B

KoAlpaca-llama-1-7b

beep-KcELECTRA-base-hate

kollama-7b

korean-hatespeech-multilabel

gemma-ko-7b

open-llama-2-ko-7b

polyglot-ko-12.8b-safetensors

KoAlpaca-RealQA-Solar-Ko-Recovery-11B-Q8_0-GGUF

Llama-3-KoEn-8B-Instruct-preview

Llama-3-KoEn-8B-xtuner-llava-preview

kollama-13b

KoAlpaca-KoRWKV-6B

korean-hatespeech-classifier

KoRWKV-1.5B

kcgpt2

EXAONE-3.5-2.4B-Instruct-Llamafied

llama-2-koen-13b

kobert

kcbert-large-dev

Yi-Ko-DUS-9B

KoAlpaca-KoRWKV-1.5B

Yi-Ko-34B-Chat-Preview

KoAlpaca-RealQA-Solar-Ko-Recovery-11B-LoRA-ChatML-Q8_0-GGUF

Yi-Ko-34B

kcbert-base-dev

Solar-Ko-Recovery-11B-Q8_0-GGUF

KoAlpaca-RealQA-Solar-Ko-Recovery-11B-LoRA-ChatML-F16-GGUF

SOLAR-KOEN-10.8B

qlora-koalpaca-polyglot-12.8b-50step

Qwen2.5-7B-Instruct-kowiki-qa-context

EXAONE-3.5-32B-Instruct-Llamafied

EXAONE-3.5-7.8B-Instruct-Llamafied

KcBERT-v2023

Solar-Ko-Recovery-11B

kykim-gpt3-kor-small_based_on_gpt2

polyglot-ko-12.8b-safetensors-8bit

beep-kcbert-base-hate

KoAlpaca-RealQA-Solar-Ko-Recovery-11B-Merged

detox-kcbert-base

beep-KR-Medium-hate

beep-KcELECTRA-base-bias

distilbert-base-uncased-finetuned-cola

exKcBERT-kowiki

korean-lgbt-hatespeech-classifier

Mistral-Ko-Inst-dev

llama-2-ko-7b-emb-dev

beep-kcbert-base-bias

beep-klue-roberta-base-bias

beep-klue-roberta-base-hate

beep-koelectra-base-v3-discriminator-bias

beep-koelectra-base-v3-discriminator-hate

exKcBERT-paws-extonly

exKcBERT-paws

kcgpt2-dev

llama-2-ko-70b

KoAlpaca-65B-LoRA

kollama-33b

KoAlpaca-13B-LoRA

KoAlpaca-30B-LoRA

Llama-2-ko-7b-Chat-q4f16_1

KcT5-dev

Llama-3-Infini-1M

KcT5