기본 콘텐츠로 건너뛰기

라벨이 Tokenize인 게시물 표시

SentencePiece 특징/기능 설명

SentencePiece는 신경망 기반 텍스트 생성 시스템에서 주로 사용 되는 unsupervised text 토큰화기 및 해독기로서(tokenizer and detokenizer) 신경 모델 학습 전에 어휘 크기(Vocab Size)가 미리 결정합니다. SentencePiece는 원시 문장(raw sentences)에서 직접 학습을 확장하여 subword 단위를 구현합니다(예: byte-pair-encoding(BPE) [Sennrich et al.] Punigram language model[Kudo.]). SentencePiece를 사용하면 언어 별 pre/postprocessing 의지하지 않는 end-to-end system을 만들 수 있습니다. (공식 Google 제품이 아닙니다.) Technical highlights  Purely data driven: SentencePiece는 문장에서 tokenization 및 detokenization 모델을 훈 련시킵니다. Pre-tokenization(Moses tokenizer/MeCab/KyTea)가 항상 필요한 것은 아닙니다.  Language independent: SentencePiece는 문자열을 Unicode characters처럼 취급합니다. 거기에 language-dependent logic은 없습니다. Multiple subword algorithms: BPE[Sennrich et al.]와 Unigram Language Model을 [Kudo.] 사용합니다. Subword regularization: SentencePiece는 subword regularization의 subword sampling을 구현합니다. Subword sampling은 NMT model의 robustness와 accuracy 향상에 도움을 줍니다. Fast and lightweight: Sementation 의 속도는 초당 약 50K 문장이며, memory footprin...