ပထမဆုံး၊ text ကို ကိုင်တွယ်ပြီး raw predictions တွေကို ပြန်ပေးတဲ့ model ဖြစ်ပါတယ်။ ထို့နောက် tokenizer က ဒီ predictions တွေကို နားလည်ပြီး လိုအပ်တဲ့အခါ text အဖြစ် ပြန်ပြောင်းပေးပါတယ်။ ပထမဆုံး၊ text ကို ကိုင်တွယ်ပြီး IDs တွေကို ပြန်ပေးတဲ့ tokenizer ဖြစ်ပါတယ်။ Model က ဒီ IDs တွေကို ကိုင်တွယ်ပြီး text ဖြစ်နိုင်တဲ့ prediction တစ်ခုကို ထုတ်ပေးပါတယ်။ Tokenizer က text ကို ကိုင်တွယ်ပြီး IDs တွေကို ပြန်ပေးပါတယ်။ Model က ဒီ IDs တွေကို ကိုင်တွယ်ပြီး prediction တစ်ခုကို ထုတ်ပေးပါတယ်။ ထို့နောက် tokenizer ကို ဒီ predictions တွေကို text အဖြစ် ပြန်ပြောင်းဖို့အတွက် တစ်ဖန် ထပ်မံအသုံးပြုနိုင်ပါတယ်။

2. Base Transformer model က ထုတ်ပေးတဲ့ tensor မှာ dimension ဘယ်နှစ်ခုရှိပြီး၊ ဘာတွေလဲ။

2 ခု: Sequence length နဲ့ batch size 2 ခု: Sequence length နဲ့ hidden size 3 ခု: Sequence length, batch size နဲ့ hidden size

3. အောက်ပါတို့ထဲမှ မည်သည့်အရာက subword tokenization ဥပမာတစ်ခုလဲ။

WordPiece Character-based tokenization Whitespace နဲ့ punctuation တွေနဲ့ ပိုင်းခြားခြင်း BPE Unigram အထက်ပါအဖြေများမှ တစ်ခုမှ မဟုတ်ပါ။

4. Model head ဆိုတာ ဘာလဲ။

Base Transformer network ရဲ့ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး tensors တွေကို ၎င်းတို့ရဲ့ မှန်ကန်တဲ့ layers တွေဆီ ပြန်လည်လမ်းကြောင်းပြောင်းပေးပါတယ်။ Self-attention mechanism လို့လည်း လူသိများပြီး၊ ၎င်းသည် sequence ၏ အခြား tokens များနှင့်အညီ token တစ်ခု၏ ကိုယ်စားပြုမှုကို လိုက်လျောညီထွေဖြစ်အောင် ပြုလုပ်ပေးပါတယ်။ Transformer predictions တွေကို task-specific output တစ်ခုအဖြစ် ပြောင်းလဲဖို့အတွက် ပုံမှန်အားဖြင့် layers တစ်ခု သို့မဟုတ် အနည်းငယ်နဲ့ ဖွဲ့စည်းထားတဲ့ အပိုအစိတ်အပိုင်းတစ်ခု။

5. AutoModel ဆိုတာ ဘာလဲ။

သင်၏ data ပေါ်တွင် အလိုအလျောက် လေ့ကျင့်ပေးသော model တစ်ခု။ Checkpoint ကို အခြေခံပြီး မှန်ကန်တဲ့ architecture ကို ပြန်ပေးတဲ့ object တစ်ခု။ ၎င်း၏ inputs များအတွက် အသုံးပြုသော ဘာသာစကားကို အလိုအလျောက် ထောက်လှမ်းပြီး မှန်ကန်သော weights များကို load လုပ်ပေးသော model တစ်ခု။

6. အရှည်မတူညီသော sequences များကို အတူတကွ batch လုပ်သည့်အခါ မည်သည့်နည်းလမ်းများကို သိရှိထားသင့်သလဲ။

Truncating Returning tensors Padding Attention masking

7. sequence classification model က ထုတ်ပေးတဲ့ logits တွေပေါ်မှာ SoftMax function ကို အသုံးပြုရခြင်းရဲ့ ရည်ရွယ်ချက်က ဘာလဲ။

Logits တွေကို ပိုမိုယုံကြည်စိတ်ချရအောင် ပြုလုပ်ပေးပါတယ်။ ၎င်းတို့ နားလည်နိုင်အောင် အနိမ့်ဆုံးနှင့် အမြင့်ဆုံးကန့်သတ်ချက်ကို သတ်မှတ်ပေးပါတယ်။ output ရဲ့ စုစုပေါင်းတန်ဖိုးက 1 ဖြစ်လာပြီး ဖြစ်နိုင်ခြေဆိုင်ရာ အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်ခြေ ရှိလာပါတယ်။

8. tokenizer API ရဲ့ အများစုက ဘယ် method ပေါ်မှာ အခြေခံထားလဲ။

encode၊ text ကို IDs အဖြစ် encode လုပ်နိုင်ပြီး IDs တွေကို predictions အဖြစ် encode လုပ်နိုင်လို့ပါ။ tokenizer object ကို တိုက်ရိုက်ခေါ်ခြင်း။ pad tokenize

9. ဒီ code sample မှာ result variable က ဘာတွေ ပါဝင်သလဲ။

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")

Strings များ၏ list တစ်ခု၊ string တစ်ခုစီသည် token တစ်ခုဖြစ်သည်။ IDs များ၏ list တစ်ခု။ Tokens များအားလုံး ပါဝင်သော string တစ်ခု။

10. အောက်ပါ code မှာ တစ်ခုခု မှားနေတာ ရှိပါသလား။

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")

encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)

မရှိပါဘူး၊ မှန်ကန်ပုံရပါတယ်။ Tokenizer နဲ့ model ဟာ အမြဲတမ်း checkpoint တူတူကနေ ဖြစ်သင့်ပါတယ်။ Input တိုင်းဟာ batch ဖြစ်တာကြောင့် tokenizer နဲ့ pad လုပ်ခြင်းနဲ့ truncate လုပ်ခြင်းက ကောင်းတဲ့ အလေ့အကျင့်ပါ။

Update on GitHub

←Optimization လုပ်ထားသော Inference Deployment နိဒါန်း→

အခန်းပြီးဆုံးခြင်း စစ်ဆေးမှု 1. Language modeling pipeline ၏ အစီအစဉ်က ဘာလဲ။2. Base Transformer model က ထုတ်ပေးတဲ့ tensor မှာ dimension ဘယ်နှစ်ခုရှိပြီး၊ ဘာတွေလဲ။3. အောက်ပါတို့ထဲမှ မည်သည့်အရာက subword tokenization ဥပမာတစ်ခုလဲ။4. Model head ဆိုတာ ဘာလဲ။5. AutoModel ဆိုတာ ဘာလဲ။6. အရှည်မတူညီသော sequences များကို အတူတကွ batch လုပ်သည့်အခါ မည်သည့်နည်းလမ်းများကို သိရှိထားသင့်သလဲ။7. sequence classification model က ထုတ်ပေးတဲ့ logits တွေပေါ်မှာ SoftMax function ကို အသုံးပြုရခြင်းရဲ့ ရည်ရွယ်ချက်က ဘာလဲ။8. tokenizer API ရဲ့ အများစုက ဘယ် method ပေါ်မှာ အခြေခံထားလဲ။9. ဒီ code sample မှာ result variable က ဘာတွေ ပါဝင်သလဲ။10. အောက်ပါ code မှာ တစ်ခုခု မှားနေတာ ရှိပါသလား။