course documentation
🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ!
0. စတင်ပြင်ဆင်ခြင်း
1. Transformer models များ
နိဒါန်းNatural Language Processing နှင့် Large Language Models များTransformers တွေက ဘာတွေလုပ်နိုင်လဲ။Transformers တွေက ဘယ်လိုအလုပ်လုပ်လဲ။🤗 Transformers တွေက လုပ်ငန်းတာဝန်တွေကို ဘယ်လိုဖြေရှင်းပေးလဲ။Transformer Architectures များအမြန်ဉာဏ်စမ်းLLMs များဖြင့် မှန်းဆတွက်ချက်ခြင်း။ဘက်လိုက်မှုနှင့် ကန့်သတ်ချက်များအနှစ်ချုပ်အသိအမှတ်ပြု စာမေးပွဲ
2. 🤗 Transformers ကို အသုံးပြုခြင်း
နိဒါန်းPipeline နောက်ကွယ်မှ အကြောင်းအရာများModelsTokenizersSequence များစွာကို ကိုင်တွယ်ခြင်းအားလုံးကို ပေါင်းစပ်ခြင်းအခြေခံ အသုံးပြုမှု ပြီးဆုံးပါပြီ!Optimization လုပ်ထားသော Inference Deploymentအခန်းပြီးဆုံးခြင်း စစ်ဆေးမှု
3. Pretrained Model တစ်ခုကို Fine-tuning လုပ်ခြင်း
နိဒါန်းဒေတာများကို စီမံဆောင်ရွက်ခြင်းTrainer API ဖြင့် မော်ဒယ်တစ်ခုကို Fine-tuning လုပ်ခြင်းပြည့်စုံသော Training Loop တစ်ခုLearning Curves များကို နားလည်ခြင်းFine-tuning လုပ်ငန်း ပြီးစီးပြီ!အခန်းပြီးဆုံးခြင်း အသိအမှတ်ပြု လက်မှတ်
4. Models နှင့် Tokenizers များကို မျှဝေခြင်း
Hugging Face HubPretrained Models များကို အသုံးပြုခြင်းPretrained Models များကို မျှဝေခြင်းModel Card တစ်ခု တည်ဆောက်ခြင်းအပိုင်း ၁ ပြီးဆုံးပါပြီ!အခန်း (၄) ဆိုင်ရာ မေးခွန်းများ
5. The 🤗 Datasets library
နိဒါန်းကျွန်ုပ်၏ Dataset သည် Hub တွင် မရှိလျှင် ဘာလုပ်ရမလဲ။Slice and Dice လုပ်ဖို့ အချိန်တန်ပြီ။Big Data လား။ 🤗 Datasets က ကူညီပါလိမ့်မယ်။ကိုယ်ပိုင် Dataset တစ်ခု ဖန်တီးခြင်းFAISS ဖြင့် Semantic Search ပြုလုပ်ခြင်း🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ!အခန်း (၅) ဆိုင်ရာ မေးခွန်းများ
6. The 🤗 Tokenizers library
နိဒါန်းOld Tokenizer တစ်ခုမှ New Tokenizer တစ်ခုကို Training လုပ်ခြင်းFast Tokenizers များ၏ ထူးခြားသော စွမ်းအားများQA Pipeline ရှိ Fast Tokenizers များNormalization နှင့် Pre-tokenizationByte-Pair Encoding TokenizationWordPiece TokenizationUnigram TokenizationTokenizer တစ်ခုကို Block အလိုက် တည်ဆောက်ခြင်းTokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!အခန်း (၆) ဆိုင်ရာ မေးခွန်းများ
7. Classical NLP Tasks များ
နိဒါန်းToken ClassificationMasked Language Model တစ်ခုကို Fine-tuning လုပ်ခြင်းဘာသာပြန်ခြင်းအနှစ်ချုပ်ဖော်ပြခြင်းCausal Language Model တစ်ခုကို အစကနေ Train လုပ်ခြင်းမေးခွန်းဖြေဆိုခြင်းLLM များကို ကျွမ်းကျင်ခြင်းအခန်း (၇) ဆိုင်ရာ မေးခွန်းများ
8. အကူအညီတောင်းခံနည်း
နိဒါန်းError တစ်ခုကြုံတွေ့ရတဲ့အခါ ဘာလုပ်ရမလဲForums များတွင် အကူအညီတောင်းခံခြင်းTraining Pipeline ကို Debugging လုပ်ခြင်းကောင်းမွန်သော Issue တစ်ခု ရေးသားနည်းအပိုင်း ၂ ပြီးဆုံးပါပြီ!အခန်း (၈) ဆိုင်ရာ မေးခွန်းများ
9. Demos များ တည်ဆောက်ခြင်းနှင့် မျှဝေခြင်း
Gradio နိဒါန်းသင့်ရဲ့ ပထမဆုံး Demo ကို တည်ဆောက်ခြင်းInterface Class ကို နားလည်ခြင်းDemos များကို တခြားသူများနှင့် မျှဝေခြင်းHugging Face Hub နှင့် ပေါင်းစပ်မှုများAdvanced Interface Features များBlocks နိဒါန်းGradio၊ အဆင်သင့်ဖြစ်ပါပြီ!အခန်း (၉) ဆိုင်ရာ မေးခွန်းများ
10. အရည်အသွေးမြင့် Datasets များကို စုစည်းခြင်း
Argilla နိဒါန်းသင့် Argilla Instance ကို တည်ဆောက်ခြင်းသင့် Dataset ကို Argilla သို့ Load လုပ်ခြင်းသင့် Dataset ကို Annotation လုပ်ခြင်းသင့် Annotation လုပ်ထားသော Dataset ကို အသုံးပြုခြင်းArgilla၊ အဆင်သင့်ဖြစ်ပါပြီ!အခန်း (၁၀) ဆိုင်ရာ မေးခွန်းများ
11. Large Language Models များကို Fine-tune လုပ်ခြင်း
နိဒါန်းChat Templates များSFTTrainer ဖြင့် Fine-Tuning လုပ်ခြင်းLoRA (Low-Rank Adaptation)အကဲဖြတ်ခြင်း (Evaluation)နိဂုံးချုပ်စာမေးပွဲ အချိန်!
12. Reasoning Models များ တည်ဆောက်ခြင်း new
နိဒါန်းLLMs များပေါ်တွင် Reinforcement LearningDeepSeek R1 Paper ထဲက Aha MomentDeepSeekMath ရှိ GRPO ကို အဆင့်မြင့် နားလည်ခြင်းTRL တွင် GRPO ကို အကောင်အထည်ဖော်ခြင်းGRPO ဖြင့် Model တစ်ခုကို Fine-tune လုပ်ရန် လက်တွေ့ လေ့ကျင့်ခန်းUnsloth ဖြင့် လက်တွေ့ လေ့ကျင့်ခန်းမကြာမီ လာမည်...
သင်တန်း ဆိုင်ရာ အခမ်းအနားများ
🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ!
🤗 Datasets library ကို ကောင်းကောင်း လေ့လာခဲ့ပြီးပါပြီ၊ ဒီအထိ ရောက်လာတဲ့အတွက် ဂုဏ်ယူပါတယ်။ ဒီအခန်းကနေ သင်ရရှိခဲ့တဲ့ ဗဟုသုတတွေနဲ့ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ပါလိမ့်မယ်။
- Hugging Face Hub၊ သင့် laptop ဒါမှမဟုတ် သင့်ကုမ္ပဏီက remote server တစ်ခုကနေ dataset တွေကို load လုပ်ပါ။
Dataset.map()နဲ့Dataset.filter()functions တွေကို ပေါင်းစပ်အသုံးပြုပြီး သင့် data တွေကို wrangle လုပ်ပါ။Dataset.set_format()ကို အသုံးပြုပြီး Pandas နဲ့ NumPy လို data formats တွေကြား လျင်မြန်စွာ ပြောင်းလဲပါ။- သင့်ကိုယ်ပိုင် dataset ကို ဖန်တီးပြီး Hugging Face Hub ကို push လုပ်ပါ။
- Transformer model ကို အသုံးပြုပြီး သင့် documents တွေကို embed လုပ်ကာ FAISS ကို အသုံးပြုပြီး semantic search engine တစ်ခုကို တည်ဆောက်ပါ။
Chapter 7 မှာ၊ Transformer models တွေအတွက် အကောင်းဆုံးဖြစ်တဲ့ အဓိက NLP tasks တွေကို နက်နက်နဲနဲ လေ့လာရင်း ဒီအရာအားလုံးကို ကောင်းကောင်း အသုံးချသွားမှာပါ။ ရှေ့ကို ဆက်မသွားခင်၊ 🤗 Datasets အပေါ် သင်ရဲ့ ဗဟုသုတကို quick quiz တစ်ခုနဲ့ စစ်ဆေးကြည့်လိုက်ပါ။
ဝေါဟာရ ရှင်းလင်းချက် (Glossary)
- 🤗 Datasets Library: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
- Hugging Face Hub: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
- Laptop: သယ်ဆောင်ရလွယ်ကူသော ကိုယ်ပိုင်ကွန်ပျူတာ။
- Remote Server: ကွန်ရက်တစ်ခုပေါ်တွင် ဝန်ဆောင်မှုများ သို့မဟုတ် အရင်းအမြစ်များကို ပံ့ပိုးပေးသော ကွန်ပျူတာ။
- Wrangle Data: ကုန်ကြမ်းဒေတာ (raw data) များကို ပိုမိုအသုံးဝင်ပြီး သန့်ရှင်းသော ပုံစံသို့ ပြောင်းလဲရန်အတွက် လုပ်ဆောင်သော လုပ်ငန်းစဉ်များ။
Dataset.map()Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။Dataset.filter()Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေများနှင့် ကိုက်ညီသော ဒေတာများကိုသာ dataset မှ ရွေးထုတ်ရန် အသုံးပြုသည်။- Pandas: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။
- NumPy: Python programming language အတွက် numerical computing (ဂဏန်းတွက်ချက်မှု) အတွက် အသုံးပြုသော library။
Dataset.set_format()Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ၏ output format (ဥပမာ- “pandas”, “numpy”, “torch”, “tensorflow”) ကို သတ်မှတ်ရန် အသုံးပြုသည်။- Push to the Hub: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။
- Embed Documents: စာသား document များကို vector space အတွင်းရှိ ဂဏန်းဆိုင်ရာ ကိုယ်စားပြုမှုများ (embeddings) အဖြစ် ပြောင်းလဲခြင်း။ ၎င်းသည် document များကြား ဆင်တူမှုများကို တိုင်းတာနိုင်စေသည်။
- Transformer Model: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။
- Semantic Search Engine: စာလုံးများကို ကိုက်ညီမှု ရှာဖွေခြင်းထက် အဓိပ္ပာယ်ပေါ်မူတည်၍ ရှာဖွေနိုင်သော search engine။
- FAISS (Facebook AI Similarity Search): Facebook AI မှ ထုတ်လုပ်ထားသော library တစ်ခုဖြစ်ပြီး vector များကို မြန်ဆန်ထိရောက်စွာ ရှာဖွေခြင်းနှင့် grouping လုပ်ခြင်းအတွက် အသုံးပြုသည်။
- NLP Tasks (Natural Language Processing Tasks): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
- Quick Quiz: ဗဟုသုတကို လျင်မြန်စွာ စစ်ဆေးသည့် မေးခွန်းအနည်းငယ်။