course documentation
Quiz de final de capitol
0. Configurare
1. Modele Transformer
IntroducereProcesarea limbajului natural și modelele de limbaj mariTransformers, ce pot face?Cum funcționează Transformers?Modele EncoderModele DecoderModele secvență-la-secvențăPrejudecăți și limităriRezumatQuiz de final de capitol
2. Folosirea 🤗 Transformers
IntroducereÎn spatele pipeline-uluiModeleTokenizatoareGestionarea secvențelor multipleSă punem totul cap la capUtilizarea de bază este completă!Implementarea optimizată a inferențeiQuiz la final de capitol
3. Fine-tuning unui model preantrenat
IntroducereProcesarea datelorFine-tuningul unui model cu Trainer API sau KerasUn antrenament completFine-tuning, verificare!Quiz la final de capitol
4. Partajarea modelelor și a tokenizatoarelor
Platforma Hugging Face HubUtilizarea modelelor preantrenatePartajarea modelelor preantrenateCrearea unui card de modelPartea 1 este completăQuiz la final de capitol
5. Biblioteca 🤗 Datasets
IntroducereCe fac dacă dataset-ul meu nu este pe Hub?E timpul să tăiem și să analizăm dateleBig data? 🤗 Datasets vine în ajutor!Creează propriul tău datasetCăutare semantică cu FAISS🤗 Datasets, verificare!Quiz de final de capitol
6. Biblioteca 🤗 Tokenizers
IntroducereAntrenarea unui nou tokenizer dintr-unul vechiSuperputerile tokenizerilor rapiziTokenizerii rapizi în pipeline-ul de QANormalizare și pre-tokenizareTokenizare Byte-Pair EncodingTokenizare WordPieceTokenizare UnigramConstruirea unui tokenizer, bloc cu blocTokenizeri, verificare!Quiz de sfârșit de capitol
7. Sarcini clasice NLP
IntroducereClasificarea tokenilorFine-tuningul unui model de limbaj mascatTraducereSumarizareAntrenarea de la zero a unui model de limbaj cauzalRăspuns la întrebăriÎnțelegerea LLM-urilorQuiz de sfârșit de capitol
8. Cum să ceri ajutor
IntroducereCe să faci când primești o eroareCum să ceri ajutor pe forumuriDebugging-ul pipeline-ului de antrenamentCum să scrii un issue bunPartea 2 completă!Quiz de sfârșit de capitol
9. Construirea și partajarea demo-urilor
Introducere în GradioConstruirea primului tău demoÎnțelegerea clasei InterfacePartajarea demo-urilor cu alțiiIntegrări cu Hugging Face HubCaracteristici avansate ale InterfaceIntroducere în Gradio BlocksGradio, verificat!Quiz de final de capitol
10. Curățați seturi de date de înaltă calitate
Introducere în ArgillaConfigurați-vă instanța ArgillaÎncărcați setul de date în ArgillaAdnotați setul de dateFolosiți setul de date adnotatArgilla, terminat!Quiz de final de capitol
11. Fine-tuning pentru modele mari de limbaj
IntroducereTemplate-uri de chatFine-tuning cu SFTTrainerLoRA (Adaptarea de rang scăzut)EvaluareaConcluzieE timpul examenului!
12. Construiește Modele de Raționament new
IntroducereÎnvățarea prin Întărire pe LLM-uriMomentul Aha în Lucrarea DeepSeek R1Înțelegerea Avansată a GRPO în DeepSeekMathImplementarea GRPO în TRLExercițiu Practic pentru Ajustarea Fină a unui Model cu GRPOExercițiu Practic cu UnslothÎn curând...
Evenimente Curs
Quiz de final de capitol
Acest capitol a acoperit o mulțime de subiecte! Nu vă faceți griji dacă nu ați înțeles toate detaliile; capitolele următoare vă vor ajuta să înțelegeți cum funcționează lucrurile mai aprofundat.
Înainte de a trece mai departe, totuși trebuie să testăm ce ați învățat în acest capitol.
1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?
2. Presupunem că încărcați una dintre sarcinile GLUE astfel:
from datasets import load_dataset
dataset = load_dataset("glue", "mrpc", split="train")Care dintre următoarele comenzi va produce un exemplu aleatoriu de 50 de elemente din dataset?
3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?
4. Ce este memory mapping?
5. Care sunt principalele beneficii ale memory-mapping?
6. De ce codul următor eșuează?
from datasets import load_dataset
dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]