course documentation
章末小測試
0. 安裝
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微調一個預訓練模型
4. 分享你的模型和標記器
5. 🤗 Datasets庫
6. 🤗 Tokenizers庫
本章簡介根據已有的 tokenizer 訓練新的 tokenizer快速標記器的特殊能力QA 管道中的快速標記器標準化和預標記化字節對編碼標記化WordPiece 標記化Unigram 標記化逐塊地構建標記器標記器,回顧!章末小測驗
7. 主要的 NLP 任務
8. 如何尋求幫助
9. 構建並分享你的模型
課程活動
章末小測試
1. 語言建模 Pipeline 的順序是什麼?
2. Transformer模型的輸出有多少個維度,每個維度分別是什麼?
3.下列哪一個是Subword標記(Tokenization)的例子(從分詞的顆粒度來劃分)?
4.什麼是模型的 Head 層?
5.什麼是AutoModel?
6.當將不同長度的序列批處理在一起時,需要進行哪些處理?
7.將 SoftMax激活函數應用於序列分類(Sequence Classification)模型的 logits 輸出有什麼意義?
8.大多數標記器(Tokenizer)的API以什麼方法為核心?
9.這個代碼示例中的 result 變量包含什麼?
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")10.下面的代碼有什麼錯誤嗎?
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)