course documentation
Các mô hình mã hóa
0. Cài đặt
1. Mô hình Transformer
Giới thiệuXử lý Ngôn Ngữ Tự nhiênTransformers có thể làm những gì?Cơ chế hoạt động của Transformer?Các mô hình mã hóaCác mô hình giải mãCác mô hình mã hoá-giải mãThiên kiến và hạn chếTổng kếtĐố vui cuối chương
2. Sử dụng 🤗 Transformers
Giới thiệuĐằng sau pipelineCác mô hìnhTokenizersXử lý đa chuỗiKết hợp lạiHoàn thành cách sử dụng cơ bản!Đố vui cuối chương
3. Tinh chỉnh một mô hình huấn luyện trước
Giới thiệuXử lý dữ liệuTinh chỉnh một mô hình với Trainer API hoặc KerasBản huấn luyện hoàn chỉnhTỉnh chỉnh, thử xem!Đố vui cuối chương
4. Chia sẻ các mô hình và tokenizer
Hugging Face HubSử dụng các mô hình huấn luyện trướcChia sẻ các mô hình huấn luyện trướcXây dựng các thẻ mô hìnhHoàn thành phần 1!Đố vui cuối chương
5. Thư viện 🤗 Datasets
Giới thiệuNếu như dữ liệu của ta không trên Hub thì sao?Sắp xếp dữ liệuDữ liệu lớn? 🤗 Bộ dữ liệu để giải cứu!Tạo tập dữ liệu của riêng bạnTìm kiếm ngữ nghĩa với FAISS🤗 Datasets, kiểm tra nào!Đố vui cuối chương
6. Thư viện 🤗 Tokenizers
Giới thiệuHuấn luyện một tokenizer mới từ cái cũSức mạnh đặc biệt của tokenizer nhanhTokenizer nhanh trong pipeline QAChuẩn hoá và tiền tokenizeByte-Pair Encoding tokenizationWordPiece tokenizationUnigram tokenizationXây dựng từng khối tokenizerTokenizers, kiểm tra nào!Đố vui cuối chương
7. Các tác vụ NLP chính
Giới thiệuPhân loại tokenTinh chỉnh một mô hình ngôn ngữ bị ẩn điDịch máyTóm tắtHuấn luyện một mô hình ngôn ngữ nhân quả từ đầuHỏi đápLàm chủ NLPĐố vui cuối chương
8. Làm thế nào để yêu cầu giúp đỡ
Giới thiệuPhải làm gì khi bạn gặp lỗiYêu cầu trợ giúp trên diễn đànGỡ lỗi quy trình huấn luyệnLàm thế nào để viết một vấn đề hayPhần 2 đã hoàn thành!Đố vui cuối chương
9. Xây dựng và chia sẻ các demo
Giới thiệu về GradioXây dựng bản demo đầu tiên của bạnHiểu lớp InterfaceChia sẻ các bản demo với người khácTích hợp với Hugging Face HubCác tính năng nâng cao của InterfaceGiới thiệu về Gradio BlocksGradio, kiểm tra nào!Đố vui cuối chương
Sự kiện Khoá học
Các mô hình mã hóa
Các mô hình mã hóa chỉ sử dụng phần mã hóa của mô hình Transformer. Ở mỗi bước, các lớp attention có thể truy cập tất cả các từ trong câu ban đầu. Những mô hình này thường có đặc trưng là chú ý “hai chiều” và thường được gọi là mô hình auto-encoding hay mã hóa tự động.
Việc huấn luyện trước các mô hình này thường xoay quanh việc phá vỡ một câu đã cho bằng cách nào đó (ví dụ: bằng cách che các từ ngẫu nhiên trong đó) và yêu cầu mô hình tìm hoặc tái tạo lại câu ban đầu.
Mô hình mã hóa phù hợp nhất cho các tác vụ yêu cầu hiểu toàn bộ câu, chẳng hạn như phân loại câu, nhận dạng thực thể được đặt tên (và nói chung là phân loại từ) và trả lời câu hỏi chiết xuất.
Một số mô hình tiêu biểu của nhóm này bao gồm:
Update on GitHub