Сначала модель, которая обрабатывает текст и возвращает необработанные прогнозы. Затем токенизатор осмысливает эти предсказания и при необходимости преобразует их обратно в текст. Сначала работает токенизатор, который обрабатывает текст и возвращает идентификаторы. Модель обрабатывает эти идентификаторы и выдает прогноз, который может представлять собой некоторый текст. Токенизатор обрабатывает текст и возвращает идентификаторы. Модель обрабатывает эти идентификаторы и выдает прогноз. Затем токенизатор можно снова использовать для преобразования этих прогнозов обратно в текст.

2. Сколько измерений имеет тензор, выводимый базовой моделью Transformer, и каковы они?

2: Длина последовательности и размер батча 2: Длина последовательности и скрытый размер 3: Длина последовательности, размер батча и скрытый размер

3. Что из перечисленного ниже является примером токенизации по подсловам?

WordPiece Посимвольная токенизация Разделение по пробелам и пунктуации BPE Unigram Ничего из вышеперечисленного

4. Что такое голова модели?

Компонент базовой сети Transformer, который перенаправляет тензоры на корректные слои Также известный как механизм самовнимания, он адаптирует представление токена в соответствии с другими токенами последовательности Дополнительный компонент, обычно состоящий из одного или нескольких слоев, для преобразования прогнозов трансформера в специфический для конкретной задачи выход

5. Что такое AutoModel?

Модель, которая автоматически обучается на ваших данных Объект, возвращающий правильную архитектуру на основе контрольной точки Модель, которая автоматически определяет язык, используемый для входов, чтобы загрузить правильные веса

6. На какие техники следует обратить внимание при объединении в батч последовательностей разной длины?

Усечение (truncating) Возврат тензоров Дополнение (padding) Маскирование внимания (attention masking)

7. В чем смысл применения функции SoftMax к логитам, выводимым моделью классификации последовательностей?

Она смягчает логиты, чтобы они были более надежными. Она применяет нижнюю и верхнюю границы, чтобы они были понятны. Общая сумма вывода равна 1, что позволяет получить вероятностную интерпретацию.

8. Какой метод является основным в API токенизатора?

encode, поскольку он может кодировать текст в идентификаторы и идентификаторы в прогнозы. Вызов объекта токенизатора напрямую. pad tokenize

9. Что содержит переменная result в этом примере кода?

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")

Список строк, каждая из которых является токеном Список идентификаторов Строка, содержащая все токены

10. Есть ли что-то неправильное в следующем коде?

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")

encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)

Нет, кажется, все правильно. Токенизатор и модель всегда должны быть из одной контрольной точки. Хорошей практикой является дополнении и усечении с помощью токенизатора, поскольку каждый вход - это батч.

Update on GitHub

←Базовое использование завершено! Введение→

Тест в конце главы 1. Каков порядок работы конвейера языкового моделирования?2. Сколько измерений имеет тензор, выводимый базовой моделью Transformer, и каковы они?3. Что из перечисленного ниже является примером токенизации по подсловам?4. Что такое голова модели?5. Что такое AutoModel?5. Что такое TFAutoModel?6. На какие техники следует обратить внимание при объединении в батч последовательностей разной длины?7. В чем смысл применения функции SoftMax к логитам, выводимым моделью классификации последовательностей?8. Какой метод является основным в API токенизатора?9. Что содержит переменная result в этом примере кода?10. Есть ли что-то неправильное в следующем коде?10. Что-то не так с приведенным ниже кодом?