Acest capitol a acoperit o mulțime de subiecte! Nu vă faceți griji dacă nu ați înțeles toate detaliile; capitolele următoare vă vor ajuta să înțelegeți cum funcționează lucrurile mai aprofundat.

Înainte de a trece mai departe, totuși trebuie să testăm ce ați învățat în acest capitol.

1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?

Local, de exemplu pe laptop Hugging Face Hub Un server remote

2. Presupunem că încărcați una dintre sarcinile GLUE astfel:

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Care dintre următoarele comenzi va produce un exemplu aleatoriu de 50 de elemente din dataset?

dataset.sample(50) dataset.shuffle().select(range(50)) dataset.select(range(50)).shuffle()

3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?

pets_dataset.filter(lambda x : x['name'].startswith('L')) pets_dataset.filter(lambda x['name'].startswith('L')) Creați o funcție ca def filter_names(x): return x['name'].startswith('L') și rulați pets_dataset.filter(filter_names).

4. Ce este memory mapping?

Mappingul între CPU și GPU RAM Mapping între RAM și stocarea sistemului de fișiere Mapping între două fișiere din cache-ul 🤗 Datasets

5. Care sunt principalele beneficii ale memory-mapping?

Accesarea fișierelor memory-mapped este mai rapid decât citirea de pe disc sau scrierea pe disc. Aplicațiile pot accesa segmente de date dintr-un fișier extrem de mare fără a fi necesar să citească întregul fișier în RAM mai întâi. Acesta consumă mai puțină energie, astfel încât bateria ta ține mai mult.

6. De ce codul următor eșuează?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

Încearcă să facă streaming unui dataset prea mare pentru a încăpea în RAM. Încearcă să acceseze un IterableDataset. Datasetul allocine nu are o un split train.

7. Care sunt principalele beneficii ale creării unui dataset card?

Oferă informații despre utilizarea intenționată și sarcinile susținute ale datasetului, astfel încât ceilalți din comunitate să poată lua o decizie cu privire la utilizarea acestuia. Ajută la sublinierea biasurilor prezente într-un corpus. Îmbunătățește șansele ca ceilalți din comunitate să utilizeze datasetul meu.

8. Ce este căutarea semantică?

Un mod de a căuta pentru a găsi potriviri exacte între cuvintele dintr-un query și documentele dintr-un corpus Un mod de a căuta documente care se potrivesc prin înțelegerea sensului contextual al unui query Un mod de a îmbunătăți acuratețea căutării

9. Pentru căutarea semantică asimetrică, de obicei aveți:

Un query scurt și un paragraf mai lung care răspunde la query Queries și paragrafe care sunt de aproximativ aceeași lungime Un query lung și un paragraf mai scurt care răspunde la query

10. Pot utiliza 🤗 Datasets pentru a încărca date pentru utilizare în alte domenii, cum ar fi speech processing?

Nu Da

Update on GitHub

←🤗 Datasets, verificare! Introducere→

Quiz de final de capitol 1. Funcția load_dataset() din 🤗 Datasets vă permite să încărcați un dataset din care dintre următoarele locații?2. Presupunem că încărcați una dintre sarcinile GLUE astfel:3. Presupunem că aveți un set de date despre animale de companie numit pets_dataset , care are o coloană name care denotă numele fiecărui animal de companie. Care dintre următoarele abordări v-ar permite să filtrați setul de date pentru toate animalele de companie ale căror nume încep cu litera “L”?4. Ce este memory mapping?5. Care sunt principalele beneficii ale memory-mapping?6. De ce codul următor eșuează?7. Care sunt principalele beneficii ale creării unui dataset card?8. Ce este căutarea semantică?9. Pentru căutarea semantică asimetrică, de obicei aveți:10. Pot utiliza 🤗 Datasets pentru a încărca date pentru utilizare în alte domenii, cum ar fi speech processing?