Visão Geral
Redes neurais profundas (DNNs) muito grandes, sejam aplicadas ao processamento de linguagem natural (por exemplo, GPT-3), visão computacional (por exemplo, enormes transformadores de visão) ou IA de fala (por exemplo, Wave2Vec 2) têm certas propriedades que os diferenciam de suas contrapartes menores. À medida que as DNNs se tornam maiores e são treinadas em conjuntos de dados cada vez maiores, elas podem se adaptar a novas tarefas com apenas alguns exemplos de treinamento, acelerando o caminho em direção à inteligência artificial geral. Modelos de treinamento que contêm dezenas a centenas de bilhões de parâmetros em vastos conjuntos de dados não são triviais e exigem uma combinação única de IA, computação de alto desempenho (HPC) e conhecimento de sistemas. O objetivo deste curso é demonstrar como treinar as maiores redes neurais e implantá-las em produção.