BERT masque de manière aléatoire un certain pourcentage des jetons d'entrée et prédit ces jetons masqués en fonction de leur contexte. L'aspect bidirectionnel provient du fait que BERT prend en compte à la fois les séquences de jetons de gauche à droite et de droite à gauche dans...