For breaking text into words, we use an ICU word break iterator and count all tokens whose break status is one of UBRK_WORD_LETTER, UBRK_WORD_KANA, or UBRK_WORD_IDEO. Running the Crawler ./corpuscrawler --language=yo --output=./corpus...
Maria Teresa dos SantosVania Maria ManfroiSANTOS, M.T; MANFROI, V. M. Expansao e Precarizacao: O mercado de trabalho dos assistentes sociais em Santa Catarina. Em Pauta, Rio de Janeiro, n. 30, v. 10, p. 233- 252, 2º Sem., 2012....
cok Santa Teresa Cora 230K 💾 con Cofán 151K 💾 cot Caquinte 128K 💾 crh Crimean Tatar 505K 💾 cs Czech 3,141K 💾 csk Jola-Kasa 177K 💾 cso Sochiapam Chinantec 328K 💾 ctd-Latn Tedim Chin (Latin) 852K 💾 ctu Chol 203K 💾 cub Cubeo 220K 💾 cuc Usila Chinant...