🔥 Open-source corpus ES: https://somosnlp.org/recursos/datasets 🔥
[English below]
Queremos modelos que entiendan y hablen el español de las 600M personas hispanohablantes. ¿Nos ayudas?
Estamos recolectando datasets de diferentes países, registros y dominios. ¡Cuantas más variedades de la lengua, mejor! También son válidos datasets de audio e imágenes, así como datasets de idiomas cercanos al español (e.g., catalán, quechua).
Puedes colaborar aportando un enlace a un dataset ya existente, traduciendo uno del inglés o creando uno tú. ¡Toda la ayuda es bienvenida! 🚀
➡️ Lee la guía de contribución, elige un issue, ¡y a por ello!
Si tienes cualquier duda estamos a tu disposición en Discord.
¡Muchas gracias por apoyarnos en nuestra misión de democratizar el PLN en español!
We want AI models to understand and speak Spanish as the 600M Spanish speakers in the world. Are you ready to help us?
We are collecting datasets from different countries, registers, and domains. The more varieties of the language, the better! Datasets of audio and images are also welcome, as well as datasets of languages close to Spanish (e.g., Catalan, Quechua).
You can contribute by providing a link to an existing dataset, translating one from English, or creating one yourself. All help is welcome! 🚀