Nueva herramienta para mandar frases a Common Voice


(Rubén Martín) #1

Hola,

Esta semana hemos publicado la primera versión beta de la herramienta para recolectar frases de Common Voice.

La herramienta nos permite enviar y revisar frases para que sean incorporadas al proyecto y la gente pueda donar su voz.

¿Por qué es importante?

Para poder donar la voz, la gente necesita frases entretenidas que leer, y para poder activar esta fase en español necesitamos al menos 5000 frases en dominio público.

¿Cómo puedo ayudar?

Simplemente accede a la herramienta y envía frases (tanto propias como de otros) y ayuda con la revisión.

Revisar las frases de otros es muy importante para asegurarnos que son correctas, no tienen lenguaje ofensivo… y permiten que una vez una frase tenga suficientes valoraciones positivas, sea aprobada para incluirse en el sitio principal de Common Voice.

Como idea fácil, dedicar 10 minutos al día a escribir frases cortas (menos de 14 palabras) y otro día dedicar 10 minutos a revisar frases de otros.

Si las 84 personas que estamos en el grupo de telegram escribiéramos 10 frases al día durante siete días, ¡en una semana tendríamos el español listo para donar voces!

imagen


(Rubén Martín) #2

Una cosa que me he dado cuenta es que en Catalán ya tienen miles y miles de frases en Common Voice.

Como se que las herramientas de traducción hacen un buen trabajo español→catalán he probado una cosa. He tomado unos de los archivos ya validados de frases en catalán (unas 1000 frases)

Lo he pasado por Google Translate y el resultado lo he pegado en un editor de textos (LibreOffice Writter).

La traducción es perfecta en un 90%, simplemente hay que ajustar inicios de interrogación (¿) y exclamación (¡), algunas partes donde se usa la preposición “en” en vez de “a” (usé la herramienta de buscar) y luego pase el corrector a toda la página para identificar palabras que hayan podido quedar sin traducir o que no existan en español.

El resultado es que en menos de media hora he podido copiar y pegar en la herramienta de common voice 942 nuevas frases en español :slight_smile:

Quizá sería interesante que alguien más tomara estas frases en catalán, siguiera mi mismo proceso y así conseguimos llegar a 5000 en español muy rápidamente.

Un saludo.


(Mar Martinez) #3

Me parece muy buena idea, ¿es posible también tomar frases de otros sitios como Tatoeba? ¿se consideran lo suficientemente públicas para ser usadas?.
Gracias,
Mar


(Rubén Martín) #4

Cuando hablé con la gente de Tatoeba estaban usando licencia cc-by-sa, no dominio público cc-0, por lo que no. Aunque creo que habían añadido una opción para que la gente pudiera también mandar frases en cc-0.

un saludo.


(Carlos Fonseca) #5

Hola, tengo una consulta respecto a los puntos y comas.

Hace unas semanas compartí una herramienta para cortar audios teniendo las oraciones, llevo varias semanas haciendo pruebas en mis ratos libres y los resultados son muy buenos. El problema es que la herramienta usa todas las sentencias sin signos de puntuación y estoy notando que las oraciones siempre tienen los signos de puntuación en la herramienta para revisarlas. La pregunta es, puedo enviar todas esas oraciones sin los signos de puntuación que uso para cortar los audios?

Todas las oraciones que tengo de momento son de los libros de Librivox.

Excelente proyecto.