Nueva herramienta para mandar frases a Common Voice


(Rubén Martín) #1

Hola,

Esta semana hemos publicado la primera versión beta de la herramienta para recolectar frases de Common Voice.

La herramienta nos permite enviar y revisar frases para que sean incorporadas al proyecto y la gente pueda donar su voz.

¿Por qué es importante?

Para poder donar la voz, la gente necesita frases entretenidas que leer, y para poder activar esta fase en español necesitamos al menos 5000 frases en dominio público.

¿Cómo puedo ayudar?

Simplemente accede a la herramienta y envía frases (tanto propias como de otros) y ayuda con la revisión.

Revisar las frases de otros es muy importante para asegurarnos que son correctas, no tienen lenguaje ofensivo… y permiten que una vez una frase tenga suficientes valoraciones positivas, sea aprobada para incluirse en el sitio principal de Common Voice.

Como idea fácil, dedicar 10 minutos al día a escribir frases cortas (menos de 14 palabras) y otro día dedicar 10 minutos a revisar frases de otros.

Si las 84 personas que estamos en el grupo de telegram escribiéramos 10 frases al día durante siete días, ¡en una semana tendríamos el español listo para donar voces!

imagen


(Rubén Martín) #2

Una cosa que me he dado cuenta es que en Catalán ya tienen miles y miles de frases en Common Voice.

Como se que las herramientas de traducción hacen un buen trabajo español→catalán he probado una cosa. He tomado unos de los archivos ya validados de frases en catalán (unas 1000 frases)

Lo he pasado por Google Translate y el resultado lo he pegado en un editor de textos (LibreOffice Writter).

La traducción es perfecta en un 90%, simplemente hay que ajustar inicios de interrogación (¿) y exclamación (¡), algunas partes donde se usa la preposición “en” en vez de “a” (usé la herramienta de buscar) y luego pase el corrector a toda la página para identificar palabras que hayan podido quedar sin traducir o que no existan en español.

El resultado es que en menos de media hora he podido copiar y pegar en la herramienta de common voice 942 nuevas frases en español :slight_smile:

Quizá sería interesante que alguien más tomara estas frases en catalán, siguiera mi mismo proceso y así conseguimos llegar a 5000 en español muy rápidamente.

Un saludo.


(Mar Martinez) #3

Me parece muy buena idea, ¿es posible también tomar frases de otros sitios como Tatoeba? ¿se consideran lo suficientemente públicas para ser usadas?.
Gracias,
Mar


(Rubén Martín) #4

Cuando hablé con la gente de Tatoeba estaban usando licencia cc-by-sa, no dominio público cc-0, por lo que no. Aunque creo que habían añadido una opción para que la gente pudiera también mandar frases en cc-0.

un saludo.


(Carlos Fonseca) #5

Hola, tengo una consulta respecto a los puntos y comas.

Hace unas semanas compartí una herramienta para cortar audios teniendo las oraciones, llevo varias semanas haciendo pruebas en mis ratos libres y los resultados son muy buenos. El problema es que la herramienta usa todas las sentencias sin signos de puntuación y estoy notando que las oraciones siempre tienen los signos de puntuación en la herramienta para revisarlas. La pregunta es, puedo enviar todas esas oraciones sin los signos de puntuación que uso para cortar los audios?

Todas las oraciones que tengo de momento son de los libros de Librivox.

Excelente proyecto.


(Rubén Martín) #6

Hola @carlfm01

¿Qué tipo de frases te salen como resultado? Lo ideal es que sean frases que tengan sentido al leerlas y sean de 14 palabras o menos.

Yo diría que no hay problema si no hay signos mientras la frase no pierda el sentido al leerse.

Un saludo.


(Carlos Fonseca) #7

Aquí un ejemplo de todas las sentencias para el libro de Angelina de librivox

https://pastebin.com/ypYMx5XE

Creo para la cantidad de palabras mínimas y máximas no hay problema para filtrarlas, lo que si he notado son oraciones con palabras raras, lo que puedo hacer es de todos los textos hacer un diccionario de palabras comunes y filtrar las oraciones para que sus palabras estén en el top x de palabras comunes. Pronto estaré compartiendo las sentencias filtradas para que me de su opinión.


(Carlos Fonseca) #8

Aquí un ejemplo de las oraciones filtradas.

https://pastebin.com/bKF5W1tm


(Rubén Martín) #9

Hay frases que quedan raras porque parecen terminar antes de tiempo y otras que parece que ya habían empezado (muchas que empiezan por “y…”).

También me da la sensación que en algunas han desaparecido las comas y también parece que no tienen sentido.

No se si hay forma de afinar para que el filtrado tome esto en cuenta.


(Carlos Fonseca) #10

Voy a ver que puedo hacer con el asunto de las comas y puntos.


(Carlos Fonseca) #11

Hola, aquí comparto las sentencias para el mismo libro con los cambios que le apliqué, creo quedan mucho mejor, espero sus opiniones.

https://pastebin.com/STwxNf3W


(Rubén Martín) #12

¡He hecho un scroll rápido y se ven geniales!

¿Tienes alojado el script en algún sitio público? ¿Se puede usar para otros libros? ¿Está documentado cómo?

Yo creo que las frases que tienes están listas para enviar al sentence collector ya.

PD: Voy a estar una semana ausente y no podré revisar esto, pero tanto aquí como en el telegram de la comunidad más gente podrá ayudarte si tienes dudas. ¡genial trabajo! :smiley:


(Carlos Fonseca) #13

De momento no.

Sí, aún no me encuentro uno de librivox que de problemas.

No.

Creo de momento para mí lo más factible hacer un servicio REST con un sitio básico por si alguien tiene libros de dominio público, tiene una dependencia que es horrible de ver y entender, la escribí en mis años de universidad, lo que hace la dependencia es pasar números a su equivalente escrito. Me llevaría un tiempo ordenar la dependencia, antes de eso tengo que terminar de cortar los audios y estoy sin tiempo cortando audios.

:slight_smile:


(Rubén Martín) #14

Sería especialmente interesante si pudieras liberar los algoritmos que limpian las frases para que queden naturales, creo que eso es clave a la hora de usarlo por otras personas o comunidades, seguramente alguien de la comunidad te puede ayudar a limpiar el código si no tienes tiempo :smiley: