Textos con licencia CC-0 o dominio público para apoyar Common Voice

campañas
oportunidad

(Rubén Martín) #1

Hola,

Estamos buscando fuentes de texto con licencia CC-0 o dominio público para apoyar los esfuerzos del proyecto Common Voice. Estas se usarán luego en la herramienta que pide donar tu voz leyendo un texto.

El objetivo final es crear una bdd libre para reconocimiento de voz.

¿Conocéis alguna fuente en español? (a poder ser de textos conversacionales, tipo guiones de películas, libros…)

Un saludo.


Localización al español de Common Voice
(Rubén Martín) #2

Se ha hecho un llamamiento porque se necesitan persona que durante el Global Sprint (en dos semanas) revisen las frases que se envíen

Podéis registraros en este formulario para ayudar con el español.

BE A REVIEWER

Reviewers work during the sprint to read and validate sentences written by regular contributors during the global sprint. Reviewing is a great way to make a core contribution to Common Voice and be acknowledged by the Common Voice Team. However, we ask that you only become a reviewer for languages with which you have a very high proficiency. Click here to Register as a Reviewer.

As a Reviewer you’ll:

  • Meet with the Common Voice project lead before the sprint to learn the reviewing process
  • Be available from 9am-5pm local time during the Sprint (different/limited hours are also OK)
  • Read and approve “valid sentences” *
  • Stay connected with the Staff Team to report problems

*Note: We won’t know how many reviewers or sentences we’ll get in each language. But never fear, if you don’t have a lot of sentences to review you will still be acknowledged as a reviewer, and you will still be able to contribute by writing or finding public domain sentences.


(Rubén Martín) #3

La web para empezar a enviar frases en español ya está lista:

https://voice-sprint.mozilla.community/upload/

Revisad las instrucciones sobre cómo redactar buenas frases, en breve lo tendremos traducido por aquí.


(Rubén Martín) #4

Hola,

Ayer empezó el Global Sprint para Common Voice y al parecer casi nadie ha enviado frases para el español, necesitamos un empujón muy grande para ponernos cerca de otros idiomas.

Os dejo las instrucciones para enviar frases usando este formulario.

Ayúdanos a recopilar frases

Para poder recopilar datos de voz en tu(s) idioma(s), primero necesitamos miles de frases para que las personas puedan leerlas. Por lo tanto, te pedimos que envíes tantas frases como puedas en su(s) idioma(s) para que los futuros colaboradores puedan leerlas en el sitio web de Common Voice.

Hay dos formas de recopilar frases:

  • Escribiendo tus propias frases
  • Buscando frases ya existentes en el dominio público.

Escribir tus propias frases

Primero te pedimos que intentes escribir al menos 50 frases (que puedes inventar u obtener de publicaciones de blog, historial de redes sociales, o incluso mensajes de texto). Asegúrate de enviar solo frases que tengas permiso para compartir. Una vez que tengas todas las frases, puedes enviarlas en el formulario de subida.

Estos son algunos criterios que pueden ayudarte a escribir tus propias frases:

  • Lo ideal sería que se tardara entre 5 y 10 segundos en leer cada frase. Por lo tanto, apunta solo frases de entre 5 y 10 palabras.
  • frases de 1 o 2 palabras también están bien, ¡pero no todas! Intenta tener una combinación de frases cortas y medianas, pero que todas puedan leerse en menos de 10 segundos.
  • Intenta usar tantas palabras diferentes como puedas, porque así se ayudará a la máquina a enriquecer su vocabulario.
  • Incluye frases con signos de puntuación (por ejemplo, ? o !) también está bien, pero no te preocupes si no se te ocurre ninguna.
  • Si tu idioma usa símbolos especiales (por ejemplo, Ü, ß, š), ¡genial! Así se ayuda a la máquina a distinguir diferentes sonidos.
  • Intenta incluir nombres propios (nombres, nombres de calles, lugares, etc.).
  • Los números están bien, pero por favor, escribe el número en lugar de escribir los dígitos (es decir, “quinientos veintisiete” es en lugar de “527”).

Buscar frases ya existentes en el dominio público

Otra forma de encontrar frases es buscarlas en Internet. Recuerda que necesitamos permiso para publicar esas frases, de modo que tendrás que asegurarte siempre de que el texto pertenezca al dominio público. Si no hay ninguna indicación, ponte en contacto con la persona a la que pertenece el texto y pregúntale si puedes usar su texto. Si tienes alguna pregunta al respecto o necesitas ayuda para ponerte en contacto con un titular de datos, envía un correo electrónico a Michael Henretty.

Una vez que tengas una buena colección de frases, puedes enviarlas usando nuestro formulario de subida. Si tienes demasiadas frases y no todas se pueden incluir en ese formulario, puedes enviar un enlace con la ubicación de las frases; o también puedes enviar directamente el archivo por correo electrónico a: mhenretty@mozilla.com.

Consejos para encontrar frases:

  • Las mejores fuentes de frases son podcasts, transcripciones, guiones de películas y cualquier cosa que pueda contener conversaciones cotidianas.
  • Los procedimientos, libros y artículos del gobierno también son buenas fuentes, pero como el texto tiende a ser un poco más formal, son menos prioritarios.
  • Desafortunadamente, aún no podemos incluir artículos de Wikimedia. Por lo tanto, no copies y pegues nada de esa fuente.
  • Dos recursos geniales son: Common Crawl y Open Subtitles. Si encuentras una colección similar en tu idioma, ¡genial! Compártelo con nosotros en nuestro canal slack para que podamos enviarlo al resto de voluntarios.

Localización de Common Voice

También deberías comprobar si el idioma que te interesa ya se está localizando para el sitio web. Puedes comprobarlo en este enlace: https://pontoon.mozilla.org/projects/common-voice/

Si no está localizado, ¡ayúdanos a localizarlo! Envía un correo electrónico a mhenretty@mozilla.com para que se agregue tu idioma a Common Voice y así poder ayudar a traducirlo.

Mozilla es una organización sin fines de lucro global dedicada a ponerte en control de tu experiencia en línea y dar forma al futuro de la web para el bien público. Visítanos en mozilla.org

(Gracias a @jordicuevas @avelper y @ravmn por revisar la localización de las instrucciones)


(Gery Escalier) #5

hola paso dato www.dominiopublico.es/


(Rubén Martín) #6

Hola,

Vuelvo a recordar esto, lo último que se es que el español andaba bastante bajo de frases para poder pasarlo a una siguiente fase de recolección de voz.

¿Le damos un nuevo empujón en nuestras comunidades locales? :slight_smile: