Una de las tareas más tediosas del ámbito educativo y periodístico es convertir a texto conferencias o entrevistas grabadas, un trabajo con el que puede encontrarse cualquier usuario en cualquier momento. Bien es cierto que, en la actualidad, están disponibles distintos soportes tecnológicos capaces de trasladar voz a texto, algunos de ellos con un bajo nivel de servicio en el apartado gratuito y otras, muy eficientes, pero con costes elevados.

En esta coyuntura y presionados por sus propias necesidades del trabajo de investigación universitaria en el que se hallan inmersos, el catalán Marc Assens (estudiante de Erasmus del grado de ingeniería de telecomunicaciones especializado en inteligencia artificial) y el francés André Bastié (estudiante de máster en la Dublin City University) han desarrollado Happy Scribe un sistema de transcripción de voz a texto -eficiente y rápido- que decidieron compartir en la red con otros compañeros. El éxito ha sido inminente y pronto ha alcanzado a colectivos profesionales, lo que ha motivado la mejora de la herramienta, la creación de más servicios y que los creadores se aventuren en lo que, por el momento, es una exitosa iniciativa empresarial.

Las novedades

Happy Scribe tiene algunas destacadas ventajas. En primer lugar el precio y la fórmula de pago, ya que se factura por tiempo de utilización de la herramienta (la plataforma cobra nueve céntimos por cada minuto de transcripción, es decir, convertir un audio de 30 minutos cuesta menos de tres euros), en segundo lugar por el número de idiomas reconocidos: un total de 80 en la actualidad y, en tercer lugar, por la rapidez, ya que puede subirse en bloque la totalidad del audio (conferencia, entrevista, charlas, clases magistrales, etc.) y el usuario recibe en unos pocos minutos la transcripción.

En cuanto a la configuración de la página destaca por la accesibilidad y la sencillez de uso. Señalar que los textos obtenidos aportan con una correcta ortografía y, adicionalmente, existe la posibilidad de edición.

Recientemente se ha añadido otra importante funcionalidad. En el editor, el audio y el texto está sincronizado, por lo que mientras se escucha el audio las palabras se subrayan como en un karaoque y si se pulsa en esa palabra, el audio regresa a ese punto concreto de manera automática.

Los creadores han informado que el proceso de mejora es continuo, sobre todo, en lo que se refiere a la precisión de la conversión, para lo cual proporcionan útiles consejos en la propia web.

Funcionamiento

Para transcribir los audios a texto solo hay que subir un archivo en cualquier formato de vídeo, de un máximo de 80 minutos y la página envía un enlace con la transcripción cuando está lista, entre 10 y 15 minutos.

Una vez obtenido el texto se abre un editor para que el usuario pueda modificar las palabras que no se han interpretado de manera correcta.

La plataforma funciona con ‘machine learning’, lo que significa que aprende a medida que se utiliza, es decir, los resultados mejoran con el uso.

Según Assens, y cara al futuro del proyecto, apunta que 'es sostenible actualmente, lo que permitirá buscar inversores para hacerlo crecer paso a paso'.