Paso mucho tiempo investigando y a menudo pienso en el tema mientras camino a la estación de tren o cuando salgo de viaje en general.
Una tarde, mientras caminaba las 1,5 millas hasta la estación desde mi trabajo, pensé: «¿No sería bueno si pudiera grabar lo que quería decir y luego transcribirlo automáticamente a un archivo de texto que pudiera editar y formatear más tarde?
He pasado muchas horas mirando las diferentes opciones disponibles para el reconocimiento de voz y el dictado, incluyendo la grabación directa a través de un micrófono usando software de dictado en Linux, grabando el archivo en formato MP3 o WAV y convirtiéndolo a través de la línea de comandos, así como usando aplicaciones Chrome y Android.
Esto pone de relieve mis hallazgos después de días de trabajo duro.
Índice de contenidos
Opciones de Linux
Tratar de encontrar software de dictado y reconocimiento de voz en Linux no es tan fácil como podría ser y las opciones disponibles no son tan inteligentes.
Esta página de wikipedia tiene una lista de opciones potenciales incluyendo CMU Sphinx, Julius y Simon.
Estoy usando SparkyLinux que está basado en Debian Testing en este momento y puedo decirle que el único paquete de reconocimiento de voz disponible en los repositorios es Sphinx.
Los programas nativos de Linux que terminé probando fueron PocketSphinx, que usé para convertir archivos WAV a texto y Freespeech-VR que es una aplicación python que permite grabar directamente desde un micrófono.
También probé un par de aplicaciones Chrome incluyendo VoiceNote II y Dictanote.
Finalmente probé las aplicaciones Android «Dictation and Email» y «Talk And Talk Dictation».
Freespeech-VR
Freespeech-VR no está disponible en los repositorios estándar. Descargué los archivos desde aquí.
Después de descargar y extraer el contenido del archivo zip, abrí un terminal y navegué hasta la carpeta donde se extrajeron los archivos. Escribí el siguiente comando para abrir freespeech-vr.
sudo python freespeech-vr
Tengo un par de auriculares con un micrófono bastante decente y un acento bastante claro del sur de Inglaterra.
El siguiente texto apareció en la ventana freespeech-vr:
Bienvenidos a la unidad perros de resultado Hoy Tener Asegurando Como Manejar Pruebas Y Tener que probar Cuándo Usar un mensaje de texto Utiliza un sistema de manera Discurso I el A cada uno fue Sólo En una Esperanza de quedarse Y El Medio de Uno gallinas doradas como sistema El Ea cuando mi nombre es el siguiente de las llamadas telefónicas de llamadas de ofch Este archivo Muy pronto bastante un caso teléfono a Manos- Espacia la esfinge Que no es un teléfono será compartida A entrenados y herramientas Usar hablar Cuando termines Di un archivo usado Por último una historia A Y usando a por el Cuando es muy exitoso Este Linux fue como Evitas es
Me gustaría decir ahora que este no es el sitio web de Unit Of Dogs y que en ningún momento mencioné nada que ver con los pollos Golden. En realidad estaba tratando de describir el proceso de uso del software de reconocimiento de voz.
Probé el software varias veces, incluyendo la variación de tono y velocidad, pero la precisión era pobre.
PocketSphinx
PocketSphinx es capaz de tomar un archivo WAV y convertirlo a texto usando la línea de comandos. PocketSphinx está disponible a través de los repositorios de Debian y debería estar disponible para la mayoría de las distribuciones.
El principal problema que encontré con PocketSphinx es que prácticamente se necesita un título en los conceptos de reconocimiento de voz, archivos de idioma, diccionarios y cómo entrenar el sistema.
Después de instalar PocketSphinx debe ir a la página web de CMU Sphinx y leer toda la información posible. También necesita descargar el siguiente archivo de modelo.
- Modelo de idioma genérico del inglés de los Estados Unidos
(Si usted no es un hablante nativo de inglés, elija el modelo de idioma que sea apropiado para usted).
La documentación de PocketSphinx y Sphinx en general es difícil de entender para el profano, pero por lo que he podido ver, los archivos de diccionario se utilizan para proporcionar una lista de posibles palabras y los modelos de lenguaje tienen una lista de pronunciaciones potenciales.
Para probar PocketSphinx utilicé una grabación de mi propia voz, un fragmento de Al Pacino en «The Devils Advocate» y un fragmento de «Morgan Freeman». El objetivo de esto era probar diferentes voces y para mí no hay nadie que pueda contar una historia tan claramente como Morgan Freeman y nadie hace una línea como Al Pacino.
Para que PocketSphinx funcione necesita un archivo WAV y debe estar en un formato determinado. Si el archivo está en formato MP3, utilice el comando ffmpeg para convertirlo al formato WAV:
ffmpeg -i nombrearchivo de entrada.mp3 -acodec pcm_s16le -ar 16000 nombrearchivo de salida.wav
Para ejecutar PocketSphinx utilice el siguiente comando:
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2>voice2.log
pocketsphinx_continuous toma un archivo WAV y lo convierte en texto.
En el comando anterior pocketsphinx se le dice que use un archivo de diccionario llamado «/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic» con el modelo de lenguaje «cmusphinx-5.0-en-us.lm». El archivo que se está convirtiendo en texto se llama voice2.wav (que es una grabación que hice con mi voz). Finalmente el 2> coloca toda la salida verbosa que usted no necesita necesariamente en un archivo llamado voice2.log. Los resultados reales de la prueba se muestran en la ventana del terminal.
Los resultados usando mi voz son los siguientes:
bienvenido a la siguiente sobre el tema de esta semana sobre el cual el software de reconocimiento en un minuto
Los resultados no son tan horrendos como con freespeech-vr pero todavía no son realmente utilizables. Entonces intenté usar PocketSphinx con Al Pacino, pero no obtuve ningún resultado.
Finalmente intenté usar la voz de Morgan Freeman de la película «Bruce Todopoderoso» y aquí están los resultados:
00000000000: nos pondremos en contacto con ella00000000001: son todos tan duros sí el día que ahora mismo sí esto es lo máximo que hemos estado vivos soy parte del hot
00000000002: en el ascensor que es la llave de un poco de béisbol o saber qué hacer en la vida
00000000003: cuáles son los que se recuperarán
00000000004: no lo escribieron
00000000005: ellos tienen en mí la derecha out
00000000006: debes ser reglas
>.00000000007: te he estado esperando00000000008: y se enteró aquí que era una ilustración de que era la fiesta de navidad asesino
00000000009: resulta que una de las maneras de escribir o. ass pensé que pocos siempre usan uno
00000000010: como el problema unido no le dará el bien soy el estimado en ese momento cuando no hicimos todo lo que piensas que estoy en el mundo se casará y he visto que
00000000011: un padre que lo tiene
00000000012: lo que hay de importante en esto
00000000013: hace eso dado
00000000014: todo lo que los que no caen por un lote
00000000015: justo en el otoño
00000000016: well hold on just for me
00000000017: es un infeliz si pienso también que van a tener un que el que todo eso se casará en un no nos gusta el camino diferente
Mi prueba apenas puede considerarse científica y los desarrolladores de PocketSphinx pueden afirmar que no estoy usando el software correctamente. También existe una técnica llamada entrenamiento de voz que puede ser utilizada para crear mejores diccionarios y archivos de idiomas.
Sin embargo, mi opinión primordial es que es demasiado difícil para el uso diario estándar.
Nota de voz II
VoiceNote II es una aplicación Chrome que utiliza la API de reconocimiento de voz de Google.
Si utiliza los navegadores Chrome o Chromium, puede instalar VoiceNote II a través de la tienda web.
Los iconos de VoiceNote II están dispuestos de una manera extraña, ya que necesitas configurar el idioma en la parte inferior de la ventana y el botón de edición también está en la parte inferior; sin embargo, el botón de grabación está en la posición superior derecha.
Lo primero que tiene que hacer es seleccionar un idioma y esto se puede lograr haciendo clic en el icono del mundo.
Para empezar a grabar, haga clic en el icono del micrófono y empiece a hablar por el micrófono. Para obtener los mejores resultados, encontré que hablar despacio era clave para que el software tuviera la oportunidad de mantenerse al día.
Los resultados no fueron muy buenos, como se puede ver a continuación:
Hola y bienvenido a conectarse. Lifewire.com hoy en día s acerca de la voz a la conversión de texto dunelm recesión farrell 2008 como conversiones y dijo bien apoyado la mejor manera que encontré complemento de texto de voz para mostrar 2014debian o paquete de rpm abrirlo tipo de voz a voz para abrir el texto si desea elegir vs eligió en edimburgo francés alemán obtener el tiempo en united kingdomstart at sea microphonewhat usted terminó de escribir su texto como un archivo de texto a su éxito bien que es acento inglés muy estándar del sur de Inglaterra mejor para él pero voy al textvia este torrentalong con el documento real y usted puede ver para los errores que makethank usted para escucharfriends
Dictanote
Dictanote es otra aplicación de Chrome que se puede usar para dictado y que parece ser más intuitiva, pero los resultados no fueron mejores que los de VoiceNote II.
Sólo he utilizado la versión de demostración de Dictanote que le impide crear nuevos documentos, pero que le permite hablar sobre el texto que ya está en el editor. Pude probar el reconocimiento de voz, pero los resultados no fueron mejores que los de VoiceNote II, por lo que no me inscribí en la versión profesional.
Dictado y correo
«Dictado y correo» es una aplicación Android que utiliza la API nativa de reconocimiento de voz de Google.
Los resultados de «Dictation and Mail» fueron mucho mejores que los que cualquiera de los otros programas intentaron hasta ahora.
hola bienvenidos a Linux lifewire, hoy estamos hablando de convertir el sonido en texto
El truco con «Dictation and Mail» es hablar despacio y pronunciar lo mejor que se pueda con un acento uniforme.
Después de que haya terminado de hablar, puede enviarse los resultados por correo electrónico a usted mismo.
Dictado Talk And Talk
La otra aplicación Android que probé fue «Talk And Talk Dictation».
La interfaz para esta aplicación era la mejor de todas y el reconocimiento de voz funcionó muy bien. Después de grabar el dictado, pude compartir los resultados de varias maneras, incluso por correo electrónico.
bienvenido a linux lifewire.com hoy estamos hablando de convertir voz a texto
Como puede ver, el texto de arriba es lo más claro que puede esperar. Hablar despacio es la clave.
Resumen
Native Linux tiene un largo camino por recorrer en lo que respecta al reconocimiento de voz y específicamente al dictado. Hay algunas aplicaciones que utilizan la API de voz de Google pero que aún no están listadas en los repositorios.
Las aplicaciones ChromeOS son un poco mejores, pero los mejores resultados se obtuvieron con mi teléfono Android. Tal vez el teléfono tiene un micrófono mejor y por lo tanto el software de reconocimiento de voz tiene más posibilidades de conversión.
Para que el reconocimiento de voz sea realmente utilizable, debe ser más intuitivo y requerir menos configuración. No debería tener que andar jugando con modelos de lenguaje y diccionarios para hacerlo inteligible.
Aprecio, sin embargo, que todo el arte del reconocimiento de voz es muy desafiante porque cada uno tiene una voz diferente y hay muchos dialectos de una región a otra en un mismo país, sin preocuparse por los cientos de idiomas que se utilizan en todo el mundo.
Mi análisis, por lo tanto, es que el software de reconocimiento de voz todavía está en proceso.