Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
Tecnología

Los audiolibros están prosperando, pero ¿podría la IA hacerse cargo?

Los estómagos gorgotean. Eso es normal. A veces, si hay un micrófono cerca, esos borboteos y gorgoteos se captan.

Los narradores de audiolibros de IA no tienen que preocuparse por ruidos gastrointestinales extraños, pero Leah Allers y el ingeniero Craig Hinkle no son bots. Son seres humanos que graban para Nashville Audio Productions a mediados de enero, se preocupan por los gorgoteos, discuten dónde poner el énfasis en la palabra «aumentar» y se ocupan del trabajo detallado de dar una voz «real» a un libro sobre cómo se comunican las parejas.

El estudio de NAP se encuentra en The Rukkus Room en Nashville, Tennessee, el mismo lugar donde Taylor Swift grabó su álbum debut homónimo, siete veces platino. El olor a café impregna la sala de espera. Hinkle está atento a cada palabra que sale de la boca de Allers, mirando desde un iPad con el texto del libro a un monitor grande que se encuentra en la caja de resonancia del estudio.

«Quiero obtener más emociones en estas preguntas», le dice Allers a Hinkle antes de reiniciar una sección de un capítulo.

Los audiolibros están en auge. Se espera que el mercado alcance los 33.500 millones de dólares para 2030, frente a los 4.200 millones de dólares de 2021, según Acumen Research and Consulting. Ya sea que esto sea una consecuencia del aumento de la popularidad de los podcasts, una cuestión de comodidad para escuchar o un subproducto de la pandemia, no ha escapado a la atención de las empresas de tecnología y al inevitable avance de la inteligencia artificial.

En 2023, la emoción en torno al potencial de la IA es alta, pero también lo es la ansiedad de que robe puestos de trabajo a los creativos en apuros. ChatGPT puede escribir cualquier cosa, desde cartas de preautorización de seguros hasta biografías de aplicaciones de citas, con diversos grados de éxito. Plataformas de IA como Lensa IA y Dall-E de OpenAI escupir arte generado por IA, dejando a muchos de los que se ganan la vida creando arte digital preocupándose por su futuro.

Las compañías tecnológicas, incluidas Apple y Google, han estado trabajando en la narración de audiolibros con IA desde hace un tiempo. En 2022, Google lanzó sus servicios a editores en seis países, incluidos EE. UU. y Canadá. Los narradores de IA de Google tienen nombres como Archie, que suena británico, y Santiago, que habla español. A principios de enero, Apple presentó un establo de voces de IA con nombres como Madison y Jackson, que los autores y las editoriales independientes que venden sus libros en Apple Books pueden aprovechar para leer géneros que van desde la no ficción hasta el romance.

La creciente presencia de la IA en la narración de audiolibros tiene a los narradores humanos como Tanya Eby en varias etapas de estrés.

331347199-1190718441807713-4240875121857799363-n

La narradora galardonada Tanya Eby.

Tanya Eby

«No sé si dentro de cinco años, este seguirá siendo mi trabajo de tiempo completo», dijo Eby, un narrador con sede en Grand Rapids, Michigan, que ha grabado más de 1,000 libros en los últimos 21 años.

Narradores como Eby dicen que su humanidad es exactamente lo que les ayuda a hacer su trabajo. Particularmente con la ficción, los narradores toman decisiones sobre todo, desde la voz de un personaje hasta cómo comunicar matices y emociones de una manera que refleje la historia.

«Si un personaje está llorando después de la muerte de su padre, tengo que transmitir esas lágrimas y jadeos en su discurso», dijo Kathleen Li, narradora con sede en Austin, Texas.

Los narradores describen la intimidad de ser una voz en el oído de un oyente y se preguntan si incluso la IA más realista caerá en el valle inquietante. El peligro, les preocupa, es interrumpir la experiencia.

Las voces de la IA pueden variar desde forzadas hasta bastante convincentes. Pero incluso el más fluido puede desencadenar esos misteriosos cables trampa del valle con una entrega o un ritmo que suena mal.

«Todo lo relacionado con el consumo de medios es que queremos estar envueltos en ellos», dijo Jonathan Sleep, un narrador que vive en las afueras de Atlanta, Georgia.

El dinero habla

Los fanáticos de los audiolibros pueden tener dificultades para entender por qué alguien optaría por una voz sintética en lugar de una humana. Pero para los pequeños editores y autores, el tiempo y el dinero pueden ser un argumento más poderoso que la santidad de una actuación creativa.

Los audiolibros no generan mucho dinero para University of Michigan Press. La editorial publica alrededor de 100 libros académicos al año, escritos por académicos para académicos o estudiantes.

Podría costar tanto como $6,000 contratar a un narrador para un libro que puede recuperar solo unos pocos cientos. Y eso sin hablar del intensivo proceso de producción. Puede llevar alrededor de seis horas producir una hora completa de un audiolibro, según ACX, el Intercambio de creación de audiolibros de Amazon.

«La realidad es que, a menos que tenga una especie de best-seller, la economía no funciona», dijo Charles Watkinson, director de University of Michigan Press y bibliotecario universitario asociado para publicaciones en la Biblioteca de la Universidad de Michigan. También es presidente de la Asociación de Editoriales Universitarias, una organización profesional de editores en el espacio académico.

Para los autores y editores más pequeños, el tiempo y el costo de producir un audiolibro pueden estar fuera de su alcance. La IA podría cambiar eso.

Hace unos dos años, Google se acercó a University of Michigan Press para participar en un programa piloto. La prensa pudo usar la herramienta de Google para crear alrededor de 100 audiolibros producidos digitalmente. Todavía se requiere cierto grado de intervención humana. Watkinson dijo que algunos profesores que han usado Google harán que los estudiantes escuchen la grabación para compararla con el texto. Las imprentas más pequeñas aún pueden tener problemas de personal, a pesar de acelerar el proceso de grabación con IA.

Watkinson dijo que la Universidad de Michigan estaba interesada en cómo la IA podría aumentar potencialmente la accesibilidad de los libros que, de otro modo, no estarían disponibles en formato de audio.

En los primeros días del piloto, se comunicaron con unos 900 autores con una muestra de la narración, y la respuesta general fue que la narración de IA era solo un poco mejor que lo que un lector de pantalla podría ofrecer a alguien con discapacidad visual. Sin embargo, para aquellos con problemas de visión que no tengan lectores de pantalla o similares, tal vez la IA podría ayudar a llenar un vacío en el acceso.

En otros casos, los oyentes pueden estar felices de tener un libro grabado en cualquier forma. Una pasante de Watkinson usaba audiolibros para seguir estudiando en momentos en los que no podía tener un libro abierto frente a ella, como en el autobús o caminando a clase. Ella lo llamó «escucha intersticial».

El auge de las voces digitales

Además de grandes nombres como Apple y Google, hay un grupo creciente de empresas más pequeñas que ingresan al espacio de voz de IA.

deepzen.png

DeepZen está tratando de hacer que la narración de audio de IA suene más natural.

DeepZen

DeepZen es uno de ellos. Fundada en 2018 e inspirada en la película Her de 2013, sobre un hombre que se enamora de su asistente virtual de IA, DeepZen creó un sistema de procesamiento de lenguaje natural que puede tomar señales del texto y que utiliza voces de IA creadas a partir de narradores humanos con licencia, etiquetados con seudónimo. .

Uno de los mayores desafíos fue crear una plataforma que no repitiera el texto como un loro, sino que le infundiera tono, dijo el director ejecutivo y cofundador Taylan Kamis.

Llevó algunos años salir al mercado, pero ahora DeepZen permite a los clientes cargar un manuscrito y, según su plan de precios, seleccionar un servicio automatizado o administrado. Ambos vienen con niveles de control de calidad, como una verificación de pronunciación, pero la opción administrada presenta una verificación de revisión por parte de editores humanos y dos rondas de correcciones.

El servicio automatizado le costará a un cliente $69 por hora terminada frente a $129 para la opción administrada. DeepZen ha producido casi 3000 libros hasta el momento, tanto de ficción como de no ficción.

En su sitio web se pueden escuchar muestras de 10 voces, con nombres como Todd, Dahlia y Alice.

En algún lugar del mundo, Todd, Dahlia y Alice son personas reales. Kamis cree que las licencias de voz podrían ser una forma de que los narradores coexistan con la IA en la narración.

«Ese narrador ganará dinero mientras duerme y su voz ganará regalías en Japón. [or] China o Sudáfrica», dijo.

DeepZen también está trabajando en una forma de hacer que las voces de IA hablen otros idiomas, para aumentar el alcance del mercado.

Y no importa superar los desafíos de hablar solo un idioma: la muerte ni siquiera tiene que interponerse en el camino. DeepZen se acercó a la familia del destacado actor de doblaje y narrador Edward Hermann, quien murió en 2014, para obtener la licencia de su voz. Firmaron. En cierto sentido, Hermann sigue trabajando, a título póstumo.

Hablar de nuevo

Kamis no es el único que piensa que hay una manera de que la IA y los humanos se lleven bien en la narración de voz.

Watkinson, de la Universidad de Michigan, quiere usar la IA como una forma de probar qué libros valdría la pena contratar a un ser humano para grabar. Si uno se está vendiendo particularmente bien, el éxito podría justificar el costo. Él mismo es fanático de los audiolibros.

«Esta es una vía de acceso para que obtengamos narradores humanos», dijo.

No todo el mundo es optimista. A algunos en la industria les preocupa que haya menos trabajos para los narradores que no son famosos o que no tienen seguidores propios.

«Todos esos narradores de nivel medio, realmente sólidos… hacen un excelente trabajo y es su sustento, pero no necesariamente van a ser una atracción», dijo Andrea Fleck-Nisbet, directora ejecutiva de la Asociación de Editores de Libros Independientes.

Después de dos décadas en el negocio, Eby dijo que se pregunta qué sucederá si eventualmente no puede encontrar el trabajo para narrar a tiempo completo.

«¿Qué habilidades tengo que sean competitivas? ¿Y cómo entraría en una oficina y qué ofrecería?» ella preguntó.

El narrador Jonathan Sleep dijo que sabe que tiene deberes que hacer, y se está volviendo más perspicaz con respecto a los contratos que firma y los derechos que otorga con respecto a su voz.

Otros, como el narrador Andy García-Ruse, quieren aprovechar sus puntos fuertes: «Todo lo que podemos hacer es hacer que se enamoren de nuestras actuaciones y sigan trabajando».

Algunos autores se niegan a utilizar una voz digital.

«Siento que el propósito de la ficción es evocar las emociones del lector o del oyente, y la ficción se trata de lo que significa ser humano. Y una máquina no puede replicar eso», dijo la autora Elizabeth Bell.

El autor Chris Stokel-Walker usó Google para narrar su libro de no ficción TikTok Boom de 2021, sobre la popular aplicación de video, y escribió sobre el resultado en Inverse.

«Lo que resultó fue un audiolibro que, aunque carecía de la emoción y el drama que esperabas, sonaba decente», escribió Stokel-Walker.

Aún así, quedan muchas preguntas. En un mundo donde las personas ya escuchan voces digitales como Siri y Alexa todos los días, ¿dejarán de preocuparse los humanos si una voz digital no suena perfectamente humana? Para Fleck-Nisbet, la narración de IA es solo una de las muchas preguntas que enfrentará la industria editorial. Existen otras incertidumbres sobre la IA y los derechos de autor o la propiedad intelectual.

En otras palabras, esto es solo el comienzo.

Hablando

Nada de esto quiere decir que los narradores estarán en la línea de desempleo la próxima semana.

John Behrens, propietario de Nashville Audio Productions, ha trabajado con dos libros generados por IA en los últimos años, esencialmente proporcionando control de calidad. La IA todavía se encontró con problemas. No podía pronunciar los versículos de la Biblia y tenía problemas con las preguntas retóricas del texto.

Un audiolibro malo puede producir de 50 a 100 entradas para problemas que deben solucionarse, dijo Behrens. La IA produjo cientos. Eso lo lleva a creer que los narradores humanos no irán a ninguna parte, al menos por un tiempo. Aconseja no entrar en pánico.

«Si vas a vivir con miedo… ¿por qué seguirías invirtiendo en esta carrera si crees que se va a acabar?». él dijo.

De vuelta en la Sala Rukkus, Allers y Hinkle se toman un descanso para charlar sobre los robots.

Es la primera vez que Allers narra un audiolibro, aunque ha hecho mucho trabajo de doblaje y doblaje, incluso para Netflix.

Hinkle no está impresionado por la IA.

«Un robot leyendo un libro», dijo. «Todavía creo que pasará mucho tiempo antes de que suene natural y talentoso».

Simplemente no le digas a Madison y Jackson.

Nota de los editores: CNET está utilizando un motor de inteligencia artificial para crear algunos explicadores de finanzas personales que nuestros editores editan y verifican. Para más, ver esta publicación.

Photo of Eleon Lass

Eleon Lass

Eleanor - 28 years I have 5 years experience in journalism, and I care about news, celebrity news, technical news, as well as fashion, and was published in many international electronic magazines, and I live in Paris - France, and you can write to me: eleanor@newstoday.fr
Botón volver arriba