Researchers van Apple willen Siri natuurlijker laten reageren


In het kort

  • Apple-onderzoekers werken aan een nieuw tekst-naar-spraaksysteem om Siri’s reactievermogen te verbeteren.
  • Dit systeem gebruikt ‘akoestische gelijkenisgroepen’ om tekst efficiënter om te zetten in gesproken woorden.
  • Het resultaat is een soepelere en natuurlijkere interactie met Siri.

Apple-ingeniëurs kijken naar een nieuwe manier om Siri sneller te laten reageren en gesprekken soepeler te laten verlopen. Ze richten zich op tekst-naar-spraak-technologie, met als doel het omzetten van geschreven tekst naar gesproken woorden sneller te laten gaan.

Natuurlijk klinkende spraak

Dit nieuwste onderzoek, getiteld ‘Principled Coarse-Grained Acceptance for Speculative Decoding in Speech‘, is een samenwerking tussen Apple en de Universiteit van Tel Aviv. Het gaat dieper in op de uitdagingen van het genereren van natuurlijk klinkende spraak met behulp van AI.

Huidige tekst-naar-spraaksystemen zijn vaak afhankelijk van fonetische tokens – korte geluidseenheden gemeten in milliseconden – die worden samengevoegd om zinnen te vormen. Dit token-matchingproces kan echter traag zijn en foutgevoelig. De incidentele verkeerde uitspraken van Siri benadrukken deze beperking.

‘Akoestische gelijkenisgroepen’

Apple stelt een oplossing voor die prioriteit geeft aan ‘akoestische gelijkenisgroepen’ (ASG’s). Deze groepen clusteren perceptueel vergelijkbare geluiden, waardoor het systeem efficiënter kan zoeken naar de meest geschikte token.

Door gebruik te maken van waarschijnlijkheden binnen ASG’s kan het systeem snel kandidaat-tokens identificeren en de selectie verfijnen met behulp van autoregressie. Deze tweestapsaanpak belooft snellere generatietijden met behoud van een hoge spraakkwaliteit.

Soepelere gesprekken met Siri

Het resultaat is naar verwachting soepelere en natuurlijkere gesprekken met Siri en andere spraakassistenten. Hoewel de snelheidsverbetering misschien niet spectaculair is, zou dit de reacties van Siri beter afstemmen op het natuurlijke ritme van menselijke gesprekken, waardoor merkbare vertragingen tot een minimum worden beperkt.

Volg Newsmonkey ook op Google Nieuws

Schrijf je hieronder in voor onze GRATIS nieuwsbrief

Meer
Lees meer...