Google voegt tekst-naar-spraak technologie toe aan GCP

Google voegt tekst-naar-spraak technologie toe aan Google Cloud Platform. Met behulp van Cloud Text-to-Speech kunnen ontwikkelaars deze technologie integreren in hun eigen applicaties.

Cloud Text-to-Speech kan worden ingezet voor uiteenlopende toepassingen. Zo kunnen ontwikkelaars met behulp van de technologie:

  • Internet of Things (IoT) apparaten in staat stellen gesproken vragen van gebruikers te beantwoorden;
  • tekst zoals nieuwsartikelen of boeken omzetten in audio zoals podcasts of audioboeken;
  • conversationele IVR (Interactive Voice Response) voor call centers en real-time gesprekken in natuurlijke taal mogelijk maken.

32 stemmen en 12 talen

De tekst-naar-spraak technologie biedt ontwikkelaars toegang tot 32 verschillende stemmen die 12 verschillende talen en taalvarianten kunnen spreken. Deze stemmen kunnen naar wens worden aangepast door de spreeksnelheid en de toon van de stem te wijzigen. Google meldt dat de technologie in staat is complexe woorden zoals namen, tijden en adressen correct uit te spreken. Verschillende bestandsformaten worden ondersteund, waaronder MP3 en WAV.

Met behulp van generatief model voor rauwe audio WaveNet zijn verschillende authentiek klinkende stemmen ontwikkeld. WaveNet synthetiseert natuurlijk klinkendere stemmen, waar gebruikers volgens Google over het algemeen de voorkeur aan geven. WaveNet werd in 2016 ontwikkeld door DeepMind, onderdeel van Google's moederbedrijf Alphabet.

Wat is WaveNet?

WaveNet is een neuraal netwerk dat getraind is met behulp van grote hoeveelheden audiobestanden van gesproken tekst. Het netwerk extraheert tijdens de training de onderliggende structuur van gesproken woorden, bijvoorbeeld de wijze waarop tonen elkaar opvolgen. Indien tekstuele input wordt gegeven aan WaveNet, genereert het model op basis van deze structuur realistische (geluids)golfvormen. Dit stelt het neurale netwerk in staat woorden en zinnen realistischer uit te spreken dan alternatieve werkwijzen.

De versie van WaveNet die Google heeft geïmplementeerd is een doorontwikkeling van het initiële model dat in 2016 door DeepMind is gebouwd. Het nieuwe model is in staat golfvormen 1.000 maal sneller te produceren dan het oorspronkelijke model; in slechts 50 milliseconden kan het netwerk een seconde aan gesproken tekst creëren. In totaal kunnen 24.000 golfvormen per seconde worden gecreëerd.

Meer informatie over Cloud Text-to-Speech is te vinden in een blogpost die Google over de technologie heeft gepubliceerd.

Dossiers
Lees ook
27 klanten en partners treden toe tot blockchain-initiatief van SAP

27 klanten en partners treden toe tot blockchain-initiatief van SAP

27 klanten en partners zijn toegetreden tot het onlangs geïntroduceerde blockchain-initiatief van SAP. Dit initiatief heeft als doel om blockchain te integreren met onder meer het Internet of Things (IoT), fabricageprocessen en supplychainoplossingen. Dit alles met behulp van de blockchainservice van het SAP Cloud Platform. Ook kondigt SAP aan zich...

Business Software Event 2017 staat in het teken van de maakindustrie

Business Software Event 2017 staat in het teken van de maakindustrie

Het Business Software Event voor de klantorder- en voorraadgestuurde industrie heeft dit jaar als thema ‘Business Software voor de maakindustrie – uw bedrijfsproces stap voor stap efficiënter ingericht’. Centraal staat de noodzaak van voortgaande ketenintegratie en procesverbetering met behulp van ict. Uiteraard komen trends als smart industry, internet...

ZigBee Alliance lanceert universele taal voor het Internet of Things

ZigBee Alliance lanceert universele taal voor het Internet of Things

De ZigBee Alliance heeft onlangs een universele taal voor het Internet of Things (IoT) gelanceerd: dotdot. dotdot is een applicatielaag die is gebaseerd op het ZigBee protocol waarmee IoT-apparaten met elkaar communiceren.Met behulp van dotdot wil de ZigBee Alliance slimme met internet verbonden apparaten in staat stellen met elkaar te communiceren...