Catégories
Nouveau blog
Mots clés
Speex : un codec gratuit pour la liberté d'expression
November 17 , 2021Aperçu
Speex est un format de compression audio libre de brevet/logiciel libre conçu pour la parole. Le projet Speex vise à abaisser la barrière d'entrée pour les applications vocales en fournissant une alternative gratuite aux coûteux codecs vocaux propriétaires. De plus, Speex est bien adapté aux applications Internet et fournit des fonctionnalités utiles qui ne sont pas présentes dans la plupart des autres codecs. Enfin, Speex fait partie du projet GNU et est disponible sous la licence BSD révisée.
Speex cible la voix sur IP (VoIP) et la compression basée sur des fichiers. Les objectifs de conception ont été de créer un codec qui serait optimisé pour une parole de haute qualité et un faible débit binaire. Pour y parvenir, le codec utilise plusieurs débits binaires et prend en charge l'ultra-large bande, la bande large et la bande étroite. Le codec est déterminé comme étant robuste aux paquets perdus, mais faible aux paquets corrompus. Tout cela a conduit au choix de la prédiction linéaire excitée par code (CELP) comme technique de codage à utiliser pour Speex.
Caractéristiques
Taux d'échantillonnage
Speex est principalement conçu pour trois taux d'échantillonnage différents : 8 kHz (le même taux d'échantillonnage pour transmettre les appels téléphoniques), 16 kHz et 32 kHz. Celles-ci sont respectivement appelées bande étroite, bande large et ultra-large bande.
Qualité
L'encodage Speex est contrôlé la plupart du temps par un paramètre de qualité qui va de 0 à 10. En fonctionnement à débit constant (CBR), le paramètre de qualité est un entier, tandis que pour le débit variable (VBR), le paramètre est un nombre réel (à virgule flottante).
Complexité (variable)
Avec Speex, il est possible de faire varier la complexité autorisée pour l'encodeur. Cela se fait en contrôlant la manière dont la recherche est effectuée avec un nombre entier allant de 1 à 10 d'une manière similaire aux options -1 à -9 des utilitaires de compression gzip. Pour une utilisation normale, le niveau de bruit à la complexité 1 est entre 1 et 2 dB plus élevé qu'à la complexité 10, mais les exigences CPU pour la complexité 10 sont environ cinq fois plus élevées que pour la complexité 1. En pratique, le meilleur compromis est entre la complexité 2 et 4,[13] bien que des réglages plus élevés soient souvent utiles lors de l'encodage de sons non vocaux comme des tonalités DTMF, ou si l'encodage n'est pas en temps réel.
Débit binaire variable (VBR)
Le débit binaire variable (VBR) permet à un codec de modifier son débit binaire de manière dynamique pour s'adapter à la « difficulté » de l'audio en cours de codage. Dans l'exemple de Speex, les sons comme les voyelles et les transitoires à haute énergie nécessitent un débit binaire plus élevé pour obtenir une bonne qualité, tandis que les fricatives (par exemple, les sons s et f) peuvent être codées de manière adéquate avec moins de bits. Pour cette raison, VBR peut atteindre un débit binaire inférieur pour la même qualité, ou une meilleure qualité pour un certain débit binaire. Malgré ses avantages, VBR présente trois inconvénients principaux : premièrement, en spécifiant uniquement la qualité, il n'y a aucune garantie sur le débit binaire moyen final. Deuxièmement, pour certaines applications temps réel comme la voix sur IP (VoIP), ce qui compte, c'est le débit binaire maximum, qui doit être suffisamment bas pour le canal de communication. Troisièmement, le cryptage de la parole codée en VBR peut ne pas garantir une confidentialité totale, car les phrases peuvent toujours être identifiées, au moins dans un cadre contrôlé avec un petit dictionnaire de phrases,[14] en analysant le modèle de variation du débit binaire.
Débit binaire moyen (ABR)
Le débit binaire moyen résout l'un des problèmes du VBR, car il ajuste dynamiquement la qualité du VBR afin d'atteindre un débit binaire cible spécifique. Étant donné que la qualité/le débit binaire sont ajustés en temps réel (boucle ouverte), la qualité globale sera légèrement inférieure à celle obtenue en encodant en VBR avec exactement le bon réglage de qualité pour atteindre le débit binaire moyen cible.
Détection d'activité vocale (VAD)
Lorsqu'elle est activée, la détection d'activité vocale détecte si l'audio encodé est de la parole ou du silence/bruit de fond. VAD est toujours implicitement activé lors de l'encodage en VBR, donc l'option n'est utile qu'en fonctionnement non-VBR. Dans ce cas, Speex détecte les périodes sans parole et les encode avec juste assez de bits pour reproduire le bruit de fond. C'est ce qu'on appelle la « génération de bruit de confort » (CNG). La dernière version de VAD fonctionnait correctement est 1.1.12, depuis la v 1.2, elle a été remplacée par une simple détection d'activité.
Transmission discontinue (DTX)
La transmission discontinue est un ajout au fonctionnement VAD/VBR qui permet de cesser complètement de transmettre lorsque le bruit de fond est stationnaire. Dans un fichier, 5 bits sont utilisés pour chaque trame manquante (correspondant à 250 bit/s).
Amélioration de la perception
L'amélioration de la perception est une partie du décodeur qui, lorsqu'elle est allumée, essaie de réduire (la perception de) le bruit produit par le processus de codage/décodage. Dans la plupart des cas, l'amélioration de la perception rend objectivement le son plus éloigné de l'original (rapport signal/bruit), mais au final, il sonne toujours mieux (amélioration subjective).
Retard algorithmique
Chaque codec introduit un retard dans la transmission. Pour Speex, ce délai est égal à la taille de la trame, plus une certaine quantité de "prévision" requise pour traiter chaque trame. En fonctionnement à bande étroite (8 kHz), le délai est de 30 ms, tandis qu'en large bande (16 kHz), le délai est de 34 ms. Ces valeurs ne tiennent pas compte du temps CPU nécessaire pour coder ou décoder les trames.
TONMIND, concepteur et fabricant deIPS haut-parleur depuis 2014. Les SIP Speakers ont appliqué le traitement audio Speex pour améliorer la qualité sonore.
Notre Haut-parleurs de radiomessagerie IP Le codec comprend OPUS, G711U, G711A, G722, GSM, MP1, MP2, MP3, WAV, LPCM s16le. Les différents codecs assurent également une excellente qualité sonore.
à l'esprit Haut-parleur SIP peut être appliqué à divers cas d'application, par exemple, une école, un galop commercial, un centre de service client, un hôtel, un hôpital, de grandes salles, etc. Les utilisateurs peuvent connecter les haut-parleurs SIP avec IPPBX ou le logiciel de système de sonorisation développé par notre équipe R&D . Il peut également fonctionner avec le logiciel Axis via RTP Multicast.
La force de base de Tonmind comprend :
• Plus de 10 ans d'expérience en audio et vidéo VoIP
• Support technique exclusif.
• Une équipe client bien formée.
• Orientée vers le client.
• Réponse rapide du marché.