Reconnaissance vocale ?

**moustick1991** · 30/11/2007, 19h44

Bonjour à tous !!!

Voila, j'ai un petit souci :
Je voudrais faire un logicel qui intègre la reconnaissance vocale et je me demandais si avec fmod on pouvait faire ca , si oui , de quelle manière ???

De plus , j'ai vu à différentes reprises sur des forum du net qu'il fallais obtenir
la fréquence de la voix que l'on enregistre .mais je ne sais pas comment on récupère cette fréquence . Est-ce possible avec fmod ???

Merci d'avance à tous.

**pavicf** · 06/12/2007, 13h22

Salut!

Bon, alors pour récupérer la fréquence, tu utilise une fonction qui s'apelle "getSpectrum" et qui prend en paramètre
- un pointeur sur le tableau qui contiendra les fréquences
- la précision de la fft (multiple de 2: 64 à 65536 pour fmod je crois)
- le canal (0 pour gauche, 1 pour droit)
- le type de fenêtre à appliquer pour l'analyse (blackman, huffman.....)

Il y a peut-être quelques subtilités si tu fais l'analyse en temps réel sur un signal provenant du micro par exemple, mais je pense que ça concernera surtout l'initialisation de fmod.

Par contre faire de la reconnaissance vocale ce n'est pas seulement récupérer une fréquence, il va falloir que tu fasse une analyse très poussée du signal pour en obtenir quelque chose de cohérent.

Bon courage!

PS: tu codes avec quel langage? si c'est du C# et fmod ex je pourrais même te passer un exemple de code

**moustick1991** · 10/12/2007, 14h52

Bonjour , Tout d'abord merci de ta réponse .

Je code en C sous windows . Pourais-tu me donner d'avantage d'informations s'il te plait (je débute dans le domaine de la reconnaissance):

1 : que signifie : "la précision de la fft (multiple de 2: 64 à 65536 pour fmod)"
2 : que signifie : "le type de fenêtre à appliquer pour l'analyse (blackman, huffman.....)"

3 : Comment récupérer d'avantage d'ifo sur le son enregistré avec fmod

4 : Je sais que ca n'a pas de rapport avec la reconnaissance vocale mais existe-t-il une fonction qui permet de modifier le son émis par la voie avec fmod (ex : voie plus grave , plus aigue sans influer sur la vittesse du redement final comme SetFrequency())

Merci .

**pavicf** · 21/12/2007, 14h21

re, désolé ça fait un moment que je suis pas allé sur le site, d'où le temps de réponse.

Je vais commencer par la fft (au cas où tu verrais pas ce que c'est, même si je pense que tu dois le savoir): c'est une optimisation de la fonction discrète de fourrier. Cette fonction permet de décrire n'importe quel signal (son ou autre) en tant que somme de sinus et de cosinus.
Lorsque tu applique une fft sur un signal (donc sur un tableau contenant les amplitudes d'un signal en fonction du temps dans le context info), tu obtiens un autre tableau qui contiendra une série d'amplitudes de fréquences.

1. la précision de la fft: plus la précision est élevée, plus tu auras de d'amplitudes de fréquences dans le tableau de retour. Si tu demandes une fft avec une précision de 64 par exemple, tu obtiendras un tableau avec 64 valeurs correspondant aux amplitudes de 64 fréquences de ton signal.
Autre chose encore, pour savoir à quelle fréquence correspond quelle case du tableau, tu devra utiliser cette formule:

(Freq_échantillonage / 2) / (précision_fft - i)

où i est la case du tableau que tu veux lire.

2. Lorsque tu fais une analyse de fourrier, tu peux risque d'obtenir des valeurs pas très justes aux extrémités (dans les graves et les aigus). Je ne vais pas rentrer dans les détails du pourquoi, mais du coup il faut compenser cette imprécision. Pour compenser tu utilise ce qu'on apelle une fenêtre.
Une fenêtre est une fonction mathématique qui "lisse" les bords de la fft pour compenser l'imprécision. Il y a différents types de fenêtres (qui ont leurs avantages et inconvénients) permettant de faire ça, dont Blackman & Harris, Huffman....

3. Que veux-tu dire par davantage d'infos? quelles infos particulières tu cherches à récupérer?

4. Si je me souviens bien, ffmod donne des fonctions de filtrage du signal (filtre pass-bande je crois, égaliseur de fréquences peut-être), tu peux jouer avec ça pour changer le timbre de la voix. Par contre si tu veux baisser le ton de la voie, c'est-à-dire en quelque sortes la "note" de la voix, il va falloir que tu crée un algorithme, et là pour que ça rende quelque chose de bien sans demander trop de puissance, ça peut être compliqué.

Voilà, j'espère que ça aura éclaircit quelques points d'ombre.

à bientôt!

Reconnaissance vocale ?

FMOD

Discussions similaires

Partager

Partager