Skip to content

Commit 4572e52

Browse files
committed
Versió 0.7
1 parent 57f5897 commit 4572e52

File tree

1 file changed

+46
-33
lines changed

1 file changed

+46
-33
lines changed

README.md

Lines changed: 46 additions & 33 deletions
Original file line numberDiff line numberDiff line change
@@ -1,63 +1,76 @@
11
# Deepspeech Català
22

3-
An ASR model created with the Mozilla [DeepSpeech](https://github.com/mozilla/DeepSpeech) engine. (Jump to [english](#deepspeech-catalan-asr-model))
3+
An ASR model created with the Mozilla [DeepSpeech](https://github.com/mozilla/DeepSpeech) engine. For a comparison with
4+
other catalan ASR models check the [Catalan Speech Recognition Benchmark](https://github.com/ccoreilly/catalan-speech-recognition-benchmark)
45

56
Model de reconeixement de la parla creat amb el motor [DeepSpeech](https://github.com/mozilla/DeepSpeech) de Mozilla. Us podeu descarregar l'última versió [aquí](https://github.com/ccoreilly/deepspeech-catala/releases).
67

7-
Pots provar el model enviant un missatge vocal al bot de Telegram [DeepSpeechCatalà](https://t.me/DeepSpeechCatalaBot)
8-
98
## Motivació
109

11-
La motivació principal és la d'aprendre, pel que el model evoluciona constantment a mida que vaig fent proves. També tenia curiositat per saber
12-
qué era possible amb el corpus lliure actual de [CommonVoice](https://voice.mozilla.org/ca/datasets) (la resposta hauria de motivar a tothom a contribuïr-hi encara més).
10+
La motivació principal és la d'aprendre, pel que el model evoluciona constantment a mida que vaig fent proves, però també la de contribuïr a millorar la presència del català en les tecnologies de la parla lliures i obertes.
1311

1412
## Com fer-lo servir
1513

1614
Descarregueu-vos el model i l'scorer i feu servir el motor d'inferència deepspeech per a inferir el text d'un arxiu audio (16Hz mono WAV)
1715

1816
```
19-
$ pip install deepspeech@0.7.1
20-
$ deepspeech --model deepspeech-catala-0.6.0.pbmm --scorer kenlm.scorer --audio file.wav
17+
$ pip install deepspeech
18+
$ deepspeech --model deepspeech-catala.pbmm --scorer kenlm.scorer --audio file.wav
2119
```
2220

21+
## Corpus emprats
22+
23+
En la taula comparativa de models es fa referència als següents corpus de veu en català. Alguns s'han
24+
fet servir per entrenar models mentre que altres exclusivament per l'avaluació.
25+
26+
- CV4: Common Voice Corpus 4 (ca_295h_2019-12-10) [[link](https://commonvoice.mozilla.org/ca/datasets)]
27+
- CV5.1: Common Voice Corpus 5.1 (ca_579h_2020-06-22) [[link](https://commonvoice.mozilla.org/ca/datasets)]
28+
- CV6.1: Common Voice Corpus 6.1 (ca_748h_2020-12-11) [[link](https://commonvoice.mozilla.org/ca/datasets)]
29+
- PPC: ParlamentParla Clean de [Col·lectivaT](https://collectivat.cat/asr) [[link](https://www.openslr.org/59/)]
30+
- FC: FestCat [[link](http://festcat.talp.cat/devel.php)]
31+
- GC: Google Crowdsourced [[link](https://www.openslr.org/69/)]
32+
- SJ: Un corpus privat basat en l'audiollibre “La llegenda de Sant Jordi” de Care Santos i Dani Cruz
33+
34+
## Models de llenguatge (Scorer)
35+
36+
També anomenat "Scorer" al DeepSpeech, ja que "puntua" la probabilitat que una paraula vingui després d'una altra. Els [models de llenguatge](https://ca.wikipedia.org/wiki/Model_de_llenguatge) que es fan servir habitualment en el reconeixement de la parla són N-Grames que representen la probabilitat de subcadenes de paraules de mida n on 1 ≤ n ≤ N.
37+
38+
Un mateix model acústic donarà diferents resultats segons el model de llenguatge que fem servir i és aconsellable adaptar el model de llenguatge al domini
39+
lingüístic de la nostra aplicació. Durant l'entrenament i l'avaluació dels diferents models he anat provant diferents models de llenguatge basats en conjunts de dades que podeu trobar al directori `lm` d'aquest repositori.
40+
2341
## Comparativa de models
2442

25-
A continuació una comparativa de les diferents versions del model, el corpus emprat i el resultats de l'avaluació.
43+
A continuació una comparativa de les diferents versions del model, el corpus i scorer emprats i el resultats de l'avaluació (WER).
2644

27-
Les versions anteriors a la 0.4.0 feien servir un alfabet sense vocals accentuades pel que no es consideren representatius.
45+
Les versions anteriors a la 0.4.0 feien servir un alfabet sense vocals accentuades pel que no es consideren en la comparativa.
2846

29-
### Corpus d'avaluació ParlamentParla
47+
### WER del dataset test de cada model
3048

31-
Nota: Per la versió 0.6.0 del model vaig combinar el corpus complet (train, dev i test) de CommonVoice amb el de [ParlamentParlaClean](https://collectivat.cat/asr) per després barrejar-lo i dividir-lo en tres sets: train (75%), dev (20%) i test(5%). D'aquesta manera s'ha augmentat el nombre de dades d'entrenament. Com que degut a això el set test conté dades del corpus CommonVoice que podrien haver estat emprades en l'entrenament dels altres models, s'han avaluat tots els models exclusivament amb 1713 frases que cap model ha mai vist (totes del corpus ParlamentParlaClean).
49+
El dataset test de cada model és diferent pel que no es poden comparar entre sí però s'afegeix a mode de documentació.
3250

33-
| Model | Corpus | Dades augmentades? | WER | CER | Loss |
34-
| --------------------------------------------------------------------- | --------------------------------- | ------------------ | ------ | ------ | ------ |
35-
| [email protected] | CommonVoice | No | 30,16% | 13,79% | 112,96 |
36-
| [email protected] | CommonVoice || 29,66% | 13,84% | 108,52 |
37-
| [email protected] | CommonVoice + ParlamentParlaClean | No | 13,85% | 5,62% | 50,49 |
38-
| [stashify@deepspeech_cat](https://github.com/stashify/deepspeech_cat) | CommonVoice? || 22,62% | 13,59% | 80,45 |
3951

40-
### Corpus d'avaluació [FestCat](http://festcat.talp.cat/devel.php)
52+
| Model | Model Base | Dropped layers | Versió DeepSpeech | Corpus | Scorer | WER |
53+
| ----- | ------------ | -------------- | ----------------- | ---------------- | ------ | ------ |
54+
| 0.4 | Anglès 0.7.0 | 1 | 0.7.0 | CV4 | Oscar | 30,16% |
55+
| 0.5 | Anglès 0.7.0 | 1 | 0.7.0 | CV4 | Oscar | 29,66% |
56+
| 0.6 | Anglès 0.7.0 | 1 | 0.7.0 | CV4 + PPC | Oscar | 13,85% |
57+
| 0.7 | Anglès 0.7.2 | 1 | 0.7.0 | CV4 + PPC + FC | TV3 | 16,95% |
4158

42-
| Model | Corpus | Dades augmentades? | WER | CER | Loss |
43-
| --------------------------------------------------------------------- | --------------------------------- | ------------------ | ------ | ------ | ------ |
44-
| [email protected] | CommonVoice | No | 77,60% | 65,62% | 243,25 |
45-
| [email protected] | CommonVoice || 78,12% | 65,61% | 235,60 |
46-
| [email protected] | CommonVoice + ParlamentParlaClean | No | 76,10% | 65,16% | 240,69 |
47-
| [stashify@deepspeech_cat](https://github.com/stashify/deepspeech_cat) | CommonVoice? || 80,58% | 66,82% | 180,81 |
59+
### WER del corpus Google Crowdsourced
4860

49-
Aquesta avaluació demostra com el models no generalitzen gaire bé.
61+
| Model | Model Base | Dropped layers | Versió DeepSpeech | Corpus | Scorer | WER |
62+
| ----- | ------------ | -------------- | ----------------- | ---------------- | ------ | ------ |
63+
| 0.6 | Anglès 0.7.0 | 1 | 0.7.0 | CV4 + PPC | Oscar* | 12,75% |
64+
| 0.7 | Anglès 0.7.2 | 1 | 0.7.0 | CV4 + PPC + FC | TV3 | 21,69% |
5065

51-
El corpus FestCat té una variablititat major pel que fa al nombre de paraules per frase, amb el 90% entre 2 i 23 paraules, mentre que en el corpus de CommonVoice la major part de les frases contenen entre 3 i 16 paraules.
66+
(*) L'scorer Oscar conté les probabilitats extretes de les transcripcions del dataset pel que la WER està esbiaixada.
5267

53-
Com era d'esperar, avaluant els models només amb les frases del corpus d'avaluació que contenen 4 o més paraules el resultat millora:
68+
### WER del corpus Sant Jordi
5469

55-
| Model | Corpus | Dades augmentades? | WER | CER | Loss |
56-
| --------------------------------------------------------------------- | --------------------------------- | ------------------ | ------ | ------ | ------ |
57-
| [email protected] | CommonVoice | No | 58,78% | 46,61% | 193,85 |
58-
| [email protected] | CommonVoice || 58,94% | 46,47% | 188,42 |
59-
| [email protected] | CommonVoice + ParlamentParlaClean | No | 56,68% | 46,00% | 189,03 |
60-
| [stashify@deepspeech_cat](https://github.com/stashify/deepspeech_cat) | CommonVoice? || 61,11% | 48,16% | 144,78 |
70+
| Model | Model Base | Dropped layers | Versió DeepSpeech | Corpus | Scorer | WER |
71+
| ----- | ------------ | -------------- | ----------------- | ---------------- | ------ | ------ |
72+
| 0.6 | Anglès 0.7.0 | 1 | 0.7.0 | CV4 + PPC | Oscar | 28,45% |
73+
| 0.7 | Anglès 0.7.2 | 1 | 0.7.0 | CV4 + PPC + FC | TV3 | 44,88% |
6174

6275
## Possibles següents passos
6376

0 commit comments

Comments
 (0)