Aplikacja do transkrypcji audio z możliwością wyboru między dwoma typami modeli AI:
- Faster Whisper - szybki model z wyborem rozmiaru (tiny/base/small/medium/large-v3)
- NVIDIA Parakeet v3 - nowoczesny, wielojęzyczny model
- ✅ Transkrypcja plików audio (drag & drop)
- ✅ Nagrywanie na żywo z mikrofonu
- ✅ Wybór modelu AI (Whisper lub Parakeet v3)
- ✅ Opcje formatowania (z/bez timecodów)
- ✅ Automatyczne wykrywanie języka
- ✅ Obsługa GPU (CUDA) dla szybszej transkrypcji
- ✅ Automatyczne pobieranie brakujących bibliotek
- ✅ Zapisywanie wyników w folderze
output - ✅ Ciche działanie (wyciszone logi bibliotek)
pip install sounddevice numpypip install librosa
# lub
pip install soundfilepip install faster-whisperpip install nemo_toolkit[asr]pip install -r requirements.txt- Tryb mikrofonu: Uruchom
easyscribe.batlubpython easyscribe.py - Tryb pliku: Przeciągnij plik audio na
easyscribe.bat
Aplikacja automatycznie wykryje i zainstaluje brakujące biblioteki przy pierwszym uruchomieniu.
Po uruchomieniu aplikacja zapyta o wybór modelu:
- 1 - Faster Whisper (następnie wybierz rozmiar: tiny/base/small/medium/large-v3)
- 2 - NVIDIA Parakeet v3 (nowoczesny, wielojęzyczny)
- Audio:
.wav,.mp3,.m4a,.flac,.ogg,.aac - Wideo:
.mp4,.mkv,.avi,.mov
| Model | Rozmiar | Zalety | Wady |
|---|---|---|---|
| Faster Whisper | tiny | - Najszybszy - Najmniejsze zużycie RAM |
- Najmniej dokładny |
| base | - Szybki - Dobra jakość |
- Średnie zużycie zasobów | |
| small | - Średnia szybkość - Lepsza jakość |
- Większe zużycie zasobów | |
| medium | - Wolniejszy - Wysoka jakość |
- Duże zużycie zasobów | |
| large-v3 | - Najwyższa jakość | - Najwolniejszy - Największe zużycie RAM |
|
| Parakeet v3 | - | - Bardzo wysoka dokładność - Wielojęzyczny - Automatyczne wykrywanie języka |
- Wymaga NeMo - Większe zużycie zasobów |
transcribe py/
├── easyscribe.py # Główna aplikacja
├── easyscribe.bat # Skrypt uruchamiający
├── requirements.txt # Lista zależności
├── README.md # Ta dokumentacja
├── models/ # Katalog na modele AI
└── output/ # Katalog z transkrypcjami
Jeśli CUDA nie jest dostępne, aplikacja automatycznie przełączy się na CPU (może być wolne).
Jeśli brakuje nemo_toolkit[asr], aplikacja automatycznie przełączy się na Whisper.
Domyślnie logi NeMo są wyciszone. Aby je włączyć, ustaw zmienną środowiskową:
set SHOW_NEMO_LOGS=1
easyscribe.batSprawdź czy masz zainstalowane odpowiednie biblioteki audio (librosa lub soundfile).
Aplikacja wykorzystuje otwarte modele AI:
- Faster Whisper: MIT License
- NVIDIA Parakeet v3: Apache 2.0 License