transcription/config.yaml

49 lines
1.6 KiB
YAML
Raw Normal View History

# Конфигурация пайплайна транскрибации совещаний
# Профили оборудования
profiles:
# Текущий: MacBook Air M4, 16GB RAM
mac_m4:
device: cpu # MPS на Mac может быть медленнее/багован; CPU + int8 стабильнее
compute_type: int8
batch_size: 2 # Оптимум для CPU (1.2-1.3x быстрее, RAM ~4.5 GB)
model: large-v3
language: ru
diarize: true
# Будущий: GPU с 8GB VRAM
gpu_8gb:
device: cuda
compute_type: float16 # или int8 если не хватает памяти
batch_size: 1 # large-v3 + alignment + diarization в ~8GB
model: large-v3
language: ru
diarize: true
# Универсальный CPU (без GPU)
cpu_best:
device: cpu
compute_type: int8
batch_size: 1
model: large-v3
language: ru
diarize: true
# Активный профиль (можно переопределить через CLI: --profile gpu_8gb)
active_profile: mac_m4
# Настройки диаризации
hf_token: null # HuggingFace токен для pyannote. Установите через env: HF_TOKEN
# Настройки выходного документа
output:
formats: [docx, md] # Список форматов: docx, md, txt. Можно указать один или несколько.
include_timestamps: true
speaker_label_style: name # name | id | none
paragraph_pause_sec: 2.0 # новый абзац, если пауза > N секунд
# Пути
paths:
output_dir: ./output
temp_dir: ./tmp