Ai-Swaper/README.md

# FaceSwap Batch Tool

Tauscht Gesichter lokal in Bildern und Videos mit InsightFace.

## Start (einmalig Setup + danach normaler Start)

```bash
python face_swap.py
```

Beim ersten Start werden Pakete geprueft und Modelle geladen:
- `buffalo_l` (Face Detection/Embedding)
- `inswapper_128.onnx` (Face Swap)

## Bedienung

### Bilder (Batch)
1. Quellbild waehlen
2. Eingabe-Ordner waehlen
3. Ausgabe-Ordner waehlen
4. Starten

### Video (Batch)
1. Quellbild waehlen
2. Video-Eingabe-Ordner waehlen
3. Video-Ausgabe-Ordner waehlen
4. Starten

Alle unterstuetzten Videos im Eingabe-Ordner werden nacheinander verarbeitet und als `<name>_faceswap.mp4` gespeichert.

### Stimme klonen
1. Referenz-Stimme waehlen (die Zielstimme)
2. Modus waehlen:
   - `Text -> Stimme` (Text in geklonter Stimme sprechen)
   - `Audio -> Stimme` (ein Audio in die Zielstimme konvertieren)
3. Ausgabe-Audio waehlen (`.wav`)
4. Starten

## Verbesserte Erkennung

Die App nutzt jetzt eine robustere Face-Erkennung:
- hoehere Detection-Aufloesung (je nach CPU/GPU)
- niedrigere Detection-Schwelle fuer bessere Trefferquote
- zusaetzlicher Upscale-Fallback bei schwierigen/kleinen Gesichtern

## Formate

- Bilder: `.jpg`, `.jpeg`, `.png`, `.bmp`, `.webp`
- Videos: `.mp4`, `.avi`, `.mov`, `.mkv`, `.wmv`, `.webm`, `.flv`

## Hinweise

- Alles laeuft lokal, keine Uploads.
- Mit `ffmpeg` bleibt Video-Audio erhalten.
- Dateien ohne erkennbares Gesicht werden in den jeweiligen `failed`-Ordner kopiert (Bilder und nur bei Fehlern auch Videos).
- Voice-Cloning nutzt Coqui XTTS/FreeVC. Falls es fehlt: `python -m pip install coqui-tts torch torchaudio`