Add audio to video conditioning

2026-03-16 01:42:11 +01:00
parent f53b9e0807
commit 6f6105b715
7 changed files with 623 additions and 62 deletions
--- a/mlx_video/models/ltx/audio_vae/init.py
+++ b/mlx_video/models/ltx/audio_vae/init.py
@@ -1,7 +1,8 @@
 """Audio VAE module for LTX-2 audio generation."""

 from .attention import AttentionType, AttnBlock, make_attn
-from .audio_vae import AudioDecoder, decode_audio
+from .audio_vae import AudioDecoder, AudioEncoder, decode_audio
+from .audio_processor import load_audio, ensure_stereo, waveform_to_mel
 from .causal_conv_2d import CausalConv2d, make_conv2d
 from ..config import CausalityAxis
 from .downsample import Downsample, build_downsampling_path
@@ -13,10 +14,15 @@ from .vocoder import Vocoder, load_vocoder

 __all__ = [
    # Main components
+    "AudioEncoder",
    "AudioDecoder",
    "Vocoder",
    "load_vocoder",
    "decode_audio",
+    # Audio processing
+    "load_audio",
+    "ensure_stereo",
+    "waveform_to_mel",
    # Ops
    "AudioLatentShape",
    "AudioPatchifier",