Генерация видео с моделью SUNO/BARK и FFMPEG с изображениями, хранящимися в папке изображений

Генерация видео с моделью SUNO/BARK и FFMPEG с изображениями, хранящимися в папке изображений ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Генерация видео с моделью SUNO/BARK и FFMPEG с изображениями, хранящимися в папке изображений

Цитата

Сообщение Anonymous » 03 июл 2025, 21:00

Я сталкиваюсь с проблемой в FFMPEG при запуска приведенного ниже кода
Я работаю над приложением колбы, которое генерирует видео, комбинируя последовательность изображений из папки и синтезированную звуковую дорожку с использованием коры (Suno /Bark-Small). Идея состоит в том, чтобы использовать FFMPEG для сшивания изображений в видео, применять накладку и масштабирование, а затем объединить его с помощью сгенерированного звука. Я запускаю конечную точку /генерировать видео с простым запросом на пост, передавая сценарий, который преобразуется в аудио. В то время как изображение и обработка аудио работают, как и ожидалось, FFMPEG не работает во время выполнения, а сервер возвращает ошибку 500. Я добавил регистрацию ошибок, чтобы захватить выход FFMPEG STDERR, который предполагает, что что -то идет не так либо с генерируемым файлом input.txt, либо с форматом входов, передаваемых FFMPEG. Я не уверен, связана ли проблема с путями файлов, форматированием Concat Demuxer или, возможно, несоответствием длительности аудио/видео. Любое понимание того, как отладить или исправить команду FFMPEG, будет оценено.curl -X POST http://localhost:5000/generate-video \
-H "Content-Type: application/json" \
-d '{"script": "Hello, this is a test script to generate a video."}' \
--output output_video.mp4

< /code>
import os
import uuid
import subprocess
from pathlib import Path
import numpy as np
from flask import Flask, request, jsonify, send_file
from transformers import AutoProcessor, AutoModelForTextToWaveform
from scipy.io.wavfile import write as write_wav
import torch

# ========== CONFIG ==========
IMAGE_FOLDER = "./images"
OUTPUT_FOLDER = "./output"
RESOLUTION = (1280, 720)
IMAGE_DURATION = 3 # seconds per image
SAMPLE_RATE = 24000

app = Flask(__name__)
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

# Load Bark-small model and processor
device = "cuda" if torch.cuda.is_available() else "cpu"
processor = AutoProcessor.from_pretrained("suno/bark-small")
model = AutoModelForTextToWaveform.from_pretrained("suno/bark-small").to(device)

# ========== UTILS ==========
def run_ffmpeg(cmd):
result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
if result.returncode != 0:
print("[FFmpeg ERROR]\n", result.stderr.decode())
raise RuntimeError("FFmpeg failed.")
else:
print("[FFmpeg] Success.")

def find_images(folder):
return sorted([
f for f in Path(folder).glob("*")
if f.suffix.lower() in {".jpg", ".jpeg", ".png"}
])

def create_ffmpeg_input_list(images, list_file_path):
with open(list_file_path, "w") as f:
for img in images:
f.write(f"file '{img.resolve()}'\n")
f.write(f"duration {IMAGE_DURATION}\n")
# Repeat last image to avoid cutoff
f.write(f"file '{images[-1].resolve()}'\n")

# ========== FLASK ROUTE ==========
@app.route('/generate-video', methods=['POST'])
def generate_video():
data = request.get_json()
script = data.get("script")
if not script:
return jsonify({"error": "No script provided"}), 400

images = find_images(IMAGE_FOLDER)
if not images:
return jsonify({"error": "No images found in ./images"}), 400

# Generate audio
print("[1/3] Generating audio with Bark...")
inputs = processor(script, return_tensors="pt").to(device)
with torch.no_grad():
audio_values = model.generate(**inputs)

audio_np = audio_values[0].cpu().numpy().squeeze()
audio_np = np.clip(audio_np, -1.0, 1.0)
audio_int16 = (audio_np * 32767).astype(np.int16)

audio_path = os.path.join(OUTPUT_FOLDER, f"{uuid.uuid4()}.wav")
write_wav(audio_path, SAMPLE_RATE, audio_int16)

# Create FFmpeg concat file
print("[2/3] Preparing image list for FFmpeg...")
list_file = os.path.join(OUTPUT_FOLDER, "input.txt")
create_ffmpeg_input_list(images, list_file)

# Final video path
final_video_path = os.path.join(OUTPUT_FOLDER, f"{uuid.uuid4()}.mp4")

# Run FFmpeg
print("[3/3] Running FFmpeg to create video...")
ffmpeg_cmd = [
"ffmpeg", "-y",
"-f", "concat", "-safe", "0", "-i", list_file,
"-i", audio_path,
"-vf", f"scale={RESOLUTION[0]}:{RESOLUTION[1]}:force_original_aspect_ratio=decrease,"
f"pad={RESOLUTION[0]}:{RESOLUTION[1]}:(ow-iw)/2:(oh-ih)/2:color=black",
"-c:v", "libx264", "-pix_fmt", "yuv420p",
"-c:a", "aac", "-b:a", "192k",
"-shortest", "-movflags", "+faststart",
final_video_path
]

try:
run_ffmpeg(ffmpeg_cmd)
except RuntimeError:
return jsonify({"error": "FFmpeg failed. Check server logs."}), 500

return send_file(final_video_path, as_attachment=True)

# ========== RUN APP ==========
if __name__ == '__main__':
app.run(debug=True)

Подробнее здесь: https://stackoverflow.com/questions/796 ... -images-fo

1751565625

Anonymous

 Я сталкиваюсь с проблемой в FFMPEG при запуска приведенного ниже кода
Я работаю над приложением колбы, которое генерирует видео, комбинируя последовательность изображений из папки и синтезированную звуковую дорожку с использованием коры (Suno /Bark-Small). Идея состоит в том, чтобы использовать FFMPEG для сшивания изображений в видео, применять накладку и масштабирование, а затем объединить его с помощью сгенерированного звука. Я запускаю конечную точку /генерировать видео с простым запросом на пост, передавая сценарий, который преобразуется в аудио. В то время как изображение и обработка аудио работают, как и ожидалось, FFMPEG не работает во время выполнения, а сервер возвращает ошибку 500. Я добавил регистрацию ошибок, чтобы захватить выход FFMPEG STDERR, который предполагает, что что -то идет не так либо с генерируемым файлом input.txt, либо с форматом входов, передаваемых FFMPEG. Я не уверен, связана ли проблема с путями файлов, форматированием Concat Demuxer или, возможно, несоответствием длительности аудио/видео.  Любое понимание того, как отладить или исправить команду FFMPEG, будет оценено.curl -X POST http://localhost:5000/generate-video \
-H "Content-Type: application/json" \
-d '{"script": "Hello, this is a test script to generate a video."}' \
--output output_video.mp4

< /code>
import os
import uuid
import subprocess
from pathlib import Path
import numpy as np
from flask import Flask, request, jsonify, send_file
from transformers import AutoProcessor, AutoModelForTextToWaveform
from scipy.io.wavfile import write as write_wav
import torch

# ========== CONFIG ==========
IMAGE_FOLDER = "./images"
OUTPUT_FOLDER = "./output"
RESOLUTION = (1280, 720)
IMAGE_DURATION = 3  # seconds per image
SAMPLE_RATE = 24000

app = Flask(__name__)
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

# Load Bark-small model and processor
device = "cuda" if torch.cuda.is_available() else "cpu"
processor = AutoProcessor.from_pretrained("suno/bark-small")
model = AutoModelForTextToWaveform.from_pretrained("suno/bark-small").to(device)

# ========== UTILS ==========
def run_ffmpeg(cmd):
result = subprocess.run(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
if result.returncode != 0:
print("[FFmpeg ERROR]\n", result.stderr.decode())
raise RuntimeError("FFmpeg failed.")
else:
print("[FFmpeg] Success.")

def find_images(folder):
return sorted([
f for f in Path(folder).glob("*")
if f.suffix.lower() in {".jpg", ".jpeg", ".png"}
])

def create_ffmpeg_input_list(images, list_file_path):
with open(list_file_path, "w") as f:
for img in images:
f.write(f"file '{img.resolve()}'\n")
f.write(f"duration {IMAGE_DURATION}\n")
# Repeat last image to avoid cutoff
f.write(f"file '{images[-1].resolve()}'\n")

# ========== FLASK ROUTE ==========
@app.route('/generate-video', methods=['POST'])
def generate_video():
data = request.get_json()
script = data.get("script")
if not script:
return jsonify({"error": "No script provided"}), 400

images = find_images(IMAGE_FOLDER)
if not images:
return jsonify({"error": "No images found in ./images"}), 400

# Generate audio
print("[1/3] Generating audio with Bark...")
inputs = processor(script, return_tensors="pt").to(device)
with torch.no_grad():
audio_values = model.generate(**inputs)

audio_np = audio_values[0].cpu().numpy().squeeze()
audio_np = np.clip(audio_np, -1.0, 1.0)
audio_int16 = (audio_np * 32767).astype(np.int16)

audio_path = os.path.join(OUTPUT_FOLDER, f"{uuid.uuid4()}.wav")
write_wav(audio_path, SAMPLE_RATE, audio_int16)

# Create FFmpeg concat file
print("[2/3] Preparing image list for FFmpeg...")
list_file = os.path.join(OUTPUT_FOLDER, "input.txt")
create_ffmpeg_input_list(images, list_file)

# Final video path
final_video_path = os.path.join(OUTPUT_FOLDER, f"{uuid.uuid4()}.mp4")

# Run FFmpeg
print("[3/3] Running FFmpeg to create video...")
ffmpeg_cmd = [
"ffmpeg", "-y",
"-f", "concat", "-safe", "0", "-i", list_file,
"-i", audio_path,
"-vf", f"scale={RESOLUTION[0]}:{RESOLUTION[1]}:force_original_aspect_ratio=decrease,"
f"pad={RESOLUTION[0]}:{RESOLUTION[1]}:(ow-iw)/2:(oh-ih)/2:color=black",
"-c:v", "libx264", "-pix_fmt", "yuv420p",
"-c:a", "aac", "-b:a", "192k",
"-shortest", "-movflags", "+faststart",
final_video_path
]

try:
run_ffmpeg(ffmpeg_cmd)
except RuntimeError:
return jsonify({"error": "FFmpeg failed. Check server logs."}), 500

return send_file(final_video_path, as_attachment=True)

# ========== RUN APP ==========
if __name__ == '__main__':
app.run(debug=True)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79689292/video-generation-with-suno-bark-model-and-ffmpeg-with-images-stored-in-images-fo[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

RuntimeError при попытке запустить Suno/Bark-Small на GPU

Последнее сообщение Anonymous « 26 июл 2025, 12:26
Добавлено в форуме Python

Anonymous » 26 июл 2025, 12:26 » в форуме Python

Когда я запускаю:
from transformers import AutoProcessor, BarkModel
import os
from scipy.io.wavfile import write as write_wav

CUDA_VISIBLE_DEVICES=0
os.environ = True
os.environ = True

def bark():
processor = AutoProcessor.from_pretrained(...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
26 июл 2025, 12:26
WebView: загрузка локального веб-сайта с каталогами, файлами CSS, файлами HTML и т. д., хранящимися в папке внутри ресур

Последнее сообщение Anonymous « 27 июл 2024, 22:27
Добавлено в форуме Android

Anonymous » 27 июл 2024, 22:27 » в форуме Android

В Android возможно загрузить сложный веб-сайт, хранящийся в папке внутри папки ресурсов Android, с файлами HTML, JavaScript, CSS, изображениями и т. д.?
Каков наилучший подход? добиться этого?
Какие ограничения это будет иметь?

Подробнее здесь:

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
27 июл 2024, 22:27
У меня есть проблема с моим аудиокодиком FFMPEG FFMPEG FFMPEG

Последнее сообщение Anonymous « 31 мар 2025, 15:41
Добавлено в форуме C++

Anonymous » 31 мар 2025, 15:41 » в форуме C++

Я пытался сделать повторную выборку с FFMPEG, но я все время обнаруживал проблемы в своем коде. /> Поэтому я поместил код повторной выборки вручную, потому что я знаю, что стерео. av_opt_set_sample_fmt(swr_ctx, in_sample_fmt , codec_ctx->sample_fmt,...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
31 мар 2025, 15:41
Генерация видео и FFMPEG и локально хранящиеся изображения

Последнее сообщение Anonymous « 04 июл 2025, 00:06
Добавлено в форуме Python

Anonymous » 04 июл 2025, 00:06 » в форуме Python

Я сталкиваюсь с проблемой в FFMPEG при запуске приведенного ниже кода
Я работаю над приложением колбы, которое генерирует видео, объединяя последовательность изображений из папки и синтезированной аудио-трека с использованием Bark...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
04 июл 2025, 00:06
Pytorch не работает с обученной моделью + предварительно обученной моделью (Intel Open Vino)

Последнее сообщение Гость « 29 фев 2024, 09:54
Добавлено в форуме Python

Гость » 29 фев 2024, 09:54 » в форуме Python

def CLASAAAAABOX(CLASAAAAA,frame): frameHeight=frame.shape FrameWidth=frame.shape blob=cv2.dnn.blobFromImage(frame, 1.0, (672 384), swapRB=False, обрезка=True) CLASAAAAA.setInput(блоб) обнаружение = CLASAAAAA.forward() bboxs=[] для я в диапазоне...

0 Ответы

102 Просмотры

Последнее сообщение Гость
29 фев 2024, 09:54

Вернуться в «Python»