Примечание. На любой дорожке могут быть дополнительные или отсутствующие начала. .
Я нашел некоторую информацию о взаимной корреляции (например, https://dsp.stackexchange.com/questions ... ent-cross- корреляция-чтобы-доказать-два-аудио-файла-похожи), что выглядело многообещающе.
Я предположил, что каждая звуковая дорожка длится 10 секунд, и представлял собой звуковой сигнал начинается в виде пиков «прямоугольной волны» с частотой дискретизации 44,1 кГц:
Код: Выделить всё
import numpy as np
rfft = np.fft.rfft
irfft = np.fft.irfft
track_1 = np.array([..., 5.2, 5.5, 7.0, ...])
# The onset in track_2 at 8.0 is "extra," it has no
# corresponding onset in track_1
track_2 = np.array([..., 7.2, 7.45, 8.0, 9.0, ...])
frequency = 44100
num_samples = 10 * frequency
wave_1 = np.zeros(num_samples)
wave_1[(track_1 * frequency).astype(int)] = 1
wave_2 = np.zeros(num_samples)
wave_2[(track_2 * frequency).astype(int)] = 1
xcor = irfft(rfft(wave_1) * np.conj(rfft(wave_2)))
offset = xcor.argmax()
Изменить: добавлено примечание об отсутствующих и дополнительных началах.
Подробнее здесь: https://stackoverflow.com/questions/398 ... timestamps