Как получить мелкозернистую srt с меньшим временным разрешением из облачной речи Google в текстовый API? - Цифровое Кемерово

Как получить мелкозернистую srt с меньшим временным разрешением из облачной речи Google в текстовый API? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как получить мелкозернистую srt с меньшим временным разрешением из облачной речи Google в текстовый API?

Цитата

Сообщение Anonymous » 06 окт 2024, 04:57

У меня есть рабочий код на Python, который генерирует файл srt, используя преобразование речи Google Cloud в текст.
from google.api_core.client_options import ClientOptions
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
import json
from google.protobuf.json_format import MessageToDict

MAX_AUDIO_LENGTH_SECS = 8 * 60 * 60

def run_batch_recognize():
# Instantiates a client.
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
),
)

# The name of the audio file to transcribe:
audio_gcs_uri = ""

config = cloud_speech.RecognitionConfig(
explicit_decoding_config=cloud_speech.ExplicitDecodingConfig(
encoding=cloud_speech.ExplicitDecodingConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
audio_channel_count=1,
),
features=cloud_speech.RecognitionFeatures(
enable_word_confidence=True,
enable_word_time_offsets=True,
enable_automatic_punctuation=True,
max_alternatives=5,
),
# model="chirp_2",
model="short",
language_codes=["en-US"],
)

output_config = cloud_speech.RecognitionOutputConfig(
inline_response_config=cloud_speech.InlineOutputConfig(),
output_format_config=cloud_speech.OutputFormatConfig(
srt=cloud_speech.SrtOutputFileFormatConfig()
),
)

files = [cloud_speech.BatchRecognizeFileMetadata(uri=audio_gcs_uri)]

request = cloud_speech.BatchRecognizeRequest(
recognizer="",
config=config,
files=files,
recognition_output_config=output_config,
)
operation = client.batch_recognize(request=request)

print("Waiting for operation to complete...")
response = operation.result(timeout=3 * MAX_AUDIO_LENGTH_SECS)
# print(response)

# Convert the protobuf response to a dictionary using MessageToDict
response_dict = MessageToDict(response._pb)

# Print the response as a formatted JSON string
print(json.dumps(response_dict, indent=2))

# Extract the SRT captions
srt_output = response_dict["results"][audio_gcs_uri]["inlineResult"]["srtCaptions"]

# Print the SRT output
print("SRT Captions:\n")
print(srt_output)

run_batch_recognize()

И он генерирует достойный SRT-контент, например:
1
00:00:00,040 --> 00:00:02,960
The sun set over the horizon
painting the sky and hues of

2
00:00:02,960 --> 00:00:06,440
orange and pink. A gentle breeze
swept through the trees carrying

3
00:00:06,440 --> 00:00:10,440
the scent of fresh pine. It was
the perfect evening to unwind
and relax.

Однако можно ли каким-то образом попросить Google API генерировать SRT-контент, чтобы в любой момент времени было только одно или два слова? Примерно так:
1
00:00:00,040 --> 00:00:00,540
The

2
00:00:00,540 --> 00:00:01,040
sun

3
00:00:01,040 --> 00:00:01,540
set

Подробнее здесь: https://stackoverflow.com/questions/790 ... -speech-to

Реклама

1728179874

Anonymous

У меня есть рабочий код на Python, который генерирует файл srt, используя преобразование речи Google Cloud в текст.
from google.api_core.client_options import ClientOptions
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
import json
from google.protobuf.json_format import MessageToDict

MAX_AUDIO_LENGTH_SECS = 8 * 60 * 60

def run_batch_recognize():
# Instantiates a client.
client = SpeechClient(
client_options=ClientOptions(
api_endpoint="us-central1-speech.googleapis.com",
),
)

# The name of the audio file to transcribe:
audio_gcs_uri = ""

config = cloud_speech.RecognitionConfig(
explicit_decoding_config=cloud_speech.ExplicitDecodingConfig(
encoding=cloud_speech.ExplicitDecodingConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=24000,
audio_channel_count=1,
),
features=cloud_speech.RecognitionFeatures(
enable_word_confidence=True,
enable_word_time_offsets=True,
enable_automatic_punctuation=True,
max_alternatives=5,
),
# model="chirp_2",
model="short",
language_codes=["en-US"],
)

output_config = cloud_speech.RecognitionOutputConfig(
inline_response_config=cloud_speech.InlineOutputConfig(),
output_format_config=cloud_speech.OutputFormatConfig(
srt=cloud_speech.SrtOutputFileFormatConfig()
),
)

files = [cloud_speech.BatchRecognizeFileMetadata(uri=audio_gcs_uri)]

request = cloud_speech.BatchRecognizeRequest(
recognizer="",
config=config,
files=files,
recognition_output_config=output_config,
)
operation = client.batch_recognize(request=request)

print("Waiting for operation to complete...")
response = operation.result(timeout=3 * MAX_AUDIO_LENGTH_SECS)
# print(response)

# Convert the protobuf response to a dictionary using MessageToDict
response_dict = MessageToDict(response._pb)

# Print the response as a formatted JSON string
print(json.dumps(response_dict, indent=2))

# Extract the SRT captions
srt_output = response_dict["results"][audio_gcs_uri]["inlineResult"]["srtCaptions"]

# Print the SRT output
print("SRT Captions:\n")
print(srt_output)

run_batch_recognize()

И он генерирует достойный SRT-контент, например:
1
00:00:00,040 --> 00:00:02,960
The sun set over the horizon
painting the sky and hues of

2
00:00:02,960 --> 00:00:06,440
orange and pink. A gentle breeze
swept through the trees carrying

3
00:00:06,440 --> 00:00:10,440
the scent of fresh pine. It was
the perfect evening to unwind
and relax.

[b]Однако можно ли каким-то образом попросить Google API генерировать SRT-контент, чтобы в любой момент времени было только одно или два слова? Примерно так:[/b]
1
00:00:00,040 --> 00:00:00,540
The

2
00:00:00,540 --> 00:00:01,040
sun

3
00:00:01,040 --> 00:00:01,540
set
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79058228/how-to-get-fine-grained-smaller-time-resolution-srt-from-google-cloud-speech-to[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Преобразование речи в текст, API речи Java, где его найти?

Последнее сообщение Anonymous « 23 окт 2024, 16:17
Добавлено в форуме JAVA

Anonymous » 23 окт 2024, 16:17 » в форуме JAVA

Мне нужно распознавание речи, поэтому API речи Java кажется довольно хорошим решением моей проблемы с поиском подходящего API. Я попробовал API Sphinx-4, но не смог найти никаких JAR-файлов в загруженном мной пакете PreAlpha.zip. Я смог найти только...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 16:17
Проблема преобразования речи в текст и речи в веб-плеере

Последнее сообщение Гость « 19 сен 2023, 19:16
Добавлено в форуме Javascript

Гость » 19 сен 2023, 19:16 » в форуме Javascript

Я работаю над функциональностью, которую можно будет подключить к веб-видеоплееру, в данном случае JW Player, где пользователь выбирает язык, и звук будет обрабатываться с помощью моего специального API перевода 1.) Преобразование речи в текст и 2.)...

0 Ответы

141 Просмотры

Последнее сообщение Гость
19 сен 2023, 19:16
Как настроить Google TTS SSML в соответствии с оригинальным временем SRT?

Последнее сообщение Anonymous « 02 апр 2025, 19:22
Добавлено в форуме Python

Anonymous » 02 апр 2025, 19:22 » в форуме Python

У меня есть файл .srt, где каждый сегмент речи должен длиться определенную продолжительность (например, 4 секунды). Однако, когда я генерирую речь, используя Google Text-Sweek (TTS) с SSML, полученный звук воспроизводит один и тот же сегмент за...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
02 апр 2025, 19:22
Как использовать Azure речи в текстовый API, чтобы сделать результат транскрипта для арабских аудио

Последнее сообщение Anonymous « 09 фев 2025, 12:15
Добавлено в форуме C#

Anonymous » 09 фев 2025, 12:15 » в форуме C#

Я использовал Azure речи для текстового API, чтобы получить текст из аудио, я использовал арабский аудио, результат API, текст, не соответствует речи в аудиофайлах. Как улучшить результат в соответствии с речью в аудио? Результат API Текст не...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
09 фев 2025, 12:15
Вызов API Google в облачной функции с аутентификацией

Последнее сообщение Anonymous « 05 ноя 2024, 15:16
Добавлено в форуме Python

Anonymous » 05 ноя 2024, 15:16 » в форуме Python

Я пытаюсь вызвать API Dataform из облачной функции, однако предоставляемый мной токен идентификации возвращается с сообщением «Запрос содержит неверные учетные данные для аутентификации». Ожидаемый токен доступа OAuth 2, файл cookie для входа или...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
05 ноя 2024, 15:16

Вернуться в «Python»

Programmiererforum