Используйте потоки для UDF в данных DataBricks, чтобы использовать новый токен API

Используйте потоки для UDF в данных DataBricks, чтобы использовать новый токен API ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Используйте потоки для UDF в данных DataBricks, чтобы использовать новый токен API

Цитата

Сообщение Anonymous » 11 июн 2025, 09:34

У меня есть дата, который необходимо использовать по строке для вызовов API. Поэтому я реализовал UDF для этого. Каждая строка использует данные из этой строки, чтобы сделать вызов API, и сохраняет идентификатор из ответа в результате DataFrame. Вызов выглядит примерно так: < /p>

Код: Выделить всё

processDf = FilesDf.withColumn("processed", row_udf(col("input_id")).select("processed.*").cache()

Теперь проблема заключается в том, что обработка занимает более одного часа, а заголовки, которые я передаю в ROW_UDF для вызова API, содержат токен, который действителен только в течение часа. Я установил заголовки в ячейке на вершине ноутбука.

Код: Выделить всё

def get_new_token():
app = TokenApplication(...)
result = app.acquire_token_for_client(...)
...
headers = {"Authorization": token}
return headers

headers = get_new_token()

# Create a threading event to signal the thread to stop
stop_event = threading.Event()

def refresh_token_periodically():
global headers
while not stop_event.is_set():
time.sleep(55 * 60)  # Sleep for 55 minutes
headers = get_new_token()

# Start the background thread to refresh the token
token_refresh_thread = threading.Thread(target=refresh_token_periodically)
token_refresh_thread.daemon = True
token_refresh_thread.start()

Я проверил это с простыми операторами печати/сна в новой ячейке и увидел, что токен обновляется. Теперь, используя его внутри UDF, не работает.
Мне интересно, почему. Все строки «подготовлены» сразу и сложены в линию ожидания, чтобы начало всех рядов на самом деле одинаково, и они получают первый жетон, но более поздние ряды действительно передаются только позже, что затем приводит к неправильному токену?>

Подробнее здесь: https://stackoverflow.com/questions/796 ... -api-token

1749623687

Anonymous

 У меня есть дата, который необходимо использовать по строке для вызовов API. Поэтому я реализовал UDF для этого. Каждая строка использует данные из этой строки, чтобы сделать вызов API, и сохраняет идентификатор из ответа в результате DataFrame. Вызов выглядит примерно так: < /p>
[code]processDf = FilesDf.withColumn("processed", row_udf(col("input_id")).select("processed.*").cache() [/code] 
Теперь проблема заключается в том, что обработка занимает более одного часа, а заголовки, которые я передаю в ROW_UDF для вызова API, содержат токен, который действителен только в течение часа. Я установил заголовки в ячейке на вершине ноутбука.[code]def get_new_token():
app = TokenApplication(...)
result = app.acquire_token_for_client(...)
...
headers = {"Authorization": token}
return headers

headers = get_new_token()

# Create a threading event to signal the thread to stop
stop_event = threading.Event()

def refresh_token_periodically():
global headers
while not stop_event.is_set():
time.sleep(55 * 60)  # Sleep for 55 minutes
headers = get_new_token()

# Start the background thread to refresh the token
token_refresh_thread = threading.Thread(target=refresh_token_periodically)
token_refresh_thread.daemon = True
token_refresh_thread.start()
[/code]
Я проверил это с простыми операторами печати/сна в новой ячейке и увидел, что токен обновляется. Теперь, используя его внутри UDF, не работает.
Мне интересно, почему. Все строки «подготовлены» сразу и сложены в линию ожидания, чтобы начало всех рядов на самом деле одинаково, и они получают первый жетон, но более поздние ряды действительно передаются только позже, что затем приводит к неправильному токену?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79661495/use-threading-for-udf-in-databricks-to-use-new-api-token[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Используйте потоки для UDF в данных DataBricks, чтобы использовать новый токен API

Последнее сообщение Anonymous « 11 июн 2025, 14:48
Добавлено в форуме Python

Anonymous » 11 июн 2025, 14:48 » в форуме Python

У меня есть дата, который необходимо использовать по строке для вызовов API. Поэтому я реализовал UDF для этого. Каждая строка использует данные из этой строки, чтобы сделать вызов API, и сохраняет идентификатор из ответа в результате DataFrame....

0 Ответы

1 Просмотры

Последнее сообщение Anonymous
11 июн 2025, 14:48
Databricks SQL-хранилище Python udf дает тайм-аут при вызове REST API

Последнее сообщение Anonymous « 09 апр 2024, 13:43
Добавлено в форуме Python

Anonymous » 09 апр 2024, 13:43 » в форуме Python

У меня есть пример использования ниже

UC включить рабочее пространство
Создать Python udf, который создаст REST API с использованием библиотеки запроса Python
анализирует ответ и возвращает

Я следил за документом ниже
ОШИБКА, которую я...

0 Ответы

62 Просмотры

Последнее сообщение Anonymous
09 апр 2024, 13:43
Невозможно использовать сжатие Brotli в Databricks Databricks 15.4 LTS

Последнее сообщение Anonymous « 11 апр 2025, 22:13
Добавлено в форуме JAVA

Anonymous » 11 апр 2025, 22:13 » в форуме JAVA

spark.conf.set( spark.sql.parquet.compression.codec , brotli )
df.write.format( delta ).mode( overwrite ).saveAsTable(table_name, path= delta_table_path)

Сообщение об ошибке:
spark.conf.set( spark.sql.parquet.compression.codec , brotli )...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
11 апр 2025, 22:13
Databricks не может найти файл csv внутри колеса, которое я установил при запуске из блокнота Databricks.

Последнее сообщение Anonymous « 31 мар 2024, 17:51
Добавлено в форуме Python

Anonymous » 31 мар 2024, 17:51 » в форуме Python

Я изучаю Spark, поэтому в качестве задачи нам нужно было создать колесо локально, а затем установить его в Databricks (я использую Azure Databricks) и протестировать его, запустив из блокнота Databrick. Эта программа предполагает чтение файла CSV...

0 Ответы

92 Просмотры

Последнее сообщение Anonymous
31 мар 2024, 17:51
Скопируйте модель машинного обучения из одной рабочей области Azure Databricks в другую рабочую область Databricks.

Последнее сообщение Anonymous « 08 окт 2024, 12:11
Добавлено в форуме Python

Anonymous » 08 окт 2024, 12:11 » в форуме Python

Я запустил приведенный ниже код для экспорта модели ML в mlflow на основе Azure Databricks , но, похоже, получаю эту ошибку: Хост или токен MLflow настроены неправильно .
Я не могу понять, в чем проблема. URL-адрес рабочей области и токен PAT...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
08 окт 2024, 12:11

Вернуться в «Python»