Apache Spark установил dataFrame из базы данных Oracle в эластичный поиск

Apache Spark установил dataFrame из базы данных Oracle в эластичный поиск ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Apache Spark установил dataFrame из базы данных Oracle в эластичный поиск

Цитата

Сообщение Anonymous » 24 окт 2023, 16:48

При попытке записать или установить dataFrame из базы данных Oracle в elasticsearch с помощью Apache spark я получаю следующее сообщение об ошибке:

Примечание. Я использую Elasticsearch версии 8.8.2, Spark V 3.3.3, python V 3.8, pySpark V 3.3.0 и Scala V 2.12

Код ниже:

def write(self, dataFrame): """начните индексировать новый источник данных в Elasticsearch, выполнив все необходимые шаги. Аргументы: dataFrame {Spark DataFrame} — исходный dataFrame Поднимает: Ошибка – могут возникнуть непредвиденные типы ошибок. """ # создаем новое имя индекса для этого dataFrame self.currentIndex = self.generateIndex() # установите детали исходного документа перед индексированием пытаться: счетчик = dataFrame.count() кроме исключения как ошибки: self.terminate("Не удалось подсчитать количество кадров данных", error=err) self.__updateSource(key=Source.rowNumber, value=count) # информируем приложение об импорте процентов поток = Тема (цель = self.__pubPercent) поток.start() # выводим количество строк строки = self.document.get(Source.rowNumber) # индексируем этот dataFrame в Elasticsearch разделы = 10, если строки < 10**5 еще 100 пытаться: self.setDataFrame(self.currentIndex, dataFrame.repartition(разделы)) кроме исключения как ошибки: распечатать (ошибиться) # дождаться завершения потока поток.join() def setDataFrame(self, index, dataFrame, idField=None): """Создать новый индекс, используя dataFrame Spark не принимает добавление документов dataFrame в существующий индекс Итак, он удалит индекс, если он существует. Аргументы: index {str} -- Имя индекса dataFrame {Spark dateFrame} — индексные документы Ключевые аргументы: idField {str} — Имя идентификационного поля (по умолчанию: нет) Поднимает: Ошибка – могут возникнуть непредвиденные типы ошибок. """ # удалить старый индекс, если он существует esClient.deleteIndex(индекс) # пытаемся установить сопоставление индексов esClient.putMapping(index, dataFrame.dtypes) # записываем фрейм данных в elasticsearch писатель = ( dataFrame.write.format(self.SPARK_SQL_FORMAT) .option(self.RESOURSE_KEY, "{}/{}".format(index, index)) .option(self.NODE_KEY, self.__host) .option(self.PORT_KEY, self.__port) ) # проверяем, есть ли поле идентификации или нет если idField: писатель = писатель.опция(self.MAPPING_ID_KEY, idField) # экспортируем dataFrame в Elastic писатель.сохранить() Исключение:

Произошла ошибка при вызове o68.save. : java.lang.NoClassDefFoundError: скала/класс $продукта в org.elasticsearch.spark.sql.ElasticsearchRelation.(DefaultSource.scala:228) в org.elasticsearch.spark.sql.DefaultSource.createRelation(DefaultSource.scala:105) в org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:47) в org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:75) в org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:73) в org.apache.spark.sql.execution.command.ExecutedCommandExec.executeCollect(commands.scala:84) в org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.$anonfun$applyOrElse$1(QueryExecution.scala:98) в org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$6(SQLExecution.scala:118) в org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:195) в org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:103) в org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:827) в org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:65) в org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.applyOrElse(QueryExecution.scala:98) в org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.applyOrElse(QueryExecution.scala:94) в org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDownWithPruning$1(TreeNode.scala:512) в org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:104) в org.apache.spark.sql.catalyst.trees.TreeNode.transformDownWithPruning(TreeNode.scala:512) в org.apache.spark.sql.catalyst.plans.ological.LogicalPlan.org$apache$spark$sql$catalyst$plans$ological$AnalysisHelper$$super$transformDownWithPruning(LogicalPlan.scala:31) в org.apache.spark.sql.catalyst.plans.ological.AnalysisHelper.transformDownWithPruning(AnalysisHelper.scala:267) в org.apache.spark.sql.catalyst.plans.ological.AnalysisHelper.transformDownWithPruning$(AnalysisHelper.scala:263) в org.apache.spark.sql.catalyst.plans.ological.LogicalPlan.transformDownWithPruning(LogicalPlan.scala:31) в org.apache.spark.sql.catalyst.plans.ological.LogicalPlan.transformDownWithPruning(LogicalPlan.scala:31) в org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:488) в org.apache.spark.sql.execution.QueryExecution.eagerlyExecuteCommands(QueryExecution.scala:94) в org.apache.spark.sql.execution.QueryExecution.commandExecuted$lzycompute(QueryExecution.scala:81) в org.apache.spark.sql.execution.QueryExecution.commandExecuted(QueryExecution.scala:79) в org.apache.spark.sql.execution.QueryExecution.assertCommandExecuted(QueryExecution.scala:133) в org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:856) в org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:387) в org.apache.spark.sql.DataFrameWriter.saveInternal(DataFrameWriter.scala:360) в org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:247) в java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0 (собственный метод) в java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77) в java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) в java.base/java.lang.reflect.Method.invoke(Method.java:568) в py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244) в py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374) в py4j.Gateway.invoke(Gateway.java:282) в py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) в py4j.commands.CallCommand.execute(CallCommand.java:79) в py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182) в py4j.ClientServerConnection.run(ClientServerConnection.java:106) в java.base/java.lang.Thread.run(Thread.java:833) Вызвано: java.lang.ClassNotFoundException: scala.Product$class в java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:641) в java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:188) в java.base/java.lang.ClassLoader.loadClass(ClassLoader.java:520) Может ли кто-нибудь сообщить мне, сталкивался ли кто-нибудь с этой проблемой и как ее решили?

1698155338

Anonymous


При попытке записать или установить dataFrame из базы данных Oracle в elasticsearch с помощью Apache spark я получаю следующее сообщение об ошибке:
 
Примечание. Я использую Elasticsearch версии 8.8.2, Spark V 3.3.3, python V 3.8, pySpark V 3.3.0 и Scala V 2.12
 
Код ниже:
 
def write(self, dataFrame):         """начните индексировать новый источник данных в Elasticsearch, выполнив все необходимые шаги.         Аргументы:             dataFrame {Spark DataFrame} — исходный dataFrame         Поднимает:             Ошибка – могут возникнуть непредвиденные типы ошибок.         """         # создаем новое имя индекса для этого dataFrame         self.currentIndex = self.generateIndex()         # установите детали исходного документа перед индексированием         пытаться:             счетчик = dataFrame.count()         кроме исключения как ошибки:             self.terminate("Не удалось подсчитать количество кадров данных", error=err)         self.__updateSource(key=Source.rowNumber, value=count)         # информируем приложение об импорте процентов         поток = Тема (цель = self.__pubPercent)         поток.start()         # выводим количество строк         строки = self.document.get(Source.rowNumber)         # индексируем этот dataFrame в Elasticsearch         разделы = 10, если строки < 10**5 еще 100         пытаться:             self.setDataFrame(self.currentIndex, dataFrame.repartition(разделы))         кроме исключения как ошибки:             распечатать (ошибиться)             # дождаться завершения потока             поток.join()  def setDataFrame(self, index, dataFrame, idField=None):         """Создать новый индекс, используя dataFrame         Spark не принимает добавление документов dataFrame в существующий индекс         Итак, он удалит индекс, если он существует.         Аргументы:             index {str} -- Имя индекса             dataFrame {Spark dateFrame} — индексные документы         Ключевые аргументы:             idField {str} — Имя идентификационного поля (по умолчанию: нет)         Поднимает:             Ошибка – могут возникнуть непредвиденные типы ошибок.         """         # удалить старый индекс, если он существует         esClient.deleteIndex(индекс)         # пытаемся установить сопоставление индексов         esClient.putMapping(index, dataFrame.dtypes)         # записываем фрейм данных в elasticsearch         писатель = (             dataFrame.write.format(self.SPARK_SQL_FORMAT)             .option(self.RESOURSE_KEY, "{}/{}".format(index, index))             .option(self.NODE_KEY, self.__host)             .option(self.PORT_KEY, self.__port)         )         # проверяем, есть ли поле идентификации или нет         если idField:             писатель = писатель.опция(self.MAPPING_ID_KEY, idField)         # экспортируем dataFrame в Elastic         писатель.сохранить()  Исключение:
 
Произошла ошибка при вызове o68.save. : java.lang.NoClassDefFoundError: скала/класс $продукта         в org.elasticsearch.spark.sql.ElasticsearchRelation.(DefaultSource.scala:228)         в org.elasticsearch.spark.sql.DefaultSource.createRelation(DefaultSource.scala:105)         в org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:47)         в org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:75)         в org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:73)         в org.apache.spark.sql.execution.command.ExecutedCommandExec.executeCollect(commands.scala:84)         в org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.$anonfun$applyOrElse$1(QueryExecution.scala:98)         в org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$6(SQLExecution.scala:118)         в org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:195)         в org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:103)         в org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:827)         в org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:65)         в org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.applyOrElse(QueryExecution.scala:98)         в org.apache.spark.sql.execution.QueryExecution$$anonfun$eagerlyExecuteCommands$1.applyOrElse(QueryExecution.scala:94)         в org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDownWithPruning$1(TreeNode.scala:512)         в org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:104)         в org.apache.spark.sql.catalyst.trees.TreeNode.transformDownWithPruning(TreeNode.scala:512)         в org.apache.spark.sql.catalyst.plans.ological.LogicalPlan.org$apache$spark$sql$catalyst$plans$ological$AnalysisHelper$$super$transformDownWithPruning(LogicalPlan.scala:31)         в org.apache.spark.sql.catalyst.plans.ological.AnalysisHelper.transformDownWithPruning(AnalysisHelper.scala:267)         в org.apache.spark.sql.catalyst.plans.ological.AnalysisHelper.transformDownWithPruning$(AnalysisHelper.scala:263)         в org.apache.spark.sql.catalyst.plans.ological.LogicalPlan.transformDownWithPruning(LogicalPlan.scala:31)         в org.apache.spark.sql.catalyst.plans.ological.LogicalPlan.transformDownWithPruning(LogicalPlan.scala:31)         в org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:488)         в org.apache.spark.sql.execution.QueryExecution.eagerlyExecuteCommands(QueryExecution.scala:94)         в org.apache.spark.sql.execution.QueryExecution.commandExecuted$lzycompute(QueryExecution.scala:81)         в org.apache.spark.sql.execution.QueryExecution.commandExecuted(QueryExecution.scala:79)         в org.apache.spark.sql.execution.QueryExecution.assertCommandExecuted(QueryExecution.scala:133)         в org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:856)         в org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:387)         в org.apache.spark.sql.DataFrameWriter.saveInternal(DataFrameWriter.scala:360)         в org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:247)         в java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0 (собственный метод)         в java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:77)         в java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)         в java.base/java.lang.reflect.Method.invoke(Method.java:568)         в py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)         в py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)         в py4j.Gateway.invoke(Gateway.java:282)         в py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)         в py4j.commands.CallCommand.execute(CallCommand.java:79)         в py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)         в py4j.ClientServerConnection.run(ClientServerConnection.java:106)         в java.base/java.lang.Thread.run(Thread.java:833) Вызвано: java.lang.ClassNotFoundException: scala.Product$class         в java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:641)         в java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:188)         в java.base/java.lang.ClassLoader.loadClass(ClassLoader.java:520)  Может ли кто-нибудь сообщить мне, сталкивался ли кто-нибудь с этой проблемой и как ее решили?

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Py4JException: конструктор org.apache.spark.sql.SparkSession([класс org.apache.spark.SparkContext, класс java.util.HashM

Последнее сообщение Anonymous « 16 сен 2024, 12:30
Добавлено в форуме Python

Anonymous » 16 сен 2024, 12:30 » в форуме Python

Я пытаюсь запустить сеанс Spark в Jupyter Notebook на компьютере EC2 Linux с помощью кода Visual Studio. Мой код выглядит следующим образом:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName( spark_app ).getOrCreate()...

0 Ответы

86 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 12:30
Это способ использовать эластичный поиск, заменяя данные конкретного поля на ноль при получении результата поиска?

Последнее сообщение Гость « 28 сен 2023, 20:46
Добавлено в форуме Elasticsearch aggregation

Гость » 28 сен 2023, 20:46 » в форуме Elasticsearch aggregation

Мне нужно использовать эластичный поиск вnesjs для запроса, чтобы получить некоторый результат из индекса.

Требования: мне нужны все результаты, включая access_level: Restricted и access_level: Unrestricted , но данные с access_level: Restricted...

0 Ответы

139 Просмотры

Последнее сообщение Гость
28 сен 2023, 20:46
Эластичный поиск Python: ConnectTimeoutError

Последнее сообщение Anonymous « 25 сен 2024, 17:02
Добавлено в форуме Python

Anonymous » 25 сен 2024, 17:02 » в форуме Python

Я пытаюсь запустить очень простую вставку в Elasticsearch в Python:
es = Elasticsearch({'host': 'localhost', 'port': 9200})
res = es.index(index='data-client_dev', doc_type='test', id=2, body={'author': 'Christophe'}, timeout=60)
print(res )

Но...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 17:02
Невозможно использовать эластичный поиск с помощью Java

Последнее сообщение Anonymous « 28 сен 2024, 15:11
Добавлено в форуме JAVA

Anonymous » 28 сен 2024, 15:11 » в форуме JAVA

Я пытаюсь подключить свое Java-приложение к экземпляру Amazon Elastic Search и работать над поиском продуктов, но уже несколько дней у меня ничего не получается, и наконец я прошу вас, ребята, можете ли вы помочь.
Мой экземпляр Elastic Search
{...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
28 сен 2024, 15:11
Эластичный поиск с ошибкой SSL скрипта Python

Последнее сообщение Anonymous « 16 окт 2024, 21:35
Добавлено в форуме Python

Anonymous » 16 окт 2024, 21:35 » в форуме Python

Я получаю эту ошибку при запуске скрипта Python.
elastic_transport.TlsError: TLS error caused by: TlsError(TLS error caused by: SSLError( certificate verify failed: CA cert does not include key usage extension (_ssl.c:1020)))
Я установил...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
16 окт 2024, 21:35

Вернуться в «Python»