Я пишу повторяющиеся строковые значения в строковый столбец в файле ORC с использованием Java и при чтении файла ORC обр

Я пишу повторяющиеся строковые значения в строковый столбец в файле ORC с использованием Java и при чтении файла ORC обр ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Я пишу повторяющиеся строковые значения в строковый столбец в файле ORC с использованием Java и при чтении файла ORC обр

Цитата

Сообщение Anonymous » 10 апр 2025, 10:31

Когда я пытаюсь написать одно и то же значение для каждой строки для строки в файле ORC, только первая строка возвращает письменное значение, при чтении оставшихся строк сталкивается с нулевым вопросом указателя. В некоторых случаях мы могли бы столкнуться с этой проблемой, поэтому ищу решение этой проблемы.import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.exec.vector.BytesColumnVector;
import org.apache.hadoop.hive.ql.exec.vector.LongColumnVector;
import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;
import org.apache.orc.CompressionKind;
import org.apache.orc.OrcFile;
import org.apache.orc.TypeDescription;
import org.apache.orc.impl.WriterImpl;

import java.io.IOException;
import java.nio.charset.StandardCharsets;

public class ORCWriter {

public static void main(String[] args) throws IOException {
// Define the schema
TypeDescription schema = TypeDescription.createStruct()
.addField("value", TypeDescription.createString())
.addField("quality", TypeDescription.createLong());

// Create a configuration object
Configuration conf = new Configuration();

// Create a WriterImpl instance
WriterImpl writer = (WriterImpl) OrcFile.createWriter(new Path("testString.orc"),
OrcFile.writerOptions(conf).setSchema(schema).stripeSize(1024).compress(CompressionKind.SNAPPY));

// Create a batch to hold the data
VectorizedRowBatch batch = schema.createRowBatch();
BytesColumnVector value = (BytesColumnVector)batch.cols[0];
LongColumnVector quality = (LongColumnVector)batch.cols[1];

int start = 0;
int end = 100;
while (start < end) {
int row = batch.size++;
value.setVal(row, ("value").getBytes(StandardCharsets.UTF_8));
quality.vector[row] = start;

start += 1;
if (batch.size == batch.getMaxSize()) {
writer.addRowBatch(batch);
batch.reset();
}
}
if (batch.size != 0) {
writer.addRowBatch(batch);
batch.reset();
}
writer.close();
}
}
< /code>
orc reader logic: < /p>
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.exec.vector.BytesColumnVector;
import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;
import org.apache.orc.OrcFile;
import org.apache.orc.Reader;
import org.apache.orc.RecordReader;
import org.apache.orc.TypeDescription;

public class ORCReader {

public static void main(String[] args) throws Exception {
// Create a configuration object
Configuration conf = new Configuration();

// Create a Reader instance
Reader reader = OrcFile.createReader(new Path("testString.orc"),
OrcFile.readerOptions(conf));

// Get the schema of the ORC file
TypeDescription schema = reader.getSchema();

// Create a batch to hold the data
VectorizedRowBatch batch = schema.createRowBatch();

// Create a RecordReader to read the data
RecordReader rows = reader.rows();
int rowcount = 1;
long startTime = System.currentTimeMillis();
// Read the data
while (rows.nextBatch(batch)) {
BytesColumnVector value = (BytesColumnVector) batch.cols[0];

for (int r = 0; r < batch.size; ++r) {
String valueStr = new String(value.vector[r], value.start[r], value.length[r]);
System.out.println("Row " + rowcount + " value: " + valueStr);
rowcount++;
}
}
System.out.println("Total time :: "+(System.currentTimeMillis() - startTime));

// Close the RecordReader
rows.close();
}
}
< /code>
Подробная информация об исключении при попытке прочитать файл ORC: способное считывать значение из столбца значений без каких -либо проблем для первой строки и увидеть проблему с нулевым указателем из второй строки < /p>

ряд 1 Значение: значение < /p>
< /blockquote>
Исключение. Длина, потому что «байты» - это null
at java.base /java.lang.string.>

Подробнее здесь: https://stackoverflow.com/questions/795 ... using-java

1744270269

Anonymous

 Когда я пытаюсь написать одно и то же значение для каждой строки для строки в файле ORC, только первая строка возвращает письменное значение, при чтении оставшихся строк сталкивается с нулевым вопросом указателя. В некоторых случаях мы могли бы столкнуться с этой проблемой, поэтому ищу решение этой проблемы.import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.exec.vector.BytesColumnVector;
import org.apache.hadoop.hive.ql.exec.vector.LongColumnVector;
import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;
import org.apache.orc.CompressionKind;
import org.apache.orc.OrcFile;
import org.apache.orc.TypeDescription;
import org.apache.orc.impl.WriterImpl;

import java.io.IOException;
import java.nio.charset.StandardCharsets;

public class ORCWriter {

public static void main(String[] args) throws IOException {
// Define the schema
TypeDescription schema = TypeDescription.createStruct()
.addField("value", TypeDescription.createString())
.addField("quality", TypeDescription.createLong());

// Create a configuration object
Configuration conf = new Configuration();

// Create a WriterImpl instance
WriterImpl writer = (WriterImpl) OrcFile.createWriter(new Path("testString.orc"),
OrcFile.writerOptions(conf).setSchema(schema).stripeSize(1024).compress(CompressionKind.SNAPPY));

// Create a batch to hold the data
VectorizedRowBatch batch = schema.createRowBatch();
BytesColumnVector value = (BytesColumnVector)batch.cols[0];
LongColumnVector quality = (LongColumnVector)batch.cols[1];

int start = 0;
int end = 100;
while (start < end) {
int row = batch.size++;
value.setVal(row, ("value").getBytes(StandardCharsets.UTF_8));
quality.vector[row] = start;

start += 1;
if (batch.size == batch.getMaxSize()) {
writer.addRowBatch(batch);
batch.reset();
}
}
if (batch.size != 0) {
writer.addRowBatch(batch);
batch.reset();
}
writer.close();
}
}
< /code>
orc reader logic: < /p>
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.exec.vector.BytesColumnVector;
import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;
import org.apache.orc.OrcFile;
import org.apache.orc.Reader;
import org.apache.orc.RecordReader;
import org.apache.orc.TypeDescription;

public class ORCReader {

public static void main(String[] args) throws Exception {
// Create a configuration object
Configuration conf = new Configuration();

// Create a Reader instance
Reader reader = OrcFile.createReader(new Path("testString.orc"),
OrcFile.readerOptions(conf));

// Get the schema of the ORC file
TypeDescription schema = reader.getSchema();

// Create a batch to hold the data
VectorizedRowBatch batch = schema.createRowBatch();

// Create a RecordReader to read the data
RecordReader rows = reader.rows();
int rowcount = 1;
long startTime = System.currentTimeMillis();
// Read the data
while (rows.nextBatch(batch)) {
BytesColumnVector value = (BytesColumnVector) batch.cols[0];

for (int r = 0; r < batch.size; ++r) {
String valueStr = new String(value.vector[r], value.start[r], value.length[r]);
System.out.println("Row " + rowcount + "  value: " + valueStr);
rowcount++;
}
}
System.out.println("Total time :: "+(System.currentTimeMillis() - startTime));

// Close the RecordReader
rows.close();
}
}
< /code>
Подробная информация об исключении при попытке прочитать файл ORC: способное считывать значение из столбца значений без каких -либо проблем для первой строки и увидеть проблему с нулевым указателем из второй строки < /p>

ряд 1 Значение: значение < /p>
< /blockquote>
Исключение. Длина, потому что «байты» - это null
at java.base /java.lang.string.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79562433/im-writing-repeated-string-values-to-a-string-column-in-an-orc-file-using-java[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я пишу повторяющиеся строковые значения в строковый столбец в файле ORC с использованием Java и при чтении файла ORC обр

Последнее сообщение Anonymous « 08 апр 2025, 18:08
Добавлено в форуме JAVA

Anonymous » 08 апр 2025, 18:08 » в форуме JAVA

Когда я пытаюсь написать одно и то же значение для каждой строки для строки в файле ORC, только первая строка возвращает письменное значение, при чтении оставшихся строк сталкивается с нулевым вопросом указателя. В некоторых случаях мы могли бы...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
08 апр 2025, 18:08
Я пишу повторяющиеся строковые значения в строковый столбец в файле ORC с использованием Java и при чтении файла ORC обр

Последнее сообщение Anonymous « 09 апр 2025, 17:02
Добавлено в форуме JAVA

Anonymous » 09 апр 2025, 17:02 » в форуме JAVA

Когда я пытаюсь написать одно и то же значение для каждой строки для строки в файле ORC, только первая строка возвращает письменное значение, при чтении оставшихся строк сталкивается с нулевым вопросом указателя. В некоторых случаях мы могли бы...

0 Ответы

0 Просмотры

Последнее сообщение Anonymous
09 апр 2025, 17:02
Что именно делают строковые префиксы «u» и «r» и что такое необработанные строковые литералы?

Последнее сообщение Anonymous « 19 сен 2024, 22:55
Добавлено в форуме Python

Anonymous » 19 сен 2024, 22:55 » в форуме Python

Задавая этот вопрос, я понял, что мало что знаю о необработанных строках. Для кого-то, утверждающего, что он тренер Django, это отстой.

Я знаю, что такое кодировка, и я знаю, что делаете только вы,, поскольку я получаю что такое Unicode.

Но что...

0 Ответы

33 Просмотры

Последнее сообщение Anonymous
19 сен 2024, 22:55
Что именно делают строковые префиксы «u» и «r» и что такое необработанные строковые литералы?

Последнее сообщение Anonymous « 03 ноя 2024, 10:59
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 10:59 » в форуме Python

Задавая этот вопрос, я понял, что мало что знаю о необработанных строках. Для кого-то, утверждающего, что он тренер Django, это отстой.

Я знаю, что такое кодировка, и я знаю, что делаете только вы,, поскольку я получаю что такое Unicode.

Но что...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 10:59
Что именно делают строковые префиксы «u» и «r» и что такое необработанные строковые литералы?

Последнее сообщение Anonymous « 03 ноя 2024, 14:50
Добавлено в форуме Python

Anonymous » 03 ноя 2024, 14:50 » в форуме Python

Задавая этот вопрос, я понял, что мало что знаю о необработанных строках. Для кого-то, утверждающего, что он тренер Django, это отстой.

Я знаю, что такое кодировка, и я знаю, что делаете только вы,, поскольку я получаю что такое Unicode.

Но что...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
03 ноя 2024, 14:50

Вернуться в «JAVA»