У меня есть программа Spark Java, в которой выполняется GroupBykey с шагом MapValues, и она возвращает PairRdd с значением в качестве итерационного из всех значений RDD ввода.
Я прочитал, что замена RedbyKey на месте GroupBykey на MapValues принесет повышение производительности, но я не знаю, как применить DreatBykey < /code> к моей проблеме здесь. < /p>
Специально у меня есть входная пара RDD, которая имеет значение с типом Tuple5 < /code>. После преобразования GroupBykey и MapValues мне нужно получить RDD-адреса для ключей, где значение должно быть итерабильным из входных значений. < /P>
JavaPairRDD inputRDD;
...
...
...
JavaPairRDD groupedRDD = inputRDD
.groupByKey()
.mapValues(
new Function() {
@Override
public Iterable call(
Iterable v1)
throws Exception {
/*
Some steps here..
*/
return mappedValue;
}
});
< /code>
Есть ли способ, которым я мог бы получить вышеуказанное преобразование, используя REDBYKEY < /code>?
Подробнее здесь: https://stackoverflow.com/questions/442 ... e-value-in