Я создал образец фрейма данных в Pyspark, и столбец идентификатора содержит несколько значений, содержащих более 8 цифр. Но он возвращает только те строки, имеющие менее 8 цифр в поле идентификатора. Может ли кто-нибудь подсказать, как написать правильный код, который будет возвращать все значения, если условие соответствует.
data = [["2116722", "sravan", "company 1"],
["2716722", "ojaswi", "company 2"],
["2119722", "bobby", "company 3"],
["21156311722", "sravan", "company 1"],
["21422", "ojaswi", None],
["2216722", "rohith", "company 2"],
["3116722672", "gnanesh", "company 1"],
["2156722", None, "company 2"],
["4115666122", "bobby", "company 3"],
["21190745", "rohith", "company 2"]]
# specify column names
columns = ['ID', 'Employee NAME', 'Company Name']
# creating a dataframe from the lists of data
dataframe = spark.createDataFrame(data, columns)
dataframe.where(dataframe["ID"] > 100000).show()
Выход:
+--------+-------------+------------+
| ID|Employee NAME|Company Name|
+--------+-------------+------------+
| 2116722| sravan| company 1|
| 2716722| ojaswi| company 2|
| 2119722| bobby| company 3|
| 2216722| rohith| company 2|
| 2156722| NULL| company 2|
|21190745| rohith| company 2|
+--------+-------------+------------+
Ожидаемый результат
+--------+-------------+------------+
| ID|Employee NAME|Company Name|
+--------+-------------+------------+
| 2116722| sravan| company 1|
| 2716722| ojaswi| company 2|
| 2119722| bobby| company 3|
| 2216722| rohith| company 2|
| 2156722| NULL| company 2|
|21190745| rohith| company 2|
|21156311722| sravan| company 1|
|4115666122| bobby| company 3|
|3116722672| gnanesh| company 1|
+--------+-------------+------------+
Подробнее здесь: https://stackoverflow.com/questions/787 ... n-8-digits
Кадр данных Pyspark не возвращает строки, имеющие значение более 8 цифр ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Кадр данных Pyspark не возвращает строки, имеющие значение более 8 цифр
Anonymous » » в форуме Python - 0 Ответы
- 16 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Ошибка NonExistentTimeError при преобразовании кадра данных pandas в кадр данных pyspark
Anonymous » » в форуме Python - 0 Ответы
- 16 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Ошибка NonExistentTimeError при преобразовании кадра данных pandas в кадр данных pyspark
Anonymous » » в форуме Python - 0 Ответы
- 23 Просмотры
-
Последнее сообщение Anonymous
-