Я работаю над проектом, который включает в себя RandomWalk на большом графике (слишком большом, чтобы поместиться в памяти). Я написал его на Python, используя networkx, но вскоре граф стал слишком большим, чтобы поместиться в памяти, и я понял, что мне нужно переключиться на распределенную систему. Итак, я понимаю следующее:
Мне нужно будет использовать графовую базу данных как таковую (Titan, neo4j и т.д.)
Среда обработки графов, такая как Apache Giraph на Hadoop/graphx на Spark.
Во-первых< /strong>, достаточно ли API, чтобы я мог продолжать писать код на Python, или мне следует переключиться на Java?
Во-вторых, я не смог найти точную документацию о том, как написать свою собственную функцию обхода (в Giraph или Graphx). для реализации алгоритма случайного блуждания.
Я работаю над проектом, который включает в себя RandomWalk на большом графике (слишком большом, чтобы поместиться в памяти). Я написал его на Python, используя networkx, но вскоре граф стал слишком большим, чтобы поместиться в памяти, и я понял, что мне нужно переключиться на распределенную систему. Итак, я понимаю следующее:
[list] [*]Мне нужно будет использовать графовую базу данных как таковую (Titan, neo4j и т.д.) [*]Среда обработки графов, такая как Apache Giraph на Hadoop/graphx на Spark. [/list]
[b]Во-первых< /strong>, достаточно ли API, чтобы я мог продолжать писать код на Python, или мне следует переключиться на Java?
Во-вторых[/b], я не смог найти точную документацию о том, как написать свою собственную функцию обхода (в Giraph или Graphx). для реализации алгоритма случайного блуждания.