Сортировка, слияние и дедуплирование больших файлов TXT на HPC?Linux

Ответить
Anonymous
 Сортировка, слияние и дедуплирование больших файлов TXT на HPC?

Сообщение Anonymous »

Я ищу несколько советов
Я в настоящее время создаю базу данных KMER и хочу слияние/сортировку и взять строки Uniq от 47 sample.txt.gz, которые составляют 16 ГБ каждый, что был бы самым быстрым способом сделать это. < /p>
Я сейчас запускаю это: < /p>
zcat *.merged.kmers.txt.gz | sort --parallel=48 --buffer-size= 1400G | uniq | gzip > all_unique_kmers.txt.gz
< /code>
Я запускал его в смятении, но я хотел знать, какие параметры и что бы сделали кто -то другой, это работало 4 дня !!!! < /p>
< P> 47 образцов, 16 ГБ сжата, 80 ГБ несжатую,
слияние, сортировка, дедупликация
Пожалуйста, помогите мне ...

Подробнее здесь: https://stackoverflow.com/questions/794 ... les-on-hpc
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Linux»