Объединение двух огромных текстовых файлов и удаления дубликатов [закрыто]

Объединение двух огромных текстовых файлов и удаления дубликатов [закрыто] ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Объединение двух огромных текстовых файлов и удаления дубликатов [закрыто]

Цитата

Сообщение Anonymous » 07 авг 2025, 19:44

(Huger, чем другие вопросы, lol) < /p>
Конкретная задача < /h2>
Я начинаю с двух гигантских входных текстовых файлов, содержащих множество строк с одним строковым значением на каждой строке. Я хотел бы написать программу Java, чтобы объединить содержимое этих двух файлов в один выходной текстовый файл, а также удаление любых дубликатов. Какой метод лучше всего для производительности?
о каких размерах данных мы говорим? Я сделал расчет сзади напина, используя меньший пример-файл, и файл 250 ГБ может иметь около 27 миллиардов линий (очень грубо), если он пропорционален. Мы можем представить, что значение на каждой строке составляет максимум из 20 символов, в противном случае оно будет отброшено. Я буду использовать компьютер с большим количеством памяти, но этого может быть недостаточно. И я буду отбрасывать любые строки, которые более 25 символов. Я упоминаю об этом, потому что хэшинг был воспитан в качестве метода дубликации проверки. Кажется, хэш для этих значений займет больше места, чем фактическое значение. Однако я понимаю, что более непосредственная проблема заключается в том, как справиться с большими размерами, и все, что я использую, чтобы проверить дубликаты или сортировку, не будет вписаться в память. Возможно, сначала сортируйте входные файлы, затем объединитесь вместе и отбросьте дубликаты за один проход. Выходной файл может быть отсортирован, не нужно поддерживать исходный порядок. < /P>
Я также проводил свое исследование. Но в конце он упоминает возможный способ сделать это с большим файлом (только одним файлом), который не вписывается в ОЗУ. Я не уверен, что полностью понимаю, и кажется, что сам механизм проверки также был бы очень большим и не вписывался в память, вопреки тому, что задумал автор. Сортировка сначала. < /p>
Какой метод вы предлагаете? Большое спасибо за вклад!

Подробнее здесь: https://stackoverflow.com/questions/797 ... duplicates

1754585051

Anonymous

(Huger, чем другие вопросы, lol) < /p>
Конкретная задача < /h2>
Я начинаю с двух гигантских входных текстовых файлов, содержащих множество строк с одним строковым значением на каждой строке. Я хотел бы написать программу Java, чтобы объединить содержимое этих двух файлов в один выходной текстовый файл, а также удаление любых дубликатов. [b] Какой метод лучше всего для производительности? [/b]
о каких размерах данных мы говорим? Я сделал расчет сзади напина, используя меньший пример-файл, и файл 250 ГБ может иметь около 27 миллиардов линий (очень грубо), если он пропорционален. Мы можем представить, что значение на каждой строке составляет максимум из 20 символов, в противном случае оно будет отброшено. Я буду использовать компьютер с большим количеством памяти, но этого может быть недостаточно. И я буду отбрасывать любые строки, которые более 25 символов. Я упоминаю об этом, потому что хэшинг был воспитан в качестве метода дубликации проверки. Кажется, хэш для этих значений займет больше места, чем фактическое значение. Однако я понимаю, что более непосредственная проблема заключается в том, как справиться с большими размерами, и все, что я использую, чтобы проверить дубликаты или сортировку, не будет вписаться в память. Возможно, сначала сортируйте входные файлы, затем объединитесь вместе и отбросьте дубликаты за один проход. Выходной файл может быть отсортирован, не нужно поддерживать исходный порядок. < /P>
Я также проводил свое исследование. Но в конце он упоминает возможный способ сделать это с большим файлом (только одним файлом), который не вписывается в ОЗУ. Я не уверен, что полностью понимаю, и кажется, что сам механизм проверки также был бы очень большим и не вписывался в память, вопреки тому, что задумал автор. Сортировка сначала. < /p>
Какой метод вы предлагаете? Большое спасибо за вклад!

Подробнее здесь: [url]https://stackoverflow.com/questions/79727681/combining-two-huge-text-files-and-removing-duplicates[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Объединение двух огромных текстовых файлов и удаление дубликатов

Последнее сообщение Anonymous « 07 авг 2025, 03:02
Добавлено в форуме JAVA

Anonymous » 07 авг 2025, 03:02 » в форуме JAVA

(Huger, чем другие вопросы, lol)
Моя цель - взять два гигантских входных текстовых файла, содержащих множество строк с одним строковым значением на каждой строке, объедините их в один выходной текстовый файл, содержащий все значения, но без...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
07 авг 2025, 03:02
Объединение двух огромных текстовых файлов и удаление дубликатов

Последнее сообщение Anonymous « 12 авг 2025, 08:55
Добавлено в форуме JAVA

Anonymous » 12 авг 2025, 08:55 » в форуме JAVA

(Huger, чем другие вопросы, lol)
Конкретная задача
Я начинаю с двух гигантских входных текстовых файлов, содержащих множество строк с одним строковым значением на каждой строке. Я хотел бы написать программу Java, чтобы объединить содержимое этих...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
12 авг 2025, 08:55
Объединение двух огромных текстовых файлов и удаление дубликатов

Последнее сообщение Anonymous « 12 авг 2025, 11:07
Добавлено в форуме JAVA

Anonymous » 12 авг 2025, 11:07 » в форуме JAVA

Конкретная задача
Я начинаю с двух гигантских входных текстовых файлов, содержащих множество строк с одним строковым значением на каждой строке. Я хотел бы написать программу Java, чтобы объединить содержимое этих двух файлов в один выходной...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
12 авг 2025, 11:07
Объединение двух огромных текстовых файлов и удаление дубликатов

Последнее сообщение Anonymous « 15 авг 2025, 12:59
Добавлено в форуме JAVA

Anonymous » 15 авг 2025, 12:59 » в форуме JAVA

Конкретная задача
Я начинаю с двух гигантских входных текстовых файлов, содержащих множество строк с одним строковым значением на каждой строке. Я хотел бы написать программу Java, чтобы объединить содержимое этих двух файлов в один выходной...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
15 авг 2025, 12:59
Объединение двух огромных текстовых файлов и удаление дубликатов

Последнее сообщение Anonymous « 21 авг 2025, 01:58
Добавлено в форуме JAVA

Anonymous » 21 авг 2025, 01:58 » в форуме JAVA

Конкретная задача
Я начинаю с двух гигантских входных текстовых файлов, содержащих множество строк с одним строковым значением на каждой строке. Я хотел бы написать программу Java, чтобы объединить содержимое этих двух файлов в один выходной...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
21 авг 2025, 01:58

Вернуться в «JAVA»