Дедупликация – это технический процесс обнаружения и удаления повторяющихся данных и копий файлов с целью оптимизации дискового пространства. В некоторых случаях дедупликацию используют для сокращения объема передаваемой информации в сетевом обмене.
Подходов к дедупликации в широком смысле существует два:
- На уровне блоков. Файловая система определенным образом делится на блоки. Блоком считается одна логическая единица информации, которая имеет физические ограничения, например, объём в 4 Кб. При обнаружении повторяющихся блоков оставляется лишь одна копия, которая становится «оригиналом», дублированные блоки заменяются ссылками на оригинал.
- На уровне файлов. На этом уровне дедупликация предполагает сравнение данных на уровне целых файлов. Если новый файл повторяет уже существующий, вместо него оставляется лишь ссылка на первоначальный оригинал. Если новый файл уникален, то он сохраняется полностью.
У обоих подходов есть различные вариации исполнения. Необходимость внедрения конкретного способа дедупликации в каждом случае определяется технической целесообразностью.