Deduplikacja baz danych

Celem procesu deduplikacji jest identyfikacja powtarzających się rekordów (duplikatów) odnoszących się do tego samego podmiotu (firmy bądź osoby indywidualnej).

W procesie deduplikacji wybierany jest jeden rekord z puli duplikatów, który będzie unikalnie reprezentował dany podmiot (tzw. "złoty rekord" bądź "master rekord").

Wykorzystywane w procesie deduplikacji algorytmy pozwalają na identyfikację duplikatów nawet pomimo występowania różnic w sposobie zapisu informacji (np. literówek w nazwach firm), należy jednak podkreślić, że wykonanie wcześniejszego etapu normalizacji i standaryzacji zwiększa skuteczność algorytmów deduplikacji.

Co to jest deduplikacja?
Deduplikacja danych jest czynnością polegającą na znalezieniu takich samych rekordów pomimo różnic, błędów i literówek w zapisie.

Skąd się biorą duplikaty?
Duplikaty najczęściej powstają przy łączeniu różnych baz danych oraz przy ręcznym wprowadzaniu danych, na skutek błędów i "literówek". W bazach, które nigdy nie były deduplikowane odsetek powtórzeń może sięgać nawet kilkunastu % procent.

Czy deduplikować można tylko dane adresowe?
Deduplikować można dane każdego rodzaju, np. dane adresowe, słowniki nazw, kody i nazewnictwo towarów oraz wszelkie inne bazy danych, w których proces wprowadzania danych był słabo kontrolowany.

Czy deduplikacja jest procesem jednoznacznym?
Deduplikacja jest zależna od ustawień konfiguracyjnych, które w zależności od rodzaju danych oraz celu (znajdywanie połączeń, wykluczanie powtórzeń) można odpowiednio przygotować i w rezultacie otrzymać najlepszy wynik. Deduplikacja jest także skalowalna, co oznacza iż jej kryteria mogą być bardziej lub mniej liberalne.

Dlaczego warto wykonywać deduplikację?
Deduplikacja danych to oszczędność i poprawa wizerunku oraz jakości. Przykładowo, posiadając bazę adresową potencjalnych klientów, w momencie chęci skontaktowania się z jej członkami listownie, biorąc pod uwagę sam koszt znaczka pocztowego i perspektywę jednorazowej wysyłki, deduplikacja opłaca się, jeżeli w bazie zostanie zidentyfikowanych już 2% powtarzających się rekordów.

Gdzie i kiedy stosuje się deduplikację?

  • w celu wzbogacenia danych (uzupełnienia danych w bazie danymi z innej bazy)
  • w systemach CRM, gdy powtarzające się dane komplikują pracę działu handlowego
  • w celu wyeliminowania powtarzających się rekordów przed kontaktem z członkami bazy
  • przy łączeniu kilku baz danych w jedną bazę

W jaki sposób DataWise wykonuje deduplikację?
DataWise dysponuje autorskim oprogramowaniem do deduplikacji, które działa w architekturze klient-serwer. Serwer usługi jest zintegrowany z narzędziami do standaryzacji i normalizacji danych wejściowych. Całe środowisko może być skonfigurowane w obrębie sieci LAN klienta lub udostępnione poprzez API. Proces deduplikacji może być też wykonany w trybie wsadowym przez DataWise.

Czy reguły deduplikacji są konfigurowalne?
Tak.

Co jest wynikiem deduplikacji (np. bazy firm)?
Jako wynik procesu zwracane są rekordy wejściowe wraz z wystandaryzowanymi polami, które wpływają na proced deduplikacji. Rekordy zaklasyfikowane jako duplikaty mają przypisany wspólny identyfikator.

Czy muszę coś zmieniać w swojej bazie danych aby wykonać deduplikację i wykorzystać jej wynik?
Nie