“Dedupe.io” أداة تساعد في تحديد المتشابهات داخل مجموعات البيانات

1 min read

يساعد Dedupe.io في تحديد السجلات المتشابهة في مجموعات البيانات، على سبيل المثال: إذا نظرت إلى السجلين التاليين، ربما ظننت أنه أمر شديد الوضوح أنهما تقريبًا نفس الشخص، وعلى الرغم من ذلك فسيكون من الصعب أن تؤكد أنهما الشخص نفسه.  

واحدة من الطرق التي تعامل بها بعض الأشخاص مع هذه المسألة أن قالوا إنه من المرجح أن تكون هذه السجلات المتشابهة مكررة، وهذه خطوة جيدة على الرغم من وجوب تحديد المقصود بالضبط من وجود سجلين متشابهين.


لمعرفة ما إذا كان هناك سجلان متشابهان أم لا، يمكننا مقارنة سجل بآخر أو حقل بآخر، ولتقليل الوقت المستهلك في عقد هذه المقارنات يمكننا القيام بما يسمى “التعلم النشط”، الذي يقوم Dedupe.io من خلاله بمسح الأزواج المتشابهة واحدًا تلو الآخر لمعرفة ما إذا كان مكررًا أم مستقلًا بذاته.  

غالبًا ما يكون هناك شيء مشترك في السجلات المكررة، ومن ثم إذا قمنا بتحديد مجموعات البيانات التي تتشارك شيئًا ما وقمنا فقط بمقارنة سجلات تلك المجموعة، فيمكننا حينئذ أن نقلل عدد المقارنات التي يتعين علينا القيام بها بدرجة ملحوظة وأن نكون واثقين أن المقارنات ستتم حقًّا بين سجلات مكررة، وتسمى هذه العملية بعملية “الحجز”.


يمكننا القيام بعملية الحجز هذه من خلال ما يسمى بالكتلة الفرعية، التي يمكن تعريفها بأنها حزمة من السجلات التي تتشارك جميعًا في صفة يتم استحداثها من خلال عملية بسيطة تسمى التأسيس، الذي يمكن تعريفه هو الآخر بأنه استخراج مجموعة من العناصر المكونة لحقل بيانات معين، إذ يمكن أن تكون هذه العناصر المستخرجة “العناصر الثلاثة الأولى” أو “كل كلمة في الحقل”، وهكذا تصبح السجلات التي تتشارك نفس الصفة جزءًا من الكتلة.


مثال: إذا استخدمنا تقنية “العناصر الثلاثة الأولى” في حقل العنوان بالأسفل، فإن هذا يتركنا مع كتلتين؛ الكتلة ١٦٠ التي تحتوي على سجلات ١، ٢ والكتلة ١٢٣ التي تحتوي على سجلات ٣، ٤، ومن ثم تخرج لنا هذه العملية العناصر التالية ١٦٠، ١٦٠، ١٢٣، ١٢٣، وعليه نضع السجلات التي تحمل صفات متطابقة في مجموعات معًا في كتل.

إذا أردت الاطلاع على فيديو يوضح كيفية استخدام Dedupe.io عمليًّا، اضغط هنا.