خطوات التحقق من البيانات

1 min read

قواعد البيانات، أينما كانت، لا يجمعها ويسجلها إلا البشر، وبالتالي فهي أيضًا عرضة للأخطاء البشرية، مهما بلغت مصداقية مصدرها.

وبما أنك صحافي مهني، فآخر ما تريد الوقوع فيه أن تروي  للقارئ تحليلات مبنية على بيانات خاطئة أو غير مناسبة، ولذلك فمن أهم مراحل التعامل مع البيانات، هي مرحلة التحقق من صحتها Data Verification، ولكي نسهل لك هذه المهمة الخطيرة، نقدم لك هنا 8 خطوات عملية للتحقق من صحة بياناتك.

قبل تحليل البيانات

الخطوة الأولى: تأكد من فهمك للبيانات

لا تبدأ العمل على أي قاعدة بيانات طالما لم تفهمها فهمًا تامًّا لا لبس فيه، فكيف ستشرح للناس شيئًا أنت نفسك لا تفهمه؟ ولكي تفهم قاعدة البيانات التي تتعامل معها، اسأل نفسك الأسئلة التالية وسجل إجاباتها  في الجدول الذي يمكنك الاطلاع عليه وتحميله من هنا، واحفظه قريبًا من قواعد بياناتك.

س 1:  ما هي الجهة التي جمعت البيانات، وما هي الجهة التي تولت نشرها؟

ليس بالضرورة أن تكون الجهة التي نشرت البيانات هي نفسها التي جمعتها، فعلى سبيل المثال ينشر الجهاز المركزي للتعبئة العامة والإحصاء في كتابه السنوي الإحصائي مجموعة من البيانات عن المجالات المختلفة، بما فيها البيانات المناخية على مدار الأعوام، ولكن مصدر هذه البيانات هو هيئة الأرصاد الجوية.

فمعرفتك المصدر والناشر ومدى مصداقيتهما، وعلاقتهما بموضوع قاعدة البيانات هو أمر مهم قبل كل شيء.

س2:  لماذا جُمعت البيانات؟

هل الجهة التي تجمع البيانات مسؤولة بصفة أساسية عن جمعها دوريًّا، أم جمعت تحت ظروف استثنائية؛ لإثبات أمر معيّن أو للتوقع بنتيجة انتخابات مقبلة مثلًا؟

س3: ما هي منهجية جمع البيانات؟

كيف جمعت البيانات؟ هل جمعت عن طريق استطلاع رأي أم تجربة أم بطلبات الإدلاء بالبيانات موجهة للدول أو المؤسسات؟ وإن كانت الطريقة هي استطلاع رأي فما هي الأسئلة؟ وكيف وجهت؟ ولمن وجهت؟ كل هذه الأسئلة وأكثر بكثير تنطوي تحت سؤال المنهجية، وهو سؤال أساسي أيضًا.

س4: ما هو حجم عينة البحث؟

من الضروري جدًّا أن تسجل حجم عينة البحث أو الاستطلاع، وفي هذا، لا يهم فقط أن تفكر في العدد إن كان كبيرًا أم صغيرًا، بل أن تنظر إن كانت العينة ممثلة للأصل أم غير ممثلة، وإن كان التمثيل أو عدم مناسبًا لغرض جمع البيانات أم لا؟

س5: ما هو مقدار حيز الثقة؟

إن كانت البيانات معتمدة على استطلاع رأي أو أي نوع من التقديرات، فمن المهم أن تعرف مقدار حيز الثقة Confidence Interval، وهو مفهوم مرتبط بهامش الخطأ، فحين تقرأ إحصائية مركز بصيرة بأن 63% من المصريين يرفضون وقوع الطلاق الشفوي من دون توثيق، بهامش خطأ 3%، فهذا يعني أن المركز متأكد بنسبة 95% (أو 99% أو 90%، بحسب طريقة حساب مجال الثقة) أن نسبة الرافضين من الشعب المصري تقع فعلًا في أي مكان ما بين 60% (63% ناقص 3%)، وبين 66% (63% زائد 3%).

وبالطبع، كلما زاد هامش الخطأ، قلت مصداقية الاستطلاع، فبينما يعد هامش خطأ 3% هامشًا مقبولًا جدًّا، يعتبر هامش خطأ 10% على سبيل المثال هامشًا قد يكون كبيرًا إلى حد غير.

س6: متى جمعت البيانات، ومتى كانت آخر مرة تم تحديثها فيها؟

من الأساسي بالتأكيد أن تعرف الوقت الذي تسجله هذه البيانات، كما هو من الأساسي أن تنتبه لتاريخ آخر مرة تم فيها تحديث البيانات، خاصةً على المصادر الإلكترونية المباشرة.

س7: ماذا يمثل كل صف من البيانات؟ (مستوى البيانات)

فعلى سبيل المثال، حين ننظر إلى قاعدة بيانات عن مبيعات سلسلة محال تجارية، فينبغي أن نفهم هل يمثل كل صف منتج واحد مباع؟ أم يمثل طلبية كاملة من المنتج نفسه؟ أم يمثل طلبية كاملة من مجموعة منتجات من النوع نفسه؟

الخطوة الثانية: لا تتنازل عن الشك

معظم الصحافيين قد يعتبرون أن البنك الدولي، على سبيل المثال، هو مصدر موثوق به، وبالتالي تتمتع قواعد بياناته بمصداقية تامة، ولكن حتى قواعد البيانات هذه لا تكون كاملة في أغلب الأحيان.

ولذلك، فمهما كانت مصداقية مصدر قاعدة البيانات، ومصداقية الجهة التي نشرتها، لا تتنازل عن شكك في البيانات، وأكمل باقي خطوات التحقق من المصداقية.

الخطوة الثالثة: تحقق من النواقص

تحقق من مدى اكتمال قاعدة بياناتك قبل أن تتعامل معها، والأهم أن تعرف كيف تترجم القيم الناقصة في قاعدة البيانات، فقد يكون معبّرًا عنها بالقيمة الصفرية على سبيل المثال، وهذا يؤدي في تحليل البيانات بعد ذلك لنتائج خاطئة بجمع الأصفار مع الأرقام على مستوى الصفوف كلها، بينما من المفترض أن تحلل الصفوف ذات البيانات الكاملة فقط، خاصة إن كنت ستحسب نتائج تعتمد على عدد الصفوف مثل الوسط الحسابي على سبيل المثال.

ومن الطرق الجيدة للتحقق من النواقص هي أن تنشئ جدولًا محوريًّا بسيطً باستخدام Google Sheets أو MS Excel، وسيوضح لك القيم الناقصة في كل عامود.

الخطوة الرابعة: تحقق من المنطقية

سيساعدك تصميم البيانات الاستكشافي السريع في رصد القيم الناشزة Outliers، وهي القيم التي تزيد أو تنقص عن بقية البيانات زيادة أو نقصانًا غريبًا، وهنا يكون التفسير واحدًا من اثنين، إما أن القيمة خاطئة، مثل أن تكون القيمة ينقصها رقم، أو أن يكون الرقم صحيحًا، وحينها تكون قد وقعت على كنز قد تبني منه قصتك الصحافية بكاملها.

الخطوة الخامسة: تحقق من صحة مجموعة من الصفوف على حدة

إن كانت نوعية البيانات تسمح لك بمراجعة كل صف من صفوف البيانات، فلا تتردد في أن تفعل ذلك، فعلى سبيل المثال، يفترض أن تكون قاعدة البيانات هذه تجمع كل المشروعات التي يقيمها البنك الدولي حول العالم، وتكلفة كل مشروع منها، وبترتيب هذه البيانات تنازليًّا من حيث تكلفة المشروع “Lending Project Cost”، يظهر لنا أن أعلى مشروع من حيث التكلفة (بفارق مهول) هو مشروع بمجال الصحة والتغذية في المكسيك يكلف 26,861 مليون دولار أمريكي، ولكي نتأكد من أن الرقم لم يكتب خطأ مثلًا يمكننا أن نبحث في جوجل عن هذا المشروع باستخدام رقم هويته “Project ID”، الذي هو P116226، وبهذا البحث نصل إلى وثيقة مفصلة عن المشروع، وتذكر أن تكلقته هي نفسها الموجودة في قاعدة البيانات، وهو ما يعني أن الرقم مسجل تسجيلًا صحيحًا في قاعدة البيانات.

حاول أن تكرر هذه العملية مع أكبر عدد ممكن من الصفوف، وبالتأكيد كلما قلت الأخطاء التي تجدها، قد يشير هذا إلى صحة أكمل للبيانات التي تتعامل معها.

 

بعد تحليل البيانات

الخطوة السادسة: راجع إن كانت طريقة حسابك تجيب فعلًا على أسئلتك

فإذا كنت تريد حساب متوسط تكلفة المشاريع في قاعدة البيانات السابقة مثلًا، فهل الأنسب للبيانات هو المتوسط الحسابي أم الوسيط أم المنوال؟ وإن كنت تتعامل مع أعداد المتعطلين عن العمل وتريد حساب نسبتهم، فهل الأصح أن تحسب نسبتهم من إجمالي سكان المحافظة، أم من إجمالي عدد القادرين على العمل من المحافظة (وبالمناسبة، توجد طريقة متعارف عليها بالفعل لحساب معدل البطالة، وكذلك يجب عليك أن تعرف إن كانت هناك طرق معروفة بالفعل لحساب ما تحاول أنت حسابه).

الخطوة السابعة: راجع إن كانت معادلاتك صحيحة

برامج التعامل مع البيانات لن تخطئ في تنفيذ معادلاتك بكل تأكيد، فلا تخف من هذا، ولكن فلتخف من أن تكون قد أخطأت أنت في كتابة المعادلة، مثل أن تكون قد اخترت الخلية الخطأ أو أن تكون قد جمعت بدلًا من أن تنقص، أو أن تكون قد نسيت الأقواس، كل هذه وأكثر أخطاء بسيطة، ولكن عواقبها كارثية كما تعلم.

الخطوة الثامنة: قارن نتائجك مع الحقيقة أرض الواقع

من الخطأ أن تتصور أن كونك صحافيًّا مهتمًّا بالبيانات يعني أن تجلس لتحليل البيانات واستخلاص النتائج  فقط في الغرف المكيفة من دون النزول إلى أرض الواقع؛ فالمشاهدات الحية ومقابلة المصادر الإنسانية ستبقى هي من أهم جوانب العمل الصحفي.

تقول جيانينا سيجنيني الصحافية الاستقصائية من كوستا ريكا وهي صاحبة الخبرة الطويلة في التعامل مع البيانات وتحليلها: “من أهم الدروس التي تعلمتها في حياتي هي أن حتى أفضل التحليلات البيانية وأدقها لا يغني عن المشاهدات على أرض الواقع”.