دليل المبتدئين لاستخراج البيانات من ملفات PDF

1 min read

كثيرًا ما يحصل الصحفيون على البيانات في صيغة PDF؛ إما جداول بيانات داخل التقارير نفسها أو ملفات spreadsheet تم حفظها كملف PDF.

ما لم يتم تحويل هذه الملفات إلى spreadsheet، فلن يمكن الاستفادة منها بشكل كبير. لحسن الحظ، توجد عدة وسائل بإمكانها أن تساعدك على تحرير بياناتك.

 

Tabula

تعد هذه الأداة حلًا للمشاكل، إذ إنها مجانية وسهلة الاستخدام ومنتشرة بدرجة كبيرة مع غير الفنيين أمثالي، والمرات الوحيدة التي لا أستخدم فيها هذه الأداة هي عندما تكون ملفات PDF التي أريد استخراج البيانات منها ممسوحة ضوئيًّا أو عندما تكون الجداول المتضمنة داخل الملف مدارة بدرجة ٩٠.

تسمح هذه الأداة بتحميل ملفات كاملة وتحديد الجداول التي تريد تحويلها، إذ تسمح بتحويل الجداول إلى ملفات CSV وTSV، التي يمكن نقلها إلى جداول جوجل أو Libre Office Calc أو إكسل أو أي برنامج تفضله.

 

Cometdocs

يُشاع استخدام هذه الأداة أيضًا بين الصحفيين، وبخاصة الصحفيين الاستقصائيين والمحررين، إذ إنها سهلة الاستخدام، ويمكنك استخدامها في تحويل ما يصل إلى خمسة ملفات أسبوعيًّا مجانًا وأكثر من ذلك إذا قمت بعمل اشتراك (٩٫٩٩ دولارات شهريًّا أو ١٣٠ دولارًا مدى الحياة).

يمكنك استخدامه بسهولة عن طريق تحميل ملف الـPDF الذي تريد تحويله، ثم الضغط على زر التحويل والاختيار بين إكسل وODS (الذي يمكن فتحه في Libre Office)، إلَّا أن CSV ليس متاحًا.

الشيء الجيد في Cometdocs هو أنه يقوم بعمل ما يسمى بـ”التعرف الضوئي على الحروف”، التي تسمح بتحويل ملفات PDF الممسوحة ضوئيًّا، إلَّا أنك ستكون بحاجة إلى مقارنة الملف المُحول بالملف الأصلي للتأكد من أن كل شيء تم التقاطه بشكل صحيح، وكذلك فإنه لا يتعامل مع الجداول المُدارة.

 

Adobe Export PDF

هذه الأداة ليست مجانية، ولكنها ليس مكلفة بدرجة كبيرة (٢٤ دولارًا سنويًّا). إذا كنت تستخدم Adobe Reader، يمكنك تحويل ملف PDF إلى إكسل وورد وباور بوينت أو RTF، وهو جيد وسريع في التعامل مع الملفات الضخمة إلى حد ما، لكنه لا يتعامل مع الملفات الممسوحة ضوئيًّا أو الجداول المُدارة.

 

Nitro Pro

إذا كان نظام التشغيل الخاص بك هو Windows، فإن Nitro يسمح لك بتحويل ملفات PDF إلى تنسيقات يمكن التعامل معها، لكنه ليس مجانيًّا (١٦٠ دولارًا).

 

Acrobat Pro

يمكن استخدام هذه الأداة إذا كان نظام التشغيل الذي تتعامل معه هو Mac، لكنها ليست مجانية (١٥ دولار شهريًّا، ويتطلب التزامًا سنويًّا).

 

Zanran

قامت شركة مقرها المملكة المتحدة بتطوير برنامج يقوم بمعالجة آلية لملفات PDF. وعلى الرغم من أنه ليس مجانيًّا، يمكن تجربته إذا كان حجم الملف الذي تريد تحويله ١٫٥ ميجا بايت أو أصغر.

يمكنك تحميل ملف الـPDF ووضع عنوان البريد الإلكتروني الخاص بك، وستصلك رسالة بها الملف بعد تحويله.

 

Zamzar

وهي أداة تحويل متاحة على الإنترنت تمكنك من تحميل الملف واختيار التنسيق الذي تريده وسيتم إرسال الملف المُحول إلى عنوان البريد الإلكتروني الذي تُدخله.

 

الجداول المدارة

عندما تحتوي ملفات PDF التي تريد تحويلها على جداول مُدارة بدرجة ٩٠، فستكون هناك حاجة إلى إعادتها إلى وضعها الأصلي مرة أخرى، وللقيام بذلك ستكون بحاجة إلى محرر PDF مناسب مثل Acrobat Pro أو Nitro Pro.

 

إذا كان لديك Acrobat Pro، فإن هذا ما يجب عليك القيام به:

١- إذا كانت الجداول جزءًا من مستند أكبر، افتح المستند، اختر Organize Pages، استخرج الصفحات بما تحويه من جداول تريد تدويرها، وإذا كنت تريد استخراج عدة صفحات متتالية فمن الأسهل استخراجهم في ملفات منفصلة.

٢- افتح الصفحة التي تحتوي على الجدول، اذهب إلى قائمة View وقم بالتدوير حتى يصبح جدولك عموديًّا.

٣- إذا كانت هناك ترويسات أو تذييلات أو أية نصوص أخرى مُدارة في اتجاه غير الاتجاه المُدارة ناحيته جداولك، احذفهم جميعًا عن طريق Edit PDF.

٤- اذهب إلى خيار Enhance Scans، واختر Recognize Text، راجع الإعدادات حتى تتأكد من اختيار Save as editable text and images، من الممكن أن يستغرق الأمر عدة دقائق حتى يتم تدوير جدولك.

٥- عد إلى قائمة View وقم بتدوير صفحتك حتى يصبح الجدول عموديًّا مرة أخرى، ثم احفظ الملف.

٦- يمكنك أن تجرب تحويل صفحتك إلى spreadsheet في إكسل عن طريق Export PDF، إلَّا أنني أجد أن Tabula يقوم بهذه المهمة على نحو أفضل.

٧- قم دائمًا بمراجعة البيانات التي تم تحويلها بالملف الأصلي، لأنه في بعض الأحيان يتم الخلط بين 8 و6 وB، لكن حتى إن لم تكن عملية التحويل مثالية، فإن هذه الطريقة أسرع كثيرًا من كتابة الملف يدويًّا في spreadsheet.

 

تحويل ملفات PDF الممسوحة ضوئيًّا

إذا كان ملف PDF ممسوحًا ضوئيًّا، فسيتم التعامل معه باعتباره صورة أكثر منه نصًا، وعليه إذا أردت استخراج البيانات في جدول، ستكون بحاجة إلى تحويله إلى نص من خلال تقنية التعرف الضوئي على الحروف السابق ذكرها، ويمكنك استخدام Cometdocs أو Acrobat Pro  أو Nitro Pro لهذا الغرض.

ما لم تكن جودة المسح الضوئي سيئة، فمن المفترض أن تتعرف أداة Enhance Scans الخاصة بـEnhance Scans على النص في ملف PDF الخاص بك. وفي بعض الأحيان، يكون من المفيد أن تحتفظ بصورة للجدول الذي تريد استخراج بياناته من ملف الـPDF الخاص بك قبل أن تستخدم أداة Enhance Scans.

 

ملفات PDF المحمية بكلمة سر

في بعض الأحيان، تكون ملفات PDF محمية بحيث لا يمكنك إدخال تعديلات عليها أو تحويلها إلى أي تنسيق آخر. إذا كنت تتعامل مع نظام تشغيل Mac ولديك برنامج Preview، حاول أن تفتح ملف الـPDF في Preview، ثم اختر أن يكون الملف PDF من قائمة File، وافتح النسخة الجديدة من PDF وانظر إذا كنت قادرًا على تحويله إلى spreadsheet الآن.

 

هذه المقالة هي الجزء الثالث من سلسلة من حين إلى آخر المعنية بالأدوات المفيدة لصحفيي البيانات على وسائل الإعلام هاك الجماعية لصحافة الأدوات، وقد تُرجِمت إلى اللغة العربية كمشروع تعاوني بين الشبكة العالمية للصحافة الاستقصائية وشبكة صحفيي البيانات العرب.

لورا غرانت

صحفية بيانات وشريك في “هاك ميديا”، وهو تعاون مخصص لسرد القصص الرقمية. عملت كصحفية منذ أكثر من 20 عاما، وهي المحرر المساعد السابق للمشاريع الرقمية والبيانات في “ميل آند جارديان” في جنوب أفريقيا، حيث أنتجت قصص تستند إلى البيانات والرسومات التفاعلية والخرائط.