science

JPL crée la plus grande archive PDF au monde pour faciliter la recherche de logiciels malveillants

Lors de la création de l’ensemble, l’équipe n’a pas évalué le sujet réel des PDF. Leur objectif était de collecter un large échantillon représentatif de fichiers PDF trouvés sur Internet afin que les experts puissent rechercher les logiciels malveillants qui pourraient se cacher dans le code des fichiers. Ce travail sera ensuite utilisé pour aider à anticiper les menaces émergentes en ligne et à améliorer la technologie PDF.

Les PDF sont utilisés partout et sont importants pour les contrats, les documents juridiques, les conceptions techniques 3D et bien d’autres fins. « Malheureusement, ils sont complexes et peuvent être piratés pour cacher un code malveillant ou présenter différentes informations à différents utilisateurs de manière malveillante », a déclaré Tim Allison, scientifique des données au Jet Propulsion Laboratory en Californie du Sud. « Pour relever ces défis et d’autres PDF, un large échantillon de PDF du monde réel doit être collecté sur Internet pour créer une ressource partagée et disponible gratuitement pour les experts en logiciels. »

travail numérique

Construire le groupe n’a pas été une tâche facile. Comme point de départ, l’équipe d’Alison a utilisé Common Crawl, un référentiel public et open source de données d’exploration Web, pour sélectionner une variété de fichiers PDF à inclure dans la collection, des fichiers accessibles au public et non protégés par des pare-feu ou des réseaux privés. L’exploration a été menée entre juillet et août 2021, et l’exploration a identifié près de 8 millions de PDF.

Une analyse commune limite les données téléchargées à 1 Mo par fichier, ce qui signifie que les fichiers plus volumineux étaient incomplets. Mais les chercheurs ont besoin du PDF entier, et non d’une version abrégée, pour mener des recherches significatives dessus. La limite de taille de fichier a réduit le nombre de fichiers complets non coupés extraits directement de l’analyse partagée à 6 millions. Pour obtenir 2 millions de fichiers PDF supplémentaires et s’assurer que la collection était complète, l’équipe du JPL a récupéré les fichiers coupés à l’aide d’un logiciel spécialisé qui télécharge les fichiers entiers à partir des adresses Web des fichiers PDF incomplets.

READ  A Toulouse, la pénurie «momentanée» de vaccins antigrippaux a commencé: «C'est du jamais vu»

Diverses métadonnées, telles que le logiciel utilisé pour créer chaque PDF, ont été extraites et incluses dans la collection. L’équipe JPL s’est également appuyée sur un logiciel de géolocalisation gratuit et accessible au public pour déterminer l’emplacement du serveur du site Web source pour chaque fichier PDF. L’ensemble de données complet totalise environ 8 téraoctets, ce qui en fait la plus grande collection de ce type accessible au public.

Le groupe fera plus que simplement aider les chercheurs à identifier les menaces. Les chercheurs en confidentialité, par exemple, pourraient étudier ces fichiers pour déterminer comment améliorer les logiciels de création et d’édition de fichiers afin de mieux protéger les informations personnelles. Les développeurs de logiciels peuvent utiliser les fichiers pour trouver des erreurs dans leur code et pour vérifier si les anciennes versions du logiciel sont toujours compatibles avec les nouvelles versions des fichiers PDF.

« Il s’agit d’une science ouverte et reproductible », a déclaré Simson Garfinkel, qui a créé une collection d’un million de fichiers, dont des milliers de fichiers PDF, appelée GOVDOCS1 en 2008, alors qu’il était professeur associé à la Naval Postgraduate School de Monterey, en Californie. l’un des types les plus importants de fichiers sont en ligne aujourd’hui, et cette contribution de près de 8 téraoctets de données fournit aux professeurs, aux étudiants et aux entreprises des données de référence mises à jour qui amélioreront la recherche pour les années à venir. »

L’archive Big Data est hébergée par le projet Digital Corpora dans le cadre du programme de parrainage Open Data d’Amazon Web Services, et les fichiers ont été regroupés dans des fichiers zip facilement téléchargeables.

READ  La NASA a compilé une playlist de sons du système solaire

Delphine Perrault

"Solutionneur de problèmes extrêmes. Chercheur avide de bacon. Écrivain maléfique. Geek du Web. Défenseur des zombies depuis toujours."

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Fermer
Fermer