Page 1 sur 1

avancement de la récupération des fils Prepas.org ?

Publié : 01 août 2025, 11:34
par OKrtkovi
Bonjour,

Comment avance votre tâche ?

Et quels sont les outils utilisés, et où est-ce que vous avez retrouvé des traces des sujets ?
(vous n'aviez pas mis le lien vers votre conversation Reddit)

Re: avancement de la récupération des fils Prepas.org ?

Publié : 01 août 2025, 17:35
par parlonsprepa.admin
Bonjour,

J’ai téléchargé l’intégralité des pages du forum (y compris celles marquées comme vides) à l’aide de wget. Les pages de forum viennent de Wayback Machine.

Pour le traitement, j’utilise uniquement Python. Le parsing s’avère bien plus complexe que je ne le pensais car le forum a connu plusieurs versions de phpBB avec des structures HTML différentes au fur des années. Je dois donc adapter les parsers en fonction de ces variations.

Je ne manquerai pas de vous tenir au courant de l’avancement.

Re: avancement de la récupération des fils Prepas.org ?

Publié : 01 août 2025, 20:14
par OKrtkovi
Avec quelle bibliothèque Python ?

Re: avancement de la récupération des fils Prepas.org ?

Publié : 02 août 2025, 14:20
par ubb33
Peut-être essayer de commencer par les dernières années 25/24/23 si les versions sont identiques et remonter peu à peu en préférant peut-être aussi les parties "du lycée vers la Prépa" et "Prépa aux grands ecole".

Ca peut aussi faire gagner du temps .