-
Notifications
You must be signed in to change notification settings - Fork 5
New primary energy production data processing and merging with existent data #34
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: main
Are you sure you want to change the base?
Conversation
The latest updates on your projects. Learn more about Vercel for Git ↗︎
|
available_production_eia.country = translator.run(available_production_eia.country, raise_errors=True) | ||
|
||
### Conversions | ||
available_production_eia.loc[available_production_eia.energy_unit == "Mb/d",["energy"]] = available_production_eia[available_production_eia.energy_unit == "Mb/d"].energy.apply(lambda x :x / RATE_MBD_TO_MTOE) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Il me semble possible de le remplacer par :
available_production_eia.loc[available_production_eia.energy_unit == "Mb/d",["energy"]] /= RATE_MBD_TO_MTOE
Pareil pour les lignes suivantes. Qu'en penses-tu ?
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Je ne savais pas qu'on pouvait directement appliquer une fonction au sein de la fonction loc.
c'est noté!
|
||
list_col_group_by = ['group_type', 'group_name', 'energy_family', 'year'] | ||
dict_agg = {"energy": "sum"} | ||
available_production_eia = stats.run(available_production_eia,df_country=df_country,list_cols_group_by=list_col_group_by,dict_aggregation=dict_agg ) |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Super pour le code ! Pourrais-tu également sauvegarder le dataframe available_production_eia dans le dossier data/server/world_energy_history. La comparaison de ce nouveau fichier avec l'ancien permettra de vérifier si tout s'est bien passé. Je t'envoie un message Slack en ce sens. Congrats !
…o server/data/WORLD_ENERGY_HISTORY_primary_energy_prod.csv
J'ai merged les changements récents de main, mais les warnings relatifs aux pays sont toujours les mêmes, j'ai regardé, les fichiers utilisés (translation.py et country_groups ) sont bien à jour sur cette PR. @Yh-Cherif tu aurais une idée? Je vous remets l'output pour le contexte. |
Pour ce qui est des pays, 'Palau', 'Andorra', 'Liechtenstein', 'Monaco', 'San Marino' et 'Palestine', ces pays ne figurent pas dans les données issues de l'EIA (et je crois même qu'ils n'étaient pas présents dans l'ancienne base), j'ai donc décidé d'ignorer le warning concernant ces pays. Remarque : 'Swaziland' est à présent traduit en 'Eswatini' (cf wiki), c'est pour cela que cela renvoie un warning. Pour ce qui est des pays 'Hawaiian Trade Zone', 'Northern Marinana Islands', 'Micronesia', 'Kosovo', 'U.S. Territories', 'Tuvalu', 'Palestinian Territories', et 'World', ces pays ne sont pas présents dans le fichier country_groups.csv, ce qui implique que ces pays ne sont pas assignés à leurs groupes respectifs (ex: 'Micronesia' en Océanie). Remarque : J'ai retiré 'World' et 'Antarctica' car d'après @tvienne les zones sont refaites avec la classe StatisticsPerCountriesAndZonesJoiner() et pourraient causer des problèmes par la suite. Cela dit j'aimerai avoir votre avis concernant 'Antarctica' car je la considère comme une "zone" au même titre que l'Afrique ou l'Europe, qu'en pensez vous? |
En utilisant ce fichier, le problème devrait être réglé. |
Hello @blablasaur et @Yh-Cherif, merci pour vos retours sur la PR 👌 Quelques remarques sur le fichiers country_groups.csv :
|
@blablasaur, n'hésites pas à jeter un oeil aux autres commentaires remontés. Fais-moi signe quand c'est bon :) |
Merci pour vos commentaires, en effet ces pays sont aussi non présents dans les anciennes données (Palau , andorra , Monaco, San Marino, Liechstenstein, Palestine ). On peut donc ignorer les warnings. |
J'ai effectué les changements, derrière petite chose: WARNING: 1 countries are missing in the statistics dataset for zone : World D'après ce message, les pays 'Andorra', 'Liechtenstein', 'Monaco', 'San Marino sont pris en compte dans le groupe Europe mais pas dans Monde, est ce normal? |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Le fichier contient une colonne Unnamed : 0 qui est à supprimer :)
Merci @blablasaur pour les évolutions 👏 Le code s'est beaucoup amélioré, bravo. Encore quelques retours sur la qualité de données finale, on y est presque. Il semble y avoir un problème d'ordres de grandeur dans les données pétrole. Pourrais-tu vérifier l'unité des données et les corriger en conséquences ? ![]() ![]() ![]() |
Nous avons des données en doublon pour l'Allemagne. Cela a l'air d'être lié au problème Allemagne de l'Ouest - Allemagne de l'Est. Tu confirmes avoir eu le même problème @Yh-Cherif ? ![]() ![]() |
Effectivement, j'ai l'impression qu'il s'agit du même problème. De mon côté, l'Allemagne apparait à partir de 1991. Avant, il y a la segmentation Allemagne Est/Ouest. |
Issues
For now, some countries aren't present in the new data:

"Palestine" is absent and replaced with "Palestinian Territories", can the former be approximated by the later?
Some other countries that appear only in the new datasets:

Next step:
Adding the previous data to the new (question about which source to take as ground truth)