banner
Centre d'Information
Notre portefeuille de produits et de services comprend une gamme d'options exceptionnelles pour vous.

Un ensemble de données synthétiques de prosommateurs d'électricité résidentiels danois

Jan 31, 2024

Données scientifiques volume 10, Numéro d'article : 371 (2023) Citer cet article

1 Altmétrique

Détails des métriques

Les consommateurs d'électricité résidentiels conventionnels deviennent des prosommateurs qui non seulement consomment de l'électricité mais aussi la produisent. Ce changement devrait se produire au cours des prochaines décennies à grande échelle, et il présente de nombreuses incertitudes et risques pour l'exploitation, la planification, l'investissement et les modèles commerciaux viables du réseau électrique. Pour se préparer à ce changement, les chercheurs, les services publics, les décideurs et les entreprises émergentes ont besoin d'une compréhension globale de la consommation d'électricité des futurs prosommateurs. Malheureusement, la quantité de données disponibles est limitée en raison de problèmes de confidentialité et de la lenteur de l'adoption de nouvelles technologies telles que les véhicules électriques à batterie et la domotique. Pour résoudre ce problème, cet article présente un ensemble de données synthétiques contenant cinq types de données sur l'électricité importée et exportée par les prosommateurs résidentiels. L'ensemble de données a été développé à l'aide de données réelles sur les consommateurs traditionnels du Danemark, de données de production PV du modèle global d'estimation de l'énergie solaire (GSEE), de données de recharge de véhicules électriques (EV) générées à l'aide du package emobpy, d'un opérateur de système de stockage d'énergie résidentiel (ESS) et d'un modèle basé sur le réseau antagoniste génératif (GAN) pour produire des données synthétiques. La qualité de l'ensemble de données a été évaluée et validée par une inspection qualitative et trois méthodes : des statistiques empiriques, des mesures basées sur la théorie de l'information et des mesures d'évaluation basées sur des techniques d'apprentissage automatique.

Avec la pénétration croissante des sources d'énergie renouvelables (SER), des véhicules électriques (VE) et des systèmes de stockage d'énergie (ESS) dans les ménages modernes, les consommateurs conventionnels se transforment en prosommateurs, rendant les systèmes électriques de plus en plus dynamiques et bidirectionnels. En 2022, les SER ont poursuivi leur croissance rapide, représentant 13 % de la production mondiale d'électricité, affichant une augmentation de 17 % par rapport à 20211. Les perspectives de l'Agence internationale de l'énergie (AIE), publiées en 2021, prévoyaient que 56 % de la production mondiale d'électricité proviendrait de énergies renouvelables d'ici 2050, où l'énergie solaire devrait être la principale ressource renouvelable représentant jusqu'à 43 % de la part totale des SER2. La consommation mondiale d'électricité augmentera également en raison du chauffage des locaux et de l'électrification des transports. Parmi toute la consommation d'électricité, les véhicules électriques domestiques seraient le principal contributeur à la réduction des émissions, et devraient représenter 70 % du total des véhicules de tourisme d'ici 2050, tandis que les véhicules électriques à batterie (BEV) représenteront 56 % de toutes les ventes de véhicules3.

Sur la base de cette projection, il est impératif que les opérateurs de réseau, les décideurs, les services publics et les autres parties prenantes comprennent la dynamique de la consommation d'électricité résidentielle à l'avenir. Cependant, il existe plusieurs obstacles à cela, principalement en ce qui concerne la disponibilité de données de haute qualité. Premièrement, les données sur la consommation individuelle d'électricité à grande échelle ne sont pas disponibles pour les praticiens et les chercheurs en raison des préoccupations des consommateurs en matière de confidentialité. Dans les pays où les déploiements de compteurs intelligents sont répandus, les données de consommation d'intervalle ne sont disponibles que pour les consommateurs, les opérateurs de système et les détaillants pour la facturation. Cependant, dans tous les cas, les types d'utilisateurs en fonction de leur équipement derrière le compteur (BTM), par exemple, EV, batteries stationnaires ou systèmes solaires PV, sont inconnus. Deuxièmement, le type de prosommateurs d'électricité existant est quasi-dynamique et évolue dans le temps sans mécanisme pour mettre à jour les catégorisations des prosommateurs. Par exemple, un dysfonctionnement solaire PV peut faire temporairement d'un utilisateur solaire un utilisateur non solaire ou l'indisponibilité d'un VE peut modifier temporairement le type d'utilisateur. Une connaissance dynamique du type de prosommateur (par exemple, sur une base horaire ou quotidienne) pourrait être cruciale pour les opérateurs de système, les agrégateurs et les détaillants afin de mieux estimer le comportement de la demande dans les heures ou les jours à venir pour la planification et l'exploitation. À cet égard, un ensemble de données étiquetées à grande échelle des différents types de consommation d'électricité des prosommateurs facilite la modernisation des réseaux électriques4.

Les ensembles de données publics existants se répartissent en deux grandes catégories : (1) les données récoltées dans les laboratoires vivants5,6,7 et (2) les études de simulation8,9. Certains laboratoires vivants dans le monde recueillent des données d'intervalle au niveau des appareils avec des compteurs intelligents et d'autres appareils intelligents6,7,10,11. Ceux-ci peuvent fournir des données à haute résolution, mais uniquement pour un nombre limité de prosommateurs. En raison de problèmes de confidentialité ou d'obligations contractuelles, certains d'entre eux ne peuvent pas partager les données publiquement. Parmi les études de simulation, certains chercheurs ont construit des modèles basés sur la physique ou basés sur les données pour simuler la consommation d'électricité des ménages individuels8,9,12. Les modèles basés sur la physique nécessitent des paramètres physiques des bâtiments, tels que la capacité thermique, la résistance thermique, les températures intérieures, etc., qui sont difficiles à obtenir et à maintenir dans la pratique. De plus, les modèles basés sur la physique exacerbent les problèmes de confidentialité car plus il en sait sur un prosommateur, plus il est facile d'identifier le ménage. Par rapport aux modèles basés sur la physique, les modèles basés sur les données reposent uniquement sur les données historiques des consommateurs/prosommateurs. Le principal problème est que les technologies BTM résidentielles avec une automatisation appropriée n'ont pas encore été adoptées à grande échelle, en particulier pour les batteries stationnaires et les BEV. Par conséquent, les modèles basés sur les données ne disposent pas de suffisamment de données d'intervalle pour synthétiser une grande variété de différents types de séries chronologiques de prosommateurs.

Pour résoudre le problème de disponibilité des données, nous construisons d'abord un ensemble de données basé sur les données des consommateurs du monde réel en tant qu'utilisateurs de référence et l'agrégeons avec trois données d'intervalle RES différentes en tenant compte d'autres informations du Danemark. Les trois SER considérés sont : les systèmes de stockage d'énergie automatisés (ESS), les systèmes solaires photovoltaïques sur les toits et les BEV, car on s'attend à ce que les BEV dominent le futur marché des véhicules3. De cette façon, nous créons cinq prototypes de prosommateurs et un prototype de consommateurs par souci d'exhaustivité. Pour résoudre le problème de confidentialité lié à l'utilisation des données des consommateurs du monde réel, nous reformatons les données quotidiennement et appliquons des synthétiseurs de données basés sur le réseau antagoniste génératif tabulaire conditionnel (CTGAN) pour générer des données synthétiques pour chaque prototype. Cette procédure peut protéger la vie privée des consommateurs du monde réel pour trois raisons. Premièrement, nous avons utilisé les données électriques de consommateurs réels pour produire différents types de profils électriques de prosommateurs, ce qui signifie que leur véritable consommation est masquée en la mélangeant avec la série temporelle RES. Deuxièmement, le générateur de données est une méthode de boîte noire qui ne peut pas faire l'objet d'une ingénierie inverse et est difficile à désagréger. De plus, le mode de vie et l'occupation de l'utilisateur final sont inexistants dans l'ensemble de données car l'ensemble de données ne contient que des profils quotidiens sous certaines saisons et températures ; par conséquent, il n'y a pas de lien entre deux jours consécutifs. Dans l'ensemble, nous avons créé un ensemble de données synthétiques de 600 000 jours d'énergie importée du réseau et d'énergie exportée vers le réseau. L'algorithme conçu produit six types de profils de consommation d'utilisateurs d'électricité en tenant compte de deux types de jours (jours de semaine et autres jours, qui incluent les jours fériés et les week-ends), quatre saisons et la température ambiante. Notamment, nous ciblons les prosommateurs résidentiels danois car notre partenaire industriel, Watts A/S, est danois et a fourni les données d'utilisation horaire des consommateurs traditionnels pour notre projet13. Néanmoins, le synthétiseur de données proposé est générique et peut être utilisé pour synthétiser des données pour d'autres régions et pays en fonction de la disponibilité des données et des informations requises.

Plusieurs facteurs rendent cette étude et cet ensemble de données significatifs. Premièrement, l'ensemble de données contient la consommation d'électricité horaire importée (du réseau) et exportée (vers le réseau) des utilisateurs résidentiels individuels étiquetés par équipement BTM, type de jour, saison et température quotidienne. À notre connaissance, un tel ensemble de données n'est actuellement pas accessible au public pour la recherche et le développement7,14. En outre, l'ensemble de données peut être utilisé dans différentes applications, par exemple, la planification du système, l'analyse de marché et le développement de modèles commerciaux, la modélisation de la flexibilité BTM, la conception de centres énergétiques communautaires, la conception de micro-réseaux et de marchés locaux, et l'évaluation de l'électrification et son impact sur les émissions de gaz à effet de serre dans le l'ère des prosommateurs15,16. Deuxièmement, la qualité de l'ensemble de données est validée de quatre manières, à savoir l'inspection qualitative, les statistiques empiriques, les mesures d'évaluation basées sur l'apprentissage automatique (ML) et la théorie de l'information. Enfin, l'ensemble de données synthétiques évite les problèmes de confidentialité pour les raisons évoquées ci-dessus.

Cette section décrit la méthodologie de génération de l'ensemble de données synthétiques proposé, y compris un flux de travail global, la modélisation de la consommation BEV résidentielle, la modélisation de la génération PV résidentielle et la modélisation ESS automatisée pour la synthèse des données. Enfin, nous introduisons le CTGAN utilisé pour la génération de données synthétiques.

Le schéma fonctionnel de la Fig. 1 montre le flux de travail de notre méthodologie. En général, huit phases sont impliquées dans l'obtention de l'ensemble de données synthétique final. Ces phases comprennent la collecte de données, la génération de profils annuels PV et EV, la détermination des prosommateurs avec ESS, la génération de profils ESS, la synthèse des types de prosommateurs, le fractionnement des données, l'étiquetage des données et la génération de données synthétiques. Au stade de la collecte de données, nous utilisons les données énergétiques de 2 000 consommateurs danois réels, y compris les données énergétiques importées et exportées en résolution horaire pour 2019, fournies par notre partenaire industriel du projet. Ces profils servent de charge de base. Il s'agit de ménages résidentiels danois vivant dans le même quartier dans les mêmes conditions météorologiques. Les données brutes ont été collectées à partir du DataHub17 de l'opérateur de réseau de transport danois (TSO) EnergiNet, avec le consentement des consommateurs conformément aux politiques de confidentialité du partenaire industriel18, au règlement général sur la protection des données (RGPD)19 et à la loi danoise sur la protection des données20. Les données météorologiques sont collectées à partir d'OpenWeather pour la zone spécifique21 et sous-échantillonnées pour correspondre à la résolution des données énergétiques, c'est-à-dire la résolution horaire. Alors que le taux d'adoption de BEV a augmenté de façon exponentielle au cours des dernières années22, il n'y a pas suffisamment de propriétaires de BEV disposés à partager leurs données pour aider à construire un ensemble de données crédible. De plus, la plupart des propriétaires actuels de BEV utilisent des chargeurs lents à la maison, et leur consommation de charge BEV n'est pas enregistrée séparément. Par conséquent, nous avons besoin d'un modèle de données de charge BEV sophistiqué pour générer des données pour les propriétaires de VE danois dans différents scénarios. Nous utilisons un outil fiable et validé23 avec de nombreuses caractéristiques et fonctionnalités pour simuler en détail la demande de recharge des VE dans le secteur résidentiel du Danemark. Pour intégrer les habitudes de conduite danoises, nous avons collecté des statistiques de mobilité danoises sur le nombre de trajets par jour, la distance et la durée, les spécifications des BEV telles que le type de moteur, la taille de la batterie, le transfert de chaleur et d'autres facteurs externes tels que la disponibilité des bornes de recharge et la puissance nominale du véhicule. chargeurs du Bureau of Statistics et de la part de marché de BEV au Danemark24,25. Plus de détails sur les données de charge BEV sont présentés dans la section « Générateur de profil EV ».

Le processus de génération de données tombe en panne.

Nous avons eu le même problème de disponibilité des données avec les données de production PV résidentielles. Fin 2019, seuls 13 % des ménages danois possédaient des systèmes photovoltaïques en toiture26. De plus, la production PV n'est pas mesurée séparément ; seules les données énergétiques exportées sont disponibles. Par conséquent, nous utilisons un modèle de génération PV prenant en compte les informations météorologiques locales et les biais systématiques sur l'ensemble de données satellite Meteosat. Le processus de synthèse des données de génération PV est expliqué en détail dans la section « Générateur de profil PV ». Ayant les profils EV et PV en main, une autre considération est de savoir si les prosommateurs ont une batterie stationnaire à la maison, ce qui est fait au stade de la détermination des prosommateurs avec ESS. Ici, nous avons arbitrairement sélectionné 300 prosommateurs comme utilisateurs ESS en raison d'un manque de données sur l'état actuel du stockage d'énergie résidentiel au Danemark. Néanmoins, on peut supposer différents niveaux de pénétration pour voir l'impact sur le profil énergétique importé/exporté des prosommateurs. Pour les consommateurs disposant d'une batterie stationnaire dans leurs locaux, un système d'automatisation basé sur des règles est développé pour produire les profils de charge/décharge de la batterie en fonction de la consommation interne, de la génération PV et de la consommation BEV (le cas échéant). Le contrôleur basé sur des règles pour le fonctionnement des SSE résidentiels est l'approche la plus courante dans l'industrie de nos jours27. Nous expliquons la génération de données ESS dans la section 'Générateur de profils ESS'.

Avec les trois modèles et les données de consommateurs réels, nous avons construit un ensemble de données de semences comprenant cinq types de prosommateurs avec différentes combinaisons d'équipements BTM. L'ensemble de données est ensuite divisé en profils quotidiens avec deux types de jours, c'est-à-dire les jours de semaine et les autres jours, y compris les jours fériés et les week-ends. Comme le montre le schéma de la Fig. 1, nous étiquetons les données générées selon les deux types de journées (journée ouvrée ou autre), la température médiane de la journée, l'écart type de la température journalière, et quatre saisons pour générer une synthèse ensemble de données avec 12 CTGAN en fonction de leurs types d'utilisateurs. De plus amples détails sont fournis dans « Modèle de génération de données synthétiques ».

Les profils d'utilisation de l'électricité varient considérablement d'une région à l'autre pour de nombreuses raisons socio-économiques, culturelles et techniques. Bien que nous ayons utilisé le cadre proposé pour synthétiser les données des prosommateurs et des consommateurs résidentiels danois dans cette étude, le cadre proposé peut être appliqué pour synthétiser les données des prosommateurs et des consommateurs dans n'importe quelle région en personnalisant les paramètres d'entrée.

L'activité de charge BEV est simulée avec emobpy23 en PYTHON. emobpy est un outil open source qui permet de générer des profils de charge BEV à partir de statistiques de mobilité empiriques et des propriétés physiques des véhicules. Il modélise la mobilité de conduite des BEV individuels, la consommation d'électricité, la disponibilité du réseau et l'énergie importée du réseau pour un ménage à l'aide de quatre modèles séquentiels. Plus précisément, le modèle de mobilité des véhicules utilise une approche d'échantillonnage pour générer des routines de déplacement plausibles pour chaque jour de la période de calcul sur la base de distributions de probabilités empiriques. Le résultat de ce modèle est une liste de trajets triés par ordre chronologique, représentés par des arêtes reliant les lieux d'origine et de destination avec l'heure de départ, la distance parcourue et la durée du trajet. Le modèle de consommation d'électricité estime une série chronologique de la consommation d'électricité de conduite des BEV pendant la conduite. Il formule les besoins en puissance pour la traction, le chauffage et le refroidissement des véhicules en tenant compte des séries chronologiques de mobilité des véhicules générées par le modèle de mobilité des véhicules, le type de véhicule, la vitesse et le terrain. Le modèle de disponibilité du réseau prend en compte la consommation d'électricité motrice et la disponibilité de l'infrastructure de recharge pour déterminer la série chronologique de disponibilité du réseau, qui représente le pourcentage de temps pendant lequel la recharge est possible pour les BEV dans une zone donnée. Enfin, l'énergie importée du modèle de réseau génère une série chronologique de la demande d'électricité du réseau pour charger les BEV en fonction de la série chronologique de consommation d'électricité motrice et de la disponibilité du réseau générée par les modèles précédents.

Pour réutiliser l'outil pour notre application, nous avons intégré les quatre modèles introduits dans emobpy dans un modèle et des paramètres personnalisés pour créer un nouveau modèle qui prend les propriétés physiques du BEV et les conditions météorologiques comme entrées et extrait le profil de charge résidentiel du BEV comme sortie. Les paramètres d'entrée, illustrés à la figure 1, sont collectés sur la base des statistiques de partage du marché BEV au Danemark25 et des données sur l'emploi de Statistics Denmark24. Compte tenu de la quantité totale de données et en excluant les cas d'échec, nous avons généré 743 profils de recharge résidentiels d'utilisateurs de BEV pendant un an, y compris différents statuts d'emploi, c'est-à-dire des utilisateurs de BEV à temps plein, à temps partiel et à temps libre et différentes marques de BEV. sur la base des statistiques ci-dessus. Ainsi, nous avons produit 538 utilisateurs à temps plein, 178 utilisateurs à temps partiel et 30 profils de charge BEV d'utilisateurs à temps libre qui seront utilisés plus tard pour synthétiser de nombreux autres utilisateurs BEV. Pour des raisons de simplicité et parce que nous n'impliquons pas de véhicules électriques hybrides dans l'étude, nous avons étiqueté les utilisateurs de BEV en tant qu'utilisateurs de véhicules électriques dans l'ensemble de données ci-après. De plus, nous ne considérons pas le fonctionnement véhicule-réseau dans cet article.

Nous avons utilisé Solar Ninja pour générer des profils PV. L'outil utilise le modèle global d'estimation de l'énergie solaire (GSEE) pour représenter le comportement des systèmes solaires sur les toits, ainsi que les réanalyses météorologiques mondiales et l'ensemble de données satellite CM-SAF SARAH basé sur Meteosat pour produire des profils de production PV horaires28. Pour être plus précis, l'outil utilise une modélisation mathématique pour estimer la puissance de sortie des panneaux photovoltaïques en calculant l'irradiance solaire sur le plan du PV, ainsi qu'en tenant compte des pertes de l'onduleur et du système causées par les courbes d'efficacité des panneaux en fonction de la température. Par conséquent, le modèle est déterministe et nécessite des entrées d'éclairement diffus, d'éclairement direct, de température, de latitude, de longitude, de perte du système, d'inclinaison, de capacité nominale des panneaux, d'angle et d'orientation des panneaux. Le modèle GSEE a été validé dans plusieurs pays européens dans diverses études de recherche, par exemple,29,30,31. Pour tirer parti des capacités de cet outil dans notre étude, à l'exception des paramètres météorologiques et géographiques, d'autres paramètres d'entrée (par exemple, la capacité PV, les pertes et l'inclinaison) sont obtenus à partir de la plate-forme PVoutput32, qui est une plate-forme publique de partage des données de production PV résidentielles. . En outre, nous avons utilisé les fiches techniques du TSO danois pour extraire des paramètres typiques, tels que la capacité PV, l'inclinaison et la perte du système, pour les petits systèmes PV résidentiels au Danemark33. Avec ces entrées, des modèles représentatifs sont construits pour synthétiser les données de production PV pour une utilisation ultérieure dans cette étude.

La plupart des recherches sur les technologies de stockage d'énergie au Danemark se divisent en deux types : les solutions centralisées et le stockage au niveau résidentiel, alors que les études portent généralement sur un niveau agrégé, car les utilisateurs avec ESS ont tendance à être modélisés comme un groupe34,35,36,37. Dans notre ensemble de données proposé, nous supposons que l'ESS appartient à des utilisateurs résidentiels et fonctionne à l'aide d'un simple contrôleur basé sur des règles (une pratique courante dans l'industrie appelée méthode de fonctionnement naïf)27. L'étude montre que la méthode d'opération naïve a des performances comparables aux modèles d'optimisation stochastique compliqués pour la plupart des cas27. Pour simuler le fonctionnement de l'ESS, deux paramètres sont nécessaires, à savoir la capacité de charge (stockage d'énergie utilisable maximum Smax) et la limite de puissance de charge/décharge Pmax. Ces deux paramètres sont générés à l'aide de la distribution de probabilité de différentes marques ESS en fonction de leur part de marché auprès de notre partenaire industriel13 et des spécifications ESS in38,39. Le contrôleur de batterie basé sur des règles fonctionne comme suit, en supposant que l'état de charge (SoC) au temps t est St :

Lorsque la demande nette est positive, c'est-à-dire que la production est supérieure à la demande (Eg, t>Ed, t), la puissance de charge de la batterie, donc l'énergie horaire, sera \({\rm{\min }}\left({E }_{{\rm{g}},t}-{E}_{{\rm{d}},t},{P}_{{\rm{\max }}},{S}_{ {\rm{\max }}}-{S}_{t}\right)\), où l'énergie importée est nulle et l'énergie exportée sera :

Lorsque la demande nette est négative, c'est-à-dire que la production est inférieure ou égale à la demande (Eg,t > Ed,t), l'énergie exportée sera nulle. Par conséquent, la puissance de décharge de la batterie est égale à \({\rm{\min }}\left({E}_{{\rm{d}},t}-{E}_{{\rm{g}} ,t},{P}_{{\rm{\max }}},{S}_{t}\right)\), et l'énergie importée sera :

En utilisant la méthode de fonctionnement naïve décrite ci-dessus, la batterie sera chargée lorsqu'une génération PV excédentaire est disponible. La batterie serait déchargée pour minimiser l'énergie importée du réseau lorsque la demande d'électricité des ménages est supérieure à la production PV.

Avec les générateurs de profils EV, PV et ESS, nous construisons un jeu de données comprenant cinq types de prosommateurs et un type de consommateur. Pour résoudre le problème de confidentialité évoqué dans "Contexte et résumé", nous avons divisé la série chronologique de chaque utilisateur en jours distincts, les avons agrégés dans des profils quotidiens, puis les avons utilisés comme entrées pour générer un ensemble de données synthétiques. Les autres paramètres d'entrée sont la médiane quotidienne et l'écart type de la température en tant que variables continues, la saison étant une variable catégorielle. Pour résumer, les paramètres sont les suivants :

Genre des jours

Jours ouvrés (252 jours) : Tous les jours de la semaine hors jours fériés.

Autres jours (113 jours) : Jours fériés et week-ends.

Principaux équipements BTM

PV

PV & SSE

PV et VE

PV & EV & ESS

VE

Consommateurs conventionnels

Température

Température médiane quotidienne

Écart-type journalier de la température

Saisons (printemps, été, automne et hiver)

Il existe de nombreuses techniques pour synthétiser les séries temporelles, notamment les modèles basés sur les copules40,41, les modèles basés sur les flux42, les modèles de diffusion43,44 et les modèles GAN45,46,47. Bien que les modèles de diffusion fonctionnent mieux pour générer des images synthétiques, les modèles basés sur GAN sont préférés pour synthétiser des séries chronologiques en raison de leur capacité à généraliser et à produire une variété de données haute fidélité48,49,50. Dans cet article, nous utilisons le modèle CTGAN, qui contient un GAN conditionnel et deux techniques pour générer des données synthétiques à partir de données réelles tabulées. Plus précisément, le CTGAN applique une technique d'apprentissage par échantillonnage pour les colonnes catégorielles et utilise un modèle de mélange gaussien variationnel (VGM) au lieu d'un GMM (modèle de mélange gaussien) pour les colonnes numériques afin de modéliser avec précision les distributions complexes. Dans cette étude, nous avons 12 types de prosommateurs/consommateurs (basés sur l'équipement BTM et le type de journée listés ci-dessus) ; par conséquent, 12 CTGAN, comme illustré à la Fig. 1. Ensuite, les 12 modèles CTGAN sont formés en fonction de chaque type de données utilisateur. Avec ces 12 types de modèles d'utilisateurs, nous générons un ensemble de données synthétiques équilibré. Le rapport de distribution des utilisateurs entre les ensembles de données réels et synthétiques est illustré à la Fig. 4. Les hyperparamètres des CTGAN sont identiques dans les 12 modèles et définis comme indiqué dans le tableau 1.

En utilisant le cadre discuté à la Fig. 1, l'ensemble de données synthétique final a été généré. L'ensemble de données est mis à la disposition du public sur Figshare51 sous deux formats, à savoir un fichier pickle avec la même structure que dans la Fig. 2 pour une utilisation exclusive dans PYTHON, et un fichier XLSX pour les utilisateurs qui ne sont pas familiers avec les outils de calcul51. Plus précisément, le fichier pickle est un objet imbriqué contenant six types d'utilisateurs par leur équipement principal, à savoir les utilisateurs PV, les utilisateurs PV & ESS, les utilisateurs PV & EV, les utilisateurs PV & EV & ESS, les utilisateurs EV et les consommateurs conventionnels, respectivement. Chaque type d'utilisateur a deux types de jours, à savoir les jours ouvrables et les autres jours, qui incluent l'énergie importée et exportée, la température moyenne quotidienne, l'écart type de la température quotidienne et la saison. D'autre part, le fichier XLSX présente six types d'énergie importée et exportée par les utilisateurs sous deux types de jours, chacun avec sa propre feuille de calcul formatée. Notamment, il y a 20 feuilles de calcul/onglets au total car les utilisateurs de VE et les consommateurs conventionnels n'ont pas de production renouvelable, donc pas d'énergie exportée. Les colonnes de chaque feuille de calcul sont les horodatages sur 24 heures d'une journée, c'est-à-dire 0 à 23, la température médiane, l'écart type de la température et la saison de la journée. Dans le référentiel en ligne51, nous avons également expliqué comment convertir la feuille de calcul XLSX en un fichier CSV pour la commodité des utilisateurs appliquant des outils de calcul autres que ceux de PYTHON.

Structure de l'ensemble de données proposé.

Le référentiel public contient les fichiers comme illustré à la Fig. 3, où le dossier Data contient l'ensemble de données proposé dans deux formats, y compris pickle et XLSX51. Le dossier Resources contient des codes en PYTHON pour la conversion et l'analyse des données. Le dossier de sorties inclut les résultats visualisés générés à partir de l'exécution du code d'analyse de tracé 'generate_plots_analysis.py' dans le dossier Resources. Le fichier d'exigences décrit les dépendances utilisées dans ce projet51.

Structure du fichier de jeu de données.

Distributions des types d'utilisateurs (anneau interne : données réelles, anneau externe : données synthétiques).

Nous avons validé la qualité des données synthétiques à l'aide d'une inspection qualitative et de trois analyses numériques : des statistiques empiriques, des métriques basées sur la théorie de l'information et des métriques d'évaluation basées sur le ML52. Comme indiqué dans la section "Contexte et résumé", il n'existe pas d'ensemble de données étiqueté à grande échelle sur les vrais prosommateurs. Par conséquent, nous prenons l'ensemble de données de base d'entrée pour le modèle générateur de données synthétiques comme l'ensemble de données réel à des fins de validation. Nous discutons de chaque méthode de validation respectivement dans les quatre sous-sections ci-dessous.

Nous avons comparé la consommation saisonnière moyenne des consommateurs conventionnels en semaine sur la Fig. 5. Ce profil moyen est étudié et comparé aux caractéristiques réelles de consommation d'électricité résidentielle danoise à un niveau agrégé11,53. La forme générale du profil et l'heure de pointe de l'électricité importée à 19 h sont similaires. Outre les profils de consommateurs moyens, nous avons comparé les modèles quotidiens les plus fréquents pour chaque type de prosommateur, appelés motifs raffinés (RM), entre les jeux de données réels et synthétiques4. Les résultats sont présentés dans la Fig. 6 pour différents types de prosommateurs et de jours. Les MR pour les données synthétiques et les données réelles partagent une amplitude et une tendance similaires, ce qui indique que l'ensemble de données synthétiques a des formes similaires à l'ensemble de données réel4.

Comparaison du profil de la demande saisonnière pour les consommateurs conventionnels.

Comparaison RM pour données réelles et synthétiques (bleu : données synthétiques, orange : données réelles).

Nous avons d'abord utilisé des boîtes à moustaches pour comparer visuellement les statistiques empiriques des ensembles de données réels et synthétiques, y compris le degré de dispersion (étalement) et d'asymétrie des deux ensembles de données, les 1er et 3e quartiles, l'intervalle interquartile, la moyenne, la médiane, le minimum, le maximum et valeurs aberrantes. La première comparaison est faite pour les données agrégées, présentées à la Fig. 7 séparément pour différents types de jour et d'énergie importée/exportée. Dans l'ensemble, les statistiques de données synthétiques suivent les valeurs de l'ensemble de données réel. L'ensemble de données sur l'énergie importée pendant la journée de travail montre les erreurs les plus élevées pour les utilisateurs de PV, EV et ESS, tandis que les statistiques des autres jours sont presque identiques. Nous avons également comparé l'énergie horaire importée et exportée par heures pour chaque type d'utilisateur dans les ensembles de données synthétiques et réels, illustrés à la Fig. 8, où les données synthétiques suivent la tendance générale dans chaque figure. Pour quantifier la différence entre les distributions de données réelles et synthétiques, la distance de Wasserstein, une mesure de la distance entre deux distributions de probabilité54, est calculée pour chaque intervalle. Les valeurs de distance de Wasserstein inférieures indiquent une plus grande similitude ou un chevauchement entre les distributions de données réelles et de données synthétiques. D'après les boîtes à moustaches de la Fig. 8, il apparaît que l'ensemble de données synthétiques a une valeur maximale inférieure aux données réelles pour certains types d'utilisateurs, par exemple, les utilisateurs PV & EV & ESS et les utilisateurs PV & EV. Une des raisons pourrait être la fonction de perte dans le CTGAN, preuve de la perte de la limite inférieure (ELBO), qui omet les données anormales de l'ensemble de données réel dans le processus d'optimisation. À partir de la distance de Wasserstein, les utilisateurs PV & EV & ESS présentent les plus grandes différences entre les ensembles de données synthétiques et réels parmi tous les types d'utilisateurs. Cette observation est en outre étayée par les diagrammes en boîte de données quotidiennes, qui fournissent des informations détaillées sur les différences de plage interquartile. Plus précisément, les décalages les plus importants pour les utilisateurs de PV & EV & ESS ont tendance à se produire vers 8h-11h pour l'électricité exportée et entre 19h et 20h pour l'électricité importée. Ces périodes coïncident avec une stochasticité élevée dans les données de production et de demande des prosommateurs en raison de l'influence de la production PV, de la recharge des VE et du fonctionnement du SSE. Par conséquent, cet écart entraîne des différences plus importantes dans les statistiques empiriques au niveau agrégé entre les ensembles de données synthétiques et réels.

Statistiques quotidiennes (bleu : données synthétiques, orange : données réelles).

Statistiques horaires des jours ouvrés. (vert : distance de Wasserstein entre données synthétiques et réelles. bleu : box plot de données synthétiques, orange : box plot de données réelles).

L'entropie de permutation (PE) est une métrique bien connue de la théorie de l'information des séries chronologiques qui quantifie la complexité d'un système dynamique en capturant les relations d'ordre entre les valeurs d'une série chronologique et en extrayant une distribution de probabilité des modèles ordinaux52. Dans une tentative de surmonter certaines limites, par exemple, l'incapacité de faire la différence entre des modèles distincts et l'insensibilité aux modèles proches du bruit de fond, ce qui le rend inadapté à des applications telles que l'analyse des données du système électrique55, l'entropie de permutation pondérée (WPE) a été proposée comme un mesurer avec plus de robustesse et de stabilité en incorporant des informations d'amplitude55,56.

Nous avons utilisé la mesure WPE pour comparer la complexité de l'ensemble de données synthétiques à l'ensemble de données réel pour chaque type d'utilisateur. Les hyperparamètres WPE sont réglés à l'ordre de 6 et retard de τ = 1 selon les recommandations in57,58. Une comparaison entre les données réelles et synthétiques est présentée dans le tableau 3. Dans des conditions idéales, nous nous attendons à ce que les deux ensembles de données aient une complexité similaire, c'est-à-dire des valeurs WPE. Dans le tableau, nous pouvons voir que l'ensemble de données synthétique est plus complexe que les données réelles, car le WPE pour l'ensemble de données synthétique est plus élevé. Cependant, la relation relative entre les différents types d'utilisateurs est cohérente des jeux de données réels aux jeux de données synthétiques, où le jeu de données synthétique est toujours plus complexe quel que soit le type d'utilisateur. Pour prouver la robustesse de cette fonctionnalité, nous avons divisé l'ensemble de données en 50 séries chronologiques avec une année de données pour les ensembles de données réels et synthétiques. Ensuite, nous avons calculé le WPE pour chaque série chronologique, illustré à la Fig. 10. Comme prévu, l'ensemble de données synthétiques montre toujours une plus grande complexité pour différents types d'utilisateurs, bien que les valeurs moyennes de WPE soient proches entre les ensembles de données réels et synthétiques. Cela montre que le CTGAN surestime généralement la complexité du jeu de données réel. Cependant, les types d'utilisateurs avec une complexité plus élevée dans l'ensemble de données synthétisé correspondent au même type dans l'ensemble de données réel, ce qui signifie que les modèles peuvent capturer avec succès les caractéristiques et la complexité relative de chaque type d'utilisateur.

La quatrième et dernière étude comparative utilise des modèles de classification ML pour évaluer la similitude des caractéristiques entre les deux ensembles de données. Plus précisément, nous avons utilisé train sur synthétique, test sur réel (TSTR) et train sur réel, test sur réel (TRTR)59. TSTR évalue les performances des données synthétiques en entraînant un modèle (classificateur) avec des données synthétiques et en le testant sur des données réelles. De cette façon, un ensemble de données synthétiques n'a une qualité élevée que si le classificateur formé avec des données synthétiques fonctionne à proximité du classificateur formé avec des données réelles (TRTR). Nous avons appliqué un réseau de neurones convolutionnels (CNN) 1D pour classer cinq types de prosommateurs, c'est-à-dire avec les hyperparamètres rapportés dans le tableau 2.

En appliquant le même classificateur, nous avons essayé de déterminer les types de prosommateurs dans les ensembles de données de la journée de travail et des autres jours. Les résultats des quatre combinaisons sont présentés sous forme de matrices de confusion dans la Fig. 9. Pour la plupart des types d'utilisateurs, le classificateur affiche des résultats similaires sur TRTR et TSTR, ce qui prouve l'existence de caractéristiques similaires dans les ensembles de données réels et synthétiques. En comparant TSTR avec TRTR sur la Fig. 9, nous constatons que la relation numérique générale pour les résultats prédits et la vérité terrain sont très similaires entre les données réelles et les données synthétiques. L'exactitude, la précision, la sensibilité (rappel) et la spécificité globales sont également fournies dans les tableaux 4, 5. Nous trouvons un écart de précision de 10 % entre les ensembles de données synthétiques et réels, ce qui est acceptable pour un ensemble de données synthétiques, par exemple, voir le tableau 6 in60. Pour la classification des jours ouvrables dans la Fig. 9, les utilisateurs PV pourraient être identifiés à tort comme EV & PV & ESS par rapport à TSTR. Une raison potentielle pourrait être les valeurs de complexité similaires des deux types d'utilisateurs dans l'ensemble de données synthétique par rapport à l'ensemble de données réel, comme indiqué dans le tableau 3, indiquant que leurs fréquences et amplitudes sur les fluctuations sont similaires.

Matrices de confusion pour les utilisateurs.

WPE pour différents types d'utilisateurs (50) de manière annuelle (bleu : données synthétiques, orange : données réelles).

La première limite de notre ensemble de données synthétiques est la résolution horaire, qui est insuffisante pour certaines applications, telles que la désagrégation de l'énergie et l'analyse de la qualité de l'énergie. En outre, des recherches montrent que l'utilisation de données horaires pour l'estimation de l'autoconsommation des utilisateurs de PV peut donner jusqu'à 9 % de surestimation en raison de la perte d'informations61. Cependant, l'ensemble de données synthétique présenté peut être utilisé pour de nombreuses études, par exemple, la réponse à la demande, le flux d'énergie inverse des prosommateurs, l'examen de l'impact de différents taux d'adoption et la gestion de la demande. Une autre limitation est que la complexité des données synthétiques a tendance à être surestimée en raison de la structure de CTGAN, comme nous l'avons vu dans la section Validation des données. Enfin, l'ensemble de données ne prend pas entièrement en compte les habitudes de comportement des prosommateurs et les changements au niveau de l'appareil au fil du temps, car l'ensemble de données de départ ne contient pas d'étiquettes pour les appareils de chaque utilisateur final. Une amélioration potentielle pour inclure une stochasticité comportementale supplémentaire associée à la demande d'électricité des appareils consiste à utiliser un modèle ascendant basé sur la physique, par exemple la bibliothèque StROBe, lorsque les utilisateurs souhaitent ajouter certains appareils avec des connaissances sur les distributions de paramètres physiques détaillés12. Cependant, cela produira un ensemble de données synthétiques avec une complexité plus élevée au-delà des résultats rapportés dans la section "Métriques de la théorie de l'information", ce qui n'est pas souhaitable.

Les données réelles utilisées comme données d'entrée du CTGAN ne sont pas disponibles en raison des réglementations relatives à la vie privée des consommateurs18. Les autres souhaitant répéter le travail ou effectuer des études avec les données brutes doivent contacter Watts A/S13. Le code de validation et d'analyse des données est disponible dans le référentiel public de Figshare51.

BP. Revue statistique de l'énergie mondiale, https://www.bp.com/en/global/corporate/energy-economics/statistical-review-of-world-energy.html (2022).

Nalley, S. & Larose, A. Perspectives énergétiques internationales 2021. Tech. Rep. https://www.eia.gov/outlooks/ieo/pdf/IEO2021_ReleasePresentation.pdf (2021).

Bois Mackensiz. Les véhicules électriques à batterie domineront les ventes de véhicules d'ici 2050, https://www.woodmac.com/press-releases/battery-electric-vehicles-to-dominate-vehicle-sales-by-2050/ (2021).

Yuan, R., Pourmousavi, SA, Soong, WL, Nguyen, G. & Liisberg, JA Irmac : motifs raffinés interprétables dans la classification binaire pour les applications de réseaux intelligents. Applications d'ingénierie de l'intelligence artificielle 117, 11, https://doi.org/10.1016/j.engappai.2022.105588 (2023).

Article Google Scholar

Shaw, M. et al. L'essai de stockage d'énergie de nouvelle génération dans la loi, Australie. Dans Actes de la dixième conférence internationale ACM sur les systèmes énergétiques futurs, e-Energy' 19, 439–442, https://doi.org/10.1145/3307772.3331017 (Association for Computing Machinery, New York, NY, États-Unis, 2019).

Jim, M. & Russo, S. Rapport annuel de la rue Pecan, exercice 2020-2021. Technologie. Rep., Pecan Street Inc. https://www.pecanstreet.org/wp-content/uploads/2022/06/Pecan-Street-Annual-Report-20-21.pdf (2021).

Kapoor, S., Sturmberg, B. & Shaw, M. Un examen des ensembles de données énergétiques accessibles au public. Technologie. Rep. 00120, Université nationale australienne, Canberra ACT 2601 Australie. https://arena.gov.au/projects/wattwatchers- (2021).

Li, H., Wang, Z. & Hong, T. Un ensemble de données synthétiques sur l'exploitation des bâtiments. Données scientifiques 8, 1–13, https://doi.org/10.1038/s41597-021-00989-6 (2021).

Annonces d'article Google Scholar

Modélisation de la demande énergétique des bâtiments : du bâtiment individuel à l'échelle urbaine. Dans Eicker, U. (ed.) Urban Energy Systems for Low-Carbon Cities, 79-136, https://doi.org/10.1016/B978-0-12-811553-4.00003-2 (Academic Press, 2019).

Pereira, L., Costa, D. & Ribeiro, M. Un ensemble de données résidentielles étiquetées pour l'analyse de données de compteurs intelligents. Données scientifiques 9, 1–11, https://doi.org/10.1038/s41597-022-01252-2 (2022).

Article Google Scholar

Andersen, FM, Gunkel, PA, Jacobsen, HK et Kitzing, L. Consommation d'électricité résidentielle et caractéristiques des ménages : une analyse économétrique des données des compteurs intelligents danois. Économie de l'énergie 100, 105341, https://doi.org/10.1016/j.eneco.2021.105341 (2021).

Article Google Scholar

Baetens, R. & Saelens, D. Modélisation de l'incertitude dans les simulations d'énergie de quartier par le comportement stochastique des occupants résidentiels. Journal of Building Performance Simulation 9, 431–447, https://doi.org/10.1080/19401493.2015.1070203 (2016).

Article Google Scholar

Anders, SH, Jon, L. & Julian, LV Watts A/S, ferons-nous une différence ensemble ?, https://watts.dk/ (2021).

Li, H. et al. Indicateurs de performance clés et ensembles de données basés sur les données pour la flexibilité énergétique des bâtiments : un examen et des perspectives https://doi.org/10.48550/ARXIV.2211.12252 (2022).

Article Google Scholar

Qiu, Y. & Kahn, ME Meilleure évaluation de la durabilité des bâtiments écologiques avec des données à haute fréquence. Nature Sustainability 1, 642–649, https://doi.org/10.1038/s41893-018-0169-y (2018).

Article Google Scholar

Consulting, NE Valorisation de la flexibilité de la charge dans le NEM préparé pour l'agence australienne des énergies renouvelables. Technologie. Rép. février, Agence australienne pour les énergies renouvelables. https://arena.gov.au/assets/2022/02/valuing-load-flexibility-in-the-nem.pdf (2022).

Le réseau énergétique. Qu'est-ce que DATAHUB ?, https://en.energinet.dk/energy-data/datahub/ (2019).

Watts. Politique de données personnelles pour Watts, https://watts.dk/en/persondata/ (2022).

Parlement européen et Conseil de l'Union européenne. Règlement européen sur la protection des données, https://gdpr-info.eu/ (2018).

Le Parlement danois. Loi complétant le règlement relatif à la protection des personnes à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données (loi sur la protection des données), https://www.retsinformation.dk/eli/lta/2018/502 (2018 ).

OpenWeather. OpenWeather : Prévisions météo, nowcasts et historique de manière rapide et élégante, https://openweathermap.org/ (2019).

TCP, H. Danemark EV adoption by year, https://ieahev.org/countries/Denmark/ (2019).

Gaete-Morales, C., Kramer, H., Schill, WP & Zerrahn, A. Un outil ouvert pour créer des séries chronologiques de véhicules électriques à batterie à partir de données empiriques, emobpy. Données scientifiques 8, 1–18, https://doi.org/10.1038/s41597-021-00932-9 (2021).

Article Google Scholar

Statistique Danemark. Travail et revenus, https://www.dst.dk/en/Statistik/emner/arbejde-og-indkomst.

Hall, D., Wappelhorst, S., Mock, P. & Lutsey, N. Factbook sur les véhicules électriques européens 2019/2020. Le Conseil international des transports propres 19, https://theicct.org/sites/default/files/publications/EV-EU-Factbook-2020.pdf (2020).

Jaganmohan, M. Part des ménages disposant de sources d'énergie verte au Danemark 2019, https://www.statista.com/statistics/1088463/share-of-households-with-green-energy-sources-in-denmark (2019).

Lemos-Vinasco, J., Schledorn, A., Pourmousavi, SA et Guericke, D. Évaluation économique des systèmes stochastiques de gestion de l'énergie domestique dans un cadre d'horizon glissant réaliste https://doi.org/10.48550/ARXIV.2203.08639 (2022) .

Article Google Scholar

Pfenninger, S. & Staffell, I. Modèles à long terme de la production photovoltaïque européenne utilisant 30 ans de réanalyse horaire validée et de données satellitaires. Énergie 114, 1251-1265, https://doi.org/10.1016/j.energy.2016.08.060 (2016).

Article Google Scholar

Grams, CM, Beerli, R., Pfenninger, S., Staffell, I. & Wernli, H. Équilibrer la production d'énergie éolienne en Europe grâce à un déploiement spatial informé par les régimes météorologiques. Changement climatique naturel 7, 557–562, https://doi.org/10.1038/nclimate3338 (2017).

Article PubMed PubMed Central Google Scholar

Zeyringer, M., Price, J., Fais, B., Li, P.-H. & Sharp, E. Concevoir des systèmes électriques à faible émission de carbone pour la Grande-Bretagne en 2050, robustes à la variabilité spatio-temporelle et interannuelle des conditions météorologiques. Nature Energy 3, 395–403, https://doi.org/10.1038/s41560-018-0128-x (2018).

Article ADS CAS Google Scholar

Brown, T., Schlachtberger, D., Kies, A., Schramm, S. & Greiner, M. Synergies du couplage sectoriel et du renforcement de la transmission dans un système énergétique européen hautement renouvelable et à coûts optimisés. Énergie 160, 720–739, https://doi.org/10.1016/j.energy.2018.06.222 (2018).

Article Google Scholar

PVOutput : un service gratuit de partage et de comparaison des données de sortie PV, https://pvoutput.org/about.html (2022).

L'Agence danoise de l'énergie et Energinet. Données technologiques - Production d'électricité et de chauffage urbain. Technologie. Rep. https://ens.dk/en/our-services/projections-and-models/technology-data/technology-data-generation-electricity-and (2016).

Sorknæs, P., Mæng, H., Weiss, T. & Andersen, AN Vue d'ensemble de l'état actuel et des scénarios de développement futurs du système électrique au Danemark - Permettre l'intégration de grandes quantités d'énergie éolienne. https://www.store-project.eu/documents/target-country-results/en_GB/energy-storage-needs-in-denmark (2013).

Pedersen, AS et al. État d'avancement et recommandations pour la RD&D sur les technologies de stockage d'énergie dans un contexte danois. Technologie. Rép. Février, Energinet. http://energinet.dk/SiteCollectionDocuments/Danskedokumenter/Forskning-PSO-projekter/RDD Energy storage_ex app.pdf (2014).

Analyses énergétiques EA. La valeur du stockage de l'électricité - Une perspective sur les services et les opportunités de marché sur les marchés danois et internationaux de l'électricité. Technologie. Représentant, Energinet. https://en.energinet.dk/Analysis-and-Research/Analyses/The-value-of-electricity-storage/ (2020).

Dinh, NT et al. Dimensionnement et planification optimaux du stockage communautaire des batteries au sein d'un marché local. Dans Actes de la treizième conférence internationale ACM sur les systèmes énergétiques futurs, e-Energy' 22, 34–46, https://doi.org/10.1145/3538637.3538837 (Association for Computing Machinery, New York, NY, États-Unis, 2022).

Langby, C. Stockage de batterie domestique, https://mozo.com.au/energy/guides/home-battery-storage (2021).

Énergie, V. Manuel de conception et d'installation ESS. Technologie. Rép., énergie Victron. https://www.solar-electric.com/lib/wind-sun/VE-ESS_design_and_installation_manual.pdf (2018).

Abraj, M., Wang, YG et Thompson, MH OPEN Un nouveau modèle de copule de mélange pour plusieurs variables spatialement corrélées avec une application environnementale. Rapports scientifiques 1–10, https://doi.org/10.1038/s41598-022-18007-z (2022).

Lemos-Vinasco, J., Bacher, P. & Møller, JK Prévision probabiliste de la charge en tenant compte de la corrélation temporelle : modèles en ligne pour la prédiction de la charge électrique des ménages. Énergie appliquée 303, 117594, https://doi.org/10.1016/j.apenergy.2021.117594 (2021).

Article Google Scholar

Rezende, DJ & Mohamed, S. Inférence variationnelle avec flux de normalisation. 32e Conférence internationale sur l'apprentissage automatique, ICML 2015 2, 1530-1538 (2015).

Google Scholar

Tashiro, Y., Song, J., Song, Y. & Ermon, S. Csdi : Modèles de diffusion conditionnels basés sur des scores pour l'imputation probabiliste de séries chronologiques. Advances in Neural Information Processing Systems 34, 24804–24816, https://arxiv.org/abs/2107.03502 (2021).

Dhariwal, P. & Nichol, A. Les modèles de diffusion battent les GAN sur la synthèse d'images. Advances in Neural Information Processing Systems 34, 8780–8794, https://doi.org/10.48550/arXiv.2105.05233 (2021).

Article Google Scholar

Alzantot, M., Chakraborty, S. & Srivastava, M. SenseGen : une architecture d'apprentissage en profondeur pour la génération de données de capteurs synthétiques. Ateliers de la Conférence internationale IEEE 2017 sur l'informatique et les communications omniprésentes, Ateliers PerCom 2017 188–193, https://doi.org/10.1109/PERCOMW.2017.7917555 (2017).

Patki, N., Wedge, R. & Veeramachaneni, K. GaussianCopula - Le coffre-fort de données synthétique SDV. Actes - 3e Conférence internationale IEEE sur la science des données et l'analyse avancée, DSAA 2016 399–410 (2016).

Asre, S. & Anwar, A. Génération de données d'énergie synthétique à l'aide d'un réseau contradictoire génératif variant dans le temps. Électronique (Suisse) 11, https://doi.org/10.3390/electronics11030355 (2022).

Yoon, J. & Jarrett, D. Réseaux contradictoires génératifs de séries chronologiques. 33e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2019) 1–11 (2019).

Yu, L., Zhang, W., Wang, J. & Yu, Y. SeqGAN : Séquencez les réseaux antagonistes génératifs avec gradient de politique. 31e conférence AAAI sur l'intelligence artificielle, AAAI 2017 2852–2858 (2017).

Ping, H., Stoyanovich, J. & Howe, B. DataSynthesizer : ensembles de données synthétiques préservant la confidentialité. ACM International Conference Proceedings Series Part F1286, https://doi.org/10.1145/3085504.3091117 (2017).

Yuan, R. et al. Un ensemble de données synthétiques des prosommateurs d'électricité résidentiels danois, figshare, https://doi.org/10.6084/m9.figshare.c.6383862.v1 (2023).

Bandt, C. & Pompe, B. Entropie de permutation : une mesure de complexité naturelle pour les séries chronologiques. Lettres d'examen physique 88, 4, https://doi.org/10.1103/PhysRevLett.88.174102 (2002).

Article CAS Google Scholar

Andersen, FM, Baldini, M., Hansen, LG & Jensen, CL Consommation horaire d'électricité des ménages et demande de pointe au Danemark. Applied Energy 208, 607–619, https://doi.org/10.1016/j.apenergy.2017.09.094 (2017).

Article Google Scholar

Panaretos, VM & Zemel, Y. Aspects statistiques des distances de Wasserstein. Examen annuel des statistiques et de son application 6, 405–431 (2019).

Article ADS MathSciNet Google Scholar

Fadlallah, B., Chen, B., Keil, A. & Príncipe, J. Entropie de permutation pondérée : une mesure de complexité pour les séries chronologiques incorporant des informations d'amplitude. Examen physique E - Physique statistique, non linéaire et de la matière molle 87, 1–7, https://doi.org/10.1103/PhysRevE.87.022911 (2013).

Article CAS Google Scholar

Vuong, PL, Malik, AS & Bornot, J. Entropie de permutation pondérée comme mesure de complexité pour les séries chronologiques électroencéphalographiques de différents états physiologiques. IECBES 2014, Actes de conférence - Conférence IEEE 2014 sur l'ingénierie et les sciences biomédicales : "Miri, où l'ingénierie en médecine, biologie et humanité se rencontrent" 979–984, https://doi.org/10.1109/IECBES.2014.7047658 (2014).

Yin, Y. & Shang, P. Entropie de permutation pondérée basée sur différentes approches symboliques pour les séries chronologiques financières. Physica A: Mécanique statistique et ses applications 443, 137-148, https://doi.org/10.1016/j.physa.2015.09.067 (2016).

Annonces d'article Google Scholar

Niu, H., Wang, J. & Liu, C. Analyse des marchés du pétrole brut avec une entropie de permutation pondérée multi-échelles améliorée. Physica A: Mécanique statistique et ses applications 494, 389–402, https://doi.org/10.1016/j.physa.2017.12.049 (2018).

Annonces d'article Google Scholar

Hartmann, KG, Schirrmeister, RT & Ball, T. Eeg-gan : Réseaux antagonistes génératifs pour les signaux cérébraux électroencéphalographiques (eeg). Prépublication arXiv https://doi.org/10.48550/arXiv.1806.01875 (2018).

Article Google Scholar

Cheon, MJ et al. CTGAN CONTRE TGAN ? Lequel est le plus approprié pour générer des données EEG synthétiques. Journal des technologies de l'information théoriques et appliquées 99, 2359–2372 (2021).

Google Scholar

Ayala-Gilardón, A., Sidrach-de Cardona, M. & Mora-López, L. Influence de la résolution temporelle dans l'estimation de l'autoconsommation et de l'autosuffisance des installations photovoltaïques. Applied Energy 229, 990–997, https://doi.org/10.1016/j.apenergy.2018.08.072 (2018).

Article Google Scholar

Télécharger les références

Ce projet est financé conjointement par le programme de bourses de doctorat de l'industrie de l'Université d'Adélaïde et Watts A/S, Danemark, qui fournit les données des consommateurs conventionnels comme source de données d'entrée.

École de génie électrique et mécanique, Université d'Adélaïde, Adélaïde, Australie

Rui Yuan, S. Ali Pourmousavi et Wen L. Soong

École des sciences informatiques et mathématiques, Université d'Adélaïde, Adélaïde, Australie

Andrew J.Black

Watts A/S, Køge, Danemark

Jon AR Liisberg & Julian Lemos-Vinasco

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

AP et RY ont conçu la ou les expériences, RY a réalisé la ou les expériences, JR et JL ont fourni et validé les données, RY, AP, WS et AB ont analysé les résultats. Tous les auteurs ont examiné le manuscrit.

Correspondance avec Rui Yuan.

Les auteurs ne déclarent aucun intérêt concurrent.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Yuan, R., Pourmousavi, SA, Soong, WL et al. Un ensemble de données synthétiques de prosommateurs d'électricité résidentiels danois. Sci Data 10, 371 (2023). https://doi.org/10.1038/s41597-023-02271-3

Télécharger la citation

Reçu : 13 janvier 2023

Accepté : 26 mai 2023

Publié: 08 juin 2023

DOI : https://doi.org/10.1038/s41597-023-02271-3

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt