optimiser le calcul des poids d'un histogramme

Version imprimable

Hello,

Je cherche à tracer un histogramme. Je dois calculer le poids de chaque point en fonction du bin dans lequel il va être ajouté. J'ai utilisé le code ci-dessous qui fonctionne mais qui est très lent (opération sur plusieurs Go de données).
Est-ce qu'il existe une méthode plus efficace que de boucler sur le tableau de données et sur les bins ?
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 import numpy as np import matplotlib.pyplot as plt # nombre de bins de l'histogramme Nbins=20 # valeur max xhi=10 # pas step=xhi/Nbins # tableau contenant les centres des bins de l'histogramme bins=np.linspace(step/2,xhi+step/2,Nbins+1) # mes données R=np.array([1.0, 6.0, 5.4, 3.0, 2.1, 9.5, 8.0, 1.0, 1.5, 1.7, 2.1, 2.3, 4.8, 4.6, 3.2]) # tableau contenant le poids qui sera associé à chaque valeur Weights=[] for r in R: for b in bins: if ((b-step/2) <= r < (b+step/2)): #condition: si le point se trouve dans le bin: vol=np.pi*b Weights=np.append(Weights,vol) #crée le tableau qui aura la même dimension que R (sauf si une valeur est > xhi, ce qui est embêtant) plt.hist(R, bins=bins,weights=1/Weights) plt.show()
J'ai finalement utilisé une parade rapide : j'utilise numpy.histogram qui me retourne les valeurs de l'histogramme associées au limites de chaque bin. je calcule ensuite le poids pour chaque bin. C'est un solution acceptable, mais je me demandais s'il y avait une manière plus pythonesque d'écrire cette double boucle. Je pensais à une condition du genre
Code:

1 2 if ((bins-step/2) <= R < (bins+step/2)).any():
mais évidemment ça ne marche. Je pose la question uniquement pour le principe, vu que la solution numpy.histogram me convient

Merci d'avance !

S.

15/06/2021, 20h32
wiztricks

Salut,

Citation:

Envoyé par sanzorairefix

C'est un solution acceptable, mais je me demandais s'il y avait une manière plus pythonesque d'écrire cette double boucle.

Si vous divisez l'intervalle de 0 a 10 en 20 plages de 5 unités, pour chaque valeur donnée, trouver dans quelle plage/bin la ranger via son index, est le quotient de la division par 5 (+/- les bords).

Ce qui supprime une boucle.... Et çà n'a rien de "pythonesque".

- W
16/06/2021, 11h48
sanzorairefix

Je ne comprends pas trop la première phrase : "divisez l'intervalle de 0 a 10 en 20 plages de 5 unités"

Mais j'ai compris l'idée. Si je divise ma valeur par le "pas", le quotient me donnera l'index de la plage / bin dans laquelle ranger la valeur. Merci !
Effectivement, je perds les bons réflexes. Je n'ai pas programmé depuis longtemps et c'est quand même la base comme idée. J'ai oublié de réfléchir sur ce coup, j'ai honte xD