sklearn.conjunto.RandomForestRegressor¶
classe sklearn.ensemble.
RandomForestRegressor
(n_estimators=100, *, critério=’ex’, max_depth=Nenhum, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=Nenhum, min_impurity_decrease=0.0, min_impurity_split=Nenhum, bootstrap=True, oob_score=False, n_jobs=Nenhum, random_state=None, verbose=0, warm_start=False, ccp_alpha=0.0, max_samples=Nenhum)¶
Um random forest regressor.
uma floresta aleatória é um Meta-estimador que se encaixa numa série de árvores de decisão de classificação em várias subamostras do conjunto de dados e utiliza uma média para melhorar a precisão preditiva e controlar a sobreprodução.O tamanho da subamostra é controlado com o parâmetro max_samples
sebootstrap=True
(default), caso contrário todo o conjunto de dados é usado para construir cada árvore.leia mais no Guia do utilizador.
parâmetros n_estimatorsint, default = 100
o número de árvores na floresta.
alterado na versão 0. 22: O valor padrão de n_estimators
mudou de 10 para 100in 0.22.
critério{“mse”, “mae”}, default=”mse”
a função para medir a qualidade de uma divisão. Criteriaare suportado ” mse “para o erro quadrado médio, que é igual a variaceredução como critério de seleção de recursos, e” mae ” para o erro auto-suficiente.
novo na versão 0.18: critério do erro absoluto médio (MAE).
max_depthint, por omissão=nenhuma
a profundidade máxima da árvore. Se nenhuma, então nós são expandidos até que todas as folhas sejam puras ou até que todas as folhas contenham menos de min_ samples_split amostras.
min_samples_splitint ou float, padrão=2
O número mínimo de amostras necessárias para dividir um nó interno:
-
Se int, então considere
min_samples_split
como o número mínimo. -
Se flutuante, então
min_samples_split
é uma fracção eceil(min_samples_split * n_samples)
são o número mínimo de amostras para cada divisão.
alterado na versão 0.18: valores flutuantes adicionados para as fracções.
min_samples_leafin ou float, por omissão=1
o número mínimo de amostras necessário para estar num nó de folha.Um ponto de separação a qualquer profundidade só será considerado se deixar pelo menos min_samples_leaf
amostras de treino em cada um dos ramos esquerdo e direito. Isto pode ter o efeito de suavizar o modelo,especialmente na regressão.
-
If int, then consider
min_samples_leaf
as the minimum number. -
If float, then
min_samples_leaf
is a fraction andceil(min_samples_leaf * n_samples)
are the minimumnumber of samples for each node.
alterado na versão 0.18: valores flutuantes adicionados para as fracções.
min_weight_fraction_leaffloat, default=0.0
the minimum weighted fraction of the sum total of weights (of all the input samples) required to be at a leaf node. As amostras têm um peso líquido quando a amostra não é fornecida.
max_features{“auto”, “sqrt”, “log2″}, int ou float, padrão=”auto”
O número de características a considerar quando se olha para a melhor divisão:
-
Se int, então considere
max_features
características em cada divisão. -
If float, then
max_features
is a fraction andround(max_features * n_features)
features are considered at eachsplit. -
Se “auto”, então
max_features=n_features
. -
Se “sqrt”, então
max_features=sqrt(n_features)
. -
Se “log2”, então
max_features=log2(n_features)
. -
Se nenhum, então
max_features=n_features
.
Nota: a busca por uma divisão não pára até que pelo menos uma partição onevalida das amostras de nós seja encontrada, mesmo que ela necessite inspecionar de forma eficaz mais do que max_features
recursos.
max_leaf_nodesint, default=None
Grow trees with max_leaf_nodes
in best-first fashion.Os melhores nós são definidos como redução relativa na impureza.Se nenhum, então número ilimitado de nós de folha.
min_impurity_decreasefloat, por omissão=0, 0
um nó será dividido se esta divisão induzir uma diminuição do impuritygreater do que ou igual a este valor.
ponderada de impureza diminuir a equação é a seguinte:
N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)
, onde N
é o número total de amostras, N_t
é o número ofsamples no nó atual N_t_L
é o número de amostras no theleft criança, e N_t_R
é o número de amostras no direito da criança.
N
N_t
N_t_R
e N_t_L
referem-se à soma ponderada,se sample_weight
é passado.
novo na versão 0.19.
min_impurity_splitfloat, default=None
Threshold for early stopping in tree growth. Um nó irá molitar a sua impureza está acima do limiar, caso contrário é uma folha.
depreciado desde a versão 0.19:min_impurity_split
foi depreciado a favor de min_impurity_decrease
em 0.19. O valor padrão demin_impurity_split
mudou de 1e-7 para 0 em 0.23 e será removido em 1.0 (renomeação de 0.25).Use min_impurity_decrease
em alternativa.
bootstrapbool, default=True
Whetstrap samples are used when building trees. Se falso, o conjunto de dados whole é usado para construir cada árvore.
oob_scorebool, default = False
se deve usar amostras fora do saco para estimar o r^2 em dados não vistos.
n_jobsint, por omissão=none
O número de tarefas a executar em paralelo. fit
predict
decision_path
and apply
are all parallelized over thetrees. None
means 1 unless in a joblib.parallel_backend
context. -1
means using all processors. See Glossary for more details.
random_stateint, RandomState instância ou Nenhum, padrão=None
Controla a aleatoriedade da inicialização das amostras usedwhen construção de árvores (se bootstrap=True
) e amostragem de thefeatures a considerar quando se olha para o melhor dividir em cada nó(se max_features < n_features
).Veja glossário para mais detalhes.
verboseint, default=0
controla a verbosidade ao ajustar e prever.
warm_ startbool, default=False
When set to True
, reuse the solution of the previous call to fitand add more estimators to the ensemble, otherwise, just fit a wholenew forest. Veja o Glossário.
ccp_alphanon – negativo float, default=0.0
parâmetro de complexidade usado para a poda de custo-complexidade mínima. O menu com maior complexidade de custo que é menor queccp_alpha
será escolhido. Por padrão, nenhuma poda é realizada. Aparenteinimal cost-Complexity pound for details.
novo na versão 0.22.
max_samplesint ou float, default = None
If bootstrap is True, the number of samples to draw from Xto train each base estimator.
-
If None (default), then draw
X.shape
samples. -
If int, then draw
max_samples
samples. -
If float, then draw
max_samples * X.shape
samples. Thus,max_samples
should be in the interval(0, 1)
.
novo na versão 0.22.
atributos base_estimator_decintreeregressor
o modelo do estimador de crianças utilizado para criar a colecção de subestimadores fittedsub.
estimators_list of DecisionTreeRegressor
the collection of fitted sub-estimators.
feature_importances_
ndarray of shape (n_features,)
The impurity-based feature importances.
n_features_int
the number of features when fit
is performed.
n_outputs_int
O número de saídas quando fit
é realizado.
oob_score_float
Score of the training dataset obtained using an out-of-bag estimate.Este atributo só existe quando oob_score
é verdadeiro.
oob_prediction_ndarray of shape (n_samples,)
Prediction computed with out-of-bag estimate on the training set.Este atributo só existe quando oob_score
é verdadeiro.
Veja também:
DecisionTreeRegressor
ExtraTreesRegressor
Notas
Os valores padrão para os parâmetros a controlar o tamanho das árvores(e.g. max_depth
min_samples_leaf
, etc.) levam a árvores totalmente cultivadas e não cultivadas, que podem potencialmente ser muito grandes em alguns conjuntos de dados. Para reduzir o consumo de memória, a complexidade e o tamanho das árvores devem ser controlados através da definição desses valores de parâmetros.
As características são sempre permutadas aleatoriamente em cada divisão. Portanto,a melhor divisão pode variar, mesmo com os mesmos dados de treinamento,max_features=n_features
e bootstrap=False
, se o improvementof o critério é idêntico para várias divisões enumerados durante msc napesquisa dos melhores de divisão. Para obter um comportamento determinístico durante a montagem, random_state
tem de ser corrigido.
o valor por omissão max_features="auto"
utilizan_features
em vez den_features / 3
. Este último foi originalmente sugerido, enquanto o primeiro foi mais recentemente justificado empiricamente.Breiman, “florestas aleatórias”, aprendizagem com máquinas, 45(1), 5-32, 2001.
2
P. Geurts, D. Ernst., e L. Wehenkel, “Extremely randomizedtrees”, Machine Learning, 63(1), 3-42, 2006.
Examples
>>> from sklearn.ensemble import RandomForestRegressor>>> from sklearn.datasets import make_regression>>> X, y = make_regression(n_features=4, n_informative=2,... random_state=0, shuffle=False)>>> regr = RandomForestRegressor(max_depth=2, random_state=0)>>> regr.fit(X, y)RandomForestRegressor(...)>>> print(regr.predict(]))
Methods
|
Apply trees in the forest to X, return leaf indices. |
|
Return the decision path in the forest. |
|
Build a forest of trees from the training set (X, y). |
|
Get parameters for this estimator. |
|
Predict regression target for X. |
|
Return the coefficient of determination \(R^2\) of the prediction. |
|
Set the parameters of this estimator. |
apply
(X)¶
Aplicar árvores na floresta para X, retorno em folha de índices.
Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)
the input samples. Internamente, seu dtype será convertido paradtype=np.float32
. Se for fornecida uma matriz esparsa, esta será convertida num esparso csr_matrix
.
Retorna X_leavesndarray de forma (n_samples, n_estimators)
Para cada ponto de dados x em x e para cada árvore na floresta,retornar o índice da folha x termina em.
decision_path
(X)¶
Return the decision path in the forest.
novo na versão 0.18.
Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)
the input samples. Internamente, seu dtype será convertido paradtype=np.float32
. Se for fornecida uma matriz esparsa, esta será convertida num esparso csr_matrix
.
devolve uma matriz indicadora da forma (n_samples, n_nodes)
devolve uma matriz indicadora de nó onde os elementos não nulos indicam que as amostras atravessam os nós. A matriz é de CSRformat.
n_nodes_ptrndarray of shape (n_estimators + 1,)
The columns from indicator:n_nodes_ptr]gives the indicator value for the i-th estimator.
propertyfeature_importances_
¶
The impurity-based feature importances.
Quanto maior, mais importante a característica.A importância de uma característica é calculada como a redução total (normalizada)do critério trazido por essa característica. Também é conhecida como a importância de Gini.
Aviso: as importâncias de características baseadas na impureza podem ser enganosas para as características de elevada cardinalidade (muitos valores únicos). Seesklearn.inspection.permutation_importance
as an alternative.
Retorna feature_importances_ndarray de forma (n_features,)
Os valores desta matriz soma para 1, a menos que todas as árvores são o único nodetrees consiste somente o nó raiz, caso em que será anarray de zeros.
fit
(X, y, sample_weight=None)¶
construir uma floresta de árvores a partir do conjunto de treino (X, y).
Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)
the training input samples. Internamente, seu dtype será convertido para dtype=np.float32
. Se uma matriz esparsa for fornecida, ela será convertida em uma esparsa csc_matrix
.
yarray-like of shape (n_samples,) or (n_samples, n_outputs)
the target values (class labels in classification, real numbers inregression).
sample_ weightarray-like of shape (n_samples,), default=None
Sample weights. Se nenhuma, então as amostras são igualmente ponderadas. Separações que criariam nós-filhos com peso líquido zero ou negativo são alinhadas enquanto se procura uma divisão em cada nó. No caso de classificação, as divisões também são ignoradas se resultarem em qualquer classe única carregando um peso negativo em qualquer nó de criança.
Devolve selfobjectget_params
(deep=True)¶
obtém parâmetros para este estimador.
Parameters deepbool, default=True
If True, will return the parameters for this estimator andcontained subobjects that are estimators.
devolve os nomes dos parâmetros paramsdict
mapeados com os seus valores.
predict
(X) ¶
predizer o alvo de regressão para X.
O objectivo de regressão previsto de uma amostra de entrada é calculado como os objectivos de regressão previstos das árvores na floresta.
Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)
the input samples. Internamente, seu dtype será convertido paradtype=np.float32
. Se for fornecida uma matriz esparsa, esta será convertida num esparso csr_matrix
.
Devolve yndarray of shape (n_ samples,) ou (n_ samples, n_ outputs)
os valores previstos.
score
(X, y, sample_weight=None)¶
Return the coefficient of determination \(r^2\) of the prevention.
O coeficiente de \(R^2\) é definido como \((1 – \frac{u}{v})\),onde \(u\) é a soma residual dos quadrados ((y_true - y_pred)** 2).sum()
e \(v\) é a soma total dos quadrados ((y_true -y_true.mean()) ** 2).sum()
. A melhor pontuação possível é 1.0 e pode ser negativa (porque o modelo pode ser arbitrariamente pior). O modelo Aconstant que prevê sempre o valor esperado de ,ignorando as funcionalidades de entrada, obteria uma pontuação \(r^2\) de 0.0.parâmetros em forma de raios X (n_samples, n_features)
amostras para ensaio. Para alguns estimadores este pode ser um precomputedkernel matriz ou uma lista de objectos genéricos em vez da forma(n_samples, n_samples_fitted)
, onde n_samples_fitted
é o número de amostras utilizadas na montagem para o estimador.
yarray-like of shape (n_samples,) or (n_samples, n_outputs)
True values for X
.
sample_ weightarray-like of shape (n_samples,), default=None
Sample weights.
Devolve scorefloat
\(r^2\) de self.predict(X)
wrt. .
Notes
The \(r^2\) score used when calling score
on a regressor usesmultioutput='uniform_average'
from version 0.23 to keep consistentwith default value of r2_score
.Isso influencia o método score
de todos os multiutputregressores (exceto paraMultiOutputRegressor
).
set_params
(**params)¶
define os parâmetros deste estimador.
the method works on simple estimators as well as on nested objects (such as Pipeline
). Este último tem um nome do formulário <component>__<parameter>
para que seja possível atualizar cada componente de um objeto aninhado.
parâmetros * * paramsdict
parâmetros estimadores.
Devolve a instância auto-estimadora
instância Estimadora.