Articles

sklearn.conjunto.RandomForestRegressor¶

classe sklearn.ensemble.RandomForestRegressor(n_estimators=100, *, critério=’ex’, max_depth=Nenhum, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=Nenhum, min_impurity_decrease=0.0, min_impurity_split=Nenhum, bootstrap=True, oob_score=False, n_jobs=Nenhum, random_state=None, verbose=0, warm_start=False, ccp_alpha=0.0, max_samples=Nenhum)¶

Um random forest regressor.

uma floresta aleatória é um Meta-estimador que se encaixa numa série de árvores de decisão de classificação em várias subamostras do conjunto de dados e utiliza uma média para melhorar a precisão preditiva e controlar a sobreprodução.O tamanho da subamostra é controlado com o parâmetro max_samples sebootstrap=True (default), caso contrário todo o conjunto de dados é usado para construir cada árvore.leia mais no Guia do utilizador.

parâmetros n_estimatorsint, default = 100

o número de árvores na floresta.

alterado na versão 0. 22: O valor padrão de n_estimators mudou de 10 para 100in 0.22.

critério{“mse”, “mae”}, default=”mse”

a função para medir a qualidade de uma divisão. Criteriaare suportado ” mse “para o erro quadrado médio, que é igual a variaceredução como critério de seleção de recursos, e” mae ” para o erro auto-suficiente.

novo na versão 0.18: critério do erro absoluto médio (MAE).

max_depthint, por omissão=nenhuma

a profundidade máxima da árvore. Se nenhuma, então nós são expandidos até que todas as folhas sejam puras ou até que todas as folhas contenham menos de min_ samples_split amostras.

min_samples_splitint ou float, padrão=2

O número mínimo de amostras necessárias para dividir um nó interno:

  • Se int, então considere min_samples_split como o número mínimo.

  • Se flutuante, então min_samples_splité uma fracção eceil(min_samples_split * n_samples) são o número mínimo de amostras para cada divisão.

alterado na versão 0.18: valores flutuantes adicionados para as fracções.

min_samples_leafin ou float, por omissão=1

o número mínimo de amostras necessário para estar num nó de folha.Um ponto de separação a qualquer profundidade só será considerado se deixar pelo menos min_samples_leaf amostras de treino em cada um dos ramos esquerdo e direito. Isto pode ter o efeito de suavizar o modelo,especialmente na regressão.

  • If int, then consider min_samples_leaf as the minimum number.

  • If float, then min_samples_leafis a fraction andceil(min_samples_leaf * n_samples) are the minimumnumber of samples for each node.

alterado na versão 0.18: valores flutuantes adicionados para as fracções.

min_weight_fraction_leaffloat, default=0.0

the minimum weighted fraction of the sum total of weights (of all the input samples) required to be at a leaf node. As amostras têm um peso líquido quando a amostra não é fornecida.

max_features{“auto”, “sqrt”, “log2″}, int ou float, padrão=”auto”

O número de características a considerar quando se olha para a melhor divisão:

  • Se int, então considere max_features características em cada divisão.

  • If float, then max_featuresis a fraction andround(max_features * n_features) features are considered at eachsplit.

  • Se “auto”, entãomax_features=n_features.

  • Se “sqrt”, entãomax_features=sqrt(n_features).

  • Se “log2”, entãomax_features=log2(n_features).

  • Se nenhum, então max_features=n_features.

Nota: a busca por uma divisão não pára até que pelo menos uma partição onevalida das amostras de nós seja encontrada, mesmo que ela necessite inspecionar de forma eficaz mais do que max_features recursos.

max_leaf_nodesint, default=None

Grow trees with max_leaf_nodes in best-first fashion.Os melhores nós são definidos como redução relativa na impureza.Se nenhum, então número ilimitado de nós de folha.

min_impurity_decreasefloat, por omissão=0, 0

um nó será dividido se esta divisão induzir uma diminuição do impuritygreater do que ou igual a este valor.

ponderada de impureza diminuir a equação é a seguinte:

N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)

, onde N é o número total de amostras, N_t é o número ofsamples no nó atual N_t_L é o número de amostras no theleft criança, e N_t_R é o número de amostras no direito da criança.

NN_tN_t_R e N_t_L referem-se à soma ponderada,se sample_weight é passado.

novo na versão 0.19.

min_impurity_splitfloat, default=None

Threshold for early stopping in tree growth. Um nó irá molitar a sua impureza está acima do limiar, caso contrário é uma folha.

depreciado desde a versão 0.19:min_impurity_split foi depreciado a favor de min_impurity_decrease em 0.19. O valor padrão demin_impurity_split mudou de 1e-7 para 0 em 0.23 e será removido em 1.0 (renomeação de 0.25).Use min_impurity_decrease em alternativa.

bootstrapbool, default=True

Whetstrap samples are used when building trees. Se falso, o conjunto de dados whole é usado para construir cada árvore.

oob_scorebool, default = False

se deve usar amostras fora do saco para estimar o r^2 em dados não vistos.

n_jobsint, por omissão=none

O número de tarefas a executar em paralelo. fitpredictdecision_path and apply are all parallelized over thetrees. None means 1 unless in a joblib.parallel_backendcontext. -1 means using all processors. See Glossary for more details.

random_stateint, RandomState instância ou Nenhum, padrão=None

Controla a aleatoriedade da inicialização das amostras usedwhen construção de árvores (se bootstrap=True) e amostragem de thefeatures a considerar quando se olha para o melhor dividir em cada nó(se max_features < n_features).Veja glossário para mais detalhes.

verboseint, default=0

controla a verbosidade ao ajustar e prever.

warm_ startbool, default=False

When set to True, reuse the solution of the previous call to fitand add more estimators to the ensemble, otherwise, just fit a wholenew forest. Veja o Glossário.

ccp_alphanon – negativo float, default=0.0

parâmetro de complexidade usado para a poda de custo-complexidade mínima. O menu com maior complexidade de custo que é menor queccp_alpha será escolhido. Por padrão, nenhuma poda é realizada. Aparenteinimal cost-Complexity pound for details.

novo na versão 0.22.

max_samplesint ou float, default = None

If bootstrap is True, the number of samples to draw from Xto train each base estimator.

  • If None (default), then draw X.shape samples.

  • If int, then draw max_samples samples.

  • If float, then draw max_samples * X.shape samples. Thus,max_samples should be in the interval(0, 1).

novo na versão 0.22.

atributos base_estimator_decintreeregressor

o modelo do estimador de crianças utilizado para criar a colecção de subestimadores fittedsub.

estimators_list of DecisionTreeRegressor

the collection of fitted sub-estimators.

feature_importances_ndarray of shape (n_features,)

The impurity-based feature importances.

n_features_int

the number of features when fit is performed.

n_outputs_int

O número de saídas quando fit é realizado.

oob_score_float

Score of the training dataset obtained using an out-of-bag estimate.Este atributo só existe quando oob_score é verdadeiro.

oob_prediction_ndarray of shape (n_samples,)

Prediction computed with out-of-bag estimate on the training set.Este atributo só existe quando oob_score é verdadeiro.

Veja também:

DecisionTreeRegressorExtraTreesRegressor

Notas

Os valores padrão para os parâmetros a controlar o tamanho das árvores(e.g. max_depthmin_samples_leaf, etc.) levam a árvores totalmente cultivadas e não cultivadas, que podem potencialmente ser muito grandes em alguns conjuntos de dados. Para reduzir o consumo de memória, a complexidade e o tamanho das árvores devem ser controlados através da definição desses valores de parâmetros.

As características são sempre permutadas aleatoriamente em cada divisão. Portanto,a melhor divisão pode variar, mesmo com os mesmos dados de treinamento,max_features=n_features e bootstrap=False, se o improvementof o critério é idêntico para várias divisões enumerados durante msc napesquisa dos melhores de divisão. Para obter um comportamento determinístico durante a montagem, random_state tem de ser corrigido.

o valor por omissão max_features="auto"utilizan_featuresem vez den_features / 3. Este último foi originalmente sugerido, enquanto o primeiro foi mais recentemente justificado empiricamente.Breiman, “florestas aleatórias”, aprendizagem com máquinas, 45(1), 5-32, 2001.

2

P. Geurts, D. Ernst., e L. Wehenkel, “Extremely randomizedtrees”, Machine Learning, 63(1), 3-42, 2006.

Examples

>>> from sklearn.ensemble import RandomForestRegressor>>> from sklearn.datasets import make_regression>>> X, y = make_regression(n_features=4, n_informative=2,... random_state=0, shuffle=False)>>> regr = RandomForestRegressor(max_depth=2, random_state=0)>>> regr.fit(X, y)RandomForestRegressor(...)>>> print(regr.predict(]))

Methods

apply(X)

Apply trees in the forest to X, return leaf indices.

decision_path(X)

Return the decision path in the forest.

fit(X, y)

Build a forest of trees from the training set (X, y).

get_params()

Get parameters for this estimator.

predict(X)

Predict regression target for X.

score(X, y)

Return the coefficient of determination \(R^2\) of the prediction.

set_params(**params)

Set the parameters of this estimator.

apply(X)¶

Aplicar árvores na floresta para X, retorno em folha de índices.

Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)

the input samples. Internamente, seu dtype será convertido paradtype=np.float32. Se for fornecida uma matriz esparsa, esta será convertida num esparso csr_matrix.

Retorna X_leavesndarray de forma (n_samples, n_estimators)

Para cada ponto de dados x em x e para cada árvore na floresta,retornar o índice da folha x termina em.

decision_path(X)¶

Return the decision path in the forest.

novo na versão 0.18.

Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)

the input samples. Internamente, seu dtype será convertido paradtype=np.float32. Se for fornecida uma matriz esparsa, esta será convertida num esparso csr_matrix.

devolve uma matriz indicadora da forma (n_samples, n_nodes)

devolve uma matriz indicadora de nó onde os elementos não nulos indicam que as amostras atravessam os nós. A matriz é de CSRformat.

n_nodes_ptrndarray of shape (n_estimators + 1,)

The columns from indicator:n_nodes_ptr]gives the indicator value for the i-th estimator.

propertyfeature_importances_

The impurity-based feature importances.

Quanto maior, mais importante a característica.A importância de uma característica é calculada como a redução total (normalizada)do critério trazido por essa característica. Também é conhecida como a importância de Gini.

Aviso: as importâncias de características baseadas na impureza podem ser enganosas para as características de elevada cardinalidade (muitos valores únicos). Seesklearn.inspection.permutation_importance as an alternative.

Retorna feature_importances_ndarray de forma (n_features,)

Os valores desta matriz soma para 1, a menos que todas as árvores são o único nodetrees consiste somente o nó raiz, caso em que será anarray de zeros.

fit(X, y, sample_weight=None)¶

construir uma floresta de árvores a partir do conjunto de treino (X, y).

Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)

the training input samples. Internamente, seu dtype será convertido para dtype=np.float32. Se uma matriz esparsa for fornecida, ela será convertida em uma esparsa csc_matrix.

yarray-like of shape (n_samples,) or (n_samples, n_outputs)

the target values (class labels in classification, real numbers inregression).

sample_ weightarray-like of shape (n_samples,), default=None

Sample weights. Se nenhuma, então as amostras são igualmente ponderadas. Separações que criariam nós-filhos com peso líquido zero ou negativo são alinhadas enquanto se procura uma divisão em cada nó. No caso de classificação, as divisões também são ignoradas se resultarem em qualquer classe única carregando um peso negativo em qualquer nó de criança.

Devolve selfobjectget_params(deep=True)¶

obtém parâmetros para este estimador.

Parameters deepbool, default=True

If True, will return the parameters for this estimator andcontained subobjects that are estimators.

devolve os nomes dos parâmetros paramsdict

mapeados com os seus valores.

predict(X) ¶

predizer o alvo de regressão para X.

O objectivo de regressão previsto de uma amostra de entrada é calculado como os objectivos de regressão previstos das árvores na floresta.

Parameters X{array-like, sparse matrix} of shape (n_samples, n_features)

the input samples. Internamente, seu dtype será convertido paradtype=np.float32. Se for fornecida uma matriz esparsa, esta será convertida num esparso csr_matrix.

Devolve yndarray of shape (n_ samples,) ou (n_ samples, n_ outputs)

os valores previstos.

score(X, y, sample_weight=None)¶

Return the coefficient of determination \(r^2\) of the prevention.

O coeficiente de \(R^2\) é definido como \((1 – \frac{u}{v})\),onde \(u\) é a soma residual dos quadrados ((y_true - y_pred)** 2).sum() e \(v\) é a soma total dos quadrados ((y_true -y_true.mean()) ** 2).sum(). A melhor pontuação possível é 1.0 e pode ser negativa (porque o modelo pode ser arbitrariamente pior). O modelo Aconstant que prevê sempre o valor esperado de ,ignorando as funcionalidades de entrada, obteria uma pontuação \(r^2\) de 0.0.parâmetros em forma de raios X (n_samples, n_features)

amostras para ensaio. Para alguns estimadores este pode ser um precomputedkernel matriz ou uma lista de objectos genéricos em vez da forma(n_samples, n_samples_fitted), onde n_samples_fittedé o número de amostras utilizadas na montagem para o estimador.

yarray-like of shape (n_samples,) or (n_samples, n_outputs)

True values for X.

sample_ weightarray-like of shape (n_samples,), default=None

Sample weights.

Devolve scorefloat

\(r^2\) de self.predict(X) wrt. .

Notes

The \(r^2\) score used when calling score on a regressor usesmultioutput='uniform_average' from version 0.23 to keep consistentwith default value of r2_score.Isso influencia o método score de todos os multiutputregressores (exceto paraMultiOutputRegressor).

set_params(**params)¶

define os parâmetros deste estimador.

the method works on simple estimators as well as on nested objects (such as Pipeline). Este último tem um nome do formulário <component>__<parameter> para que seja possível atualizar cada componente de um objeto aninhado.

parâmetros * * paramsdict

parâmetros estimadores.

Devolve a instância auto-estimadora

instância Estimadora.

exemplos usando sklearn.conjunto.RandomForestRegressor