Exemplo probabilidade de êxito

Diretrizes

Este relatório foi desenvolvido nos ambientes RStudio 1.4.1103 e R version 4.0.4 (2021-02-15). Os testes de hipóteses foram embasados em valores-p considerando nível de significância \(\alpha=5\%\). Deta forma, não é garantido o cumprimento do Princípio da Verossimilhança.

Descritivas

Dos \(30+220=250\) processos considerados, 220 são procedentes, correspondendo a \(220/250 = 88\%\) do total. Este valor pode ser admitido como a probabilidade de base (baseline) para um processo ser procedente considerando todo o banco de dados.

# y:procedente, 0:não, 1:sim
(tab0 <- table(y))

## y
##   0   1 
##  30 220

round(prop.table(tab0),3)

## y
##    0    1 
## 0.12 0.88

Podem-se considerar quebras por outras variáveis do banco de dados conforme indicado a seguir. Note que quando considera-se o grupo de pessoas que solicitaram hora extra, a probabilidade de procedente sobe para \(198/204 \approx 97.1\%\). No caso do grupo que solicitou intrajornada o valor sobe para \(125/131 \approx 95.4\%\) e para interjornada para \(10/11 \approx 90.9\%\).

# procedencia x hora extra
(tab1 <- table(y, hora_extra))

##    hora_extra
## y     N   S
##   0  17   6
##   1  15 198

round(tab1[2,2]/sum(tab1[,2]),3)

## [1] 0.971

# procedencia x intrajornada
(tab2 <- table(y, intrajornada))

##    intrajornada
## y     N   S
##   0  17   6
##   1  87 125

round(tab2[2,2]/sum(tab2[,2]),3)

## [1] 0.954

# procedencia x interjornada
(tab3 <- table(y, interjornada))

##    interjornada
## y    N  S
##   0  4  1
##   1 74 10

round(tab3[2,2]/sum(tab3[,2]),3)

## [1] 0.909

Modelagem

A análise descritiva realizada até aqui dá indícios de tendências e relações que possam auxliar no direcionamento das decisões. Para uma avaliação de cunho inferencial, será considerado o modelo logístico binomial univariado (Agresti 2007). Tal modelo permite calcular a significância das variáveis avaliadas e estimar o impacto na chance de se observar um resultado procedente considerando as variáveis significativas.

Horas extras

O modelo a seguir sugere que a variável hora_extra é significativa (\(p=3.07\times10^{-11} < 0.05\)). Processos com pedidos de hora extra têm aproximadamente \(2.71828^{3.6217} \approx 37.4\) vezes a chance de ter um processo procedente em comparação a processos sem pedido de horas extras.

fit1 <- glm(y ~ hora_extra, family = 'binomial', data = dat)
summary(fit1)

## 
## Call:
## glm(formula = y ~ hora_extra, family = "binomial", data = dat)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.6557   0.2444   0.2444   0.2444   1.2310  
## 
## Coefficients:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  -0.1252     0.3542  -0.353    0.724    
## hora_extraS   3.6217     0.5452   6.643 3.07e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 150.785  on 235  degrees of freedom
## Residual deviance:  98.374  on 234  degrees of freedom
##   (14 observations deleted due to missingness)
## AIC: 102.37
## 
## Number of Fisher Scoring iterations: 6

exp(fit1$coefficients)

## (Intercept) hora_extraS 
##   0.8823529  37.4000000

Intrajornada

O modelo a seguir sugere que a variável intrajornada é significativa (\(p=0.00456 < 0.05\)). Processos com intrajornada têm aproximadamente \(2.71828^{1.4039} \approx 4.1\) vezes a chance de ter um processo procedente em comparação a processos sem intrajornada.

fit2 <- glm(y ~ intrajornada, family = 'binomial', data = dat)
summary(fit2)

## 
## Call:
## glm(formula = y ~ intrajornada, family = "binomial", data = dat)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.4833   0.3062   0.3062   0.5975   0.5975  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     1.6327     0.2652   6.157 7.41e-10 ***
## intrajornadaS   1.4039     0.4949   2.837  0.00456 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 150.58  on 234  degrees of freedom
## Residual deviance: 141.36  on 233  degrees of freedom
##   (15 observations deleted due to missingness)
## AIC: 145.36
## 
## Number of Fisher Scoring iterations: 5

exp(fit2$coefficients)

##   (Intercept) intrajornadaS 
##      5.117647      4.070881

Interjornada

O modelo a seguir sugere que a variável interjornada é não significativa (\(p=0.598 > 0.05\)), i.e., não há diferença significativa entre as chances de procedência de procesos com e sem interjornada.

fit3 <- glm(y ~ interjornada, family = 'binomial', data = dat)
summary(fit3)

## 
## Call:
## glm(formula = y ~ interjornada, family = "binomial", data = dat)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.4374   0.3245   0.3245   0.3245   0.4366  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     2.9178     0.5133   5.684 1.31e-08 ***
## interjornadaS  -0.6152     1.1677  -0.527    0.598    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 38.506  on 88  degrees of freedom
## Residual deviance: 38.257  on 87  degrees of freedom
##   (161 observations deleted due to missingness)
## AIC: 42.257
## 
## Number of Fisher Scoring iterations: 5

Referências

Agresti, Alan. 2007. An Introduction to Categorical Data Analysis. Wiley-Interscience. https://mregresion.files.wordpress.com/2012/08/agresti-introduction-to-categorical-data.pdf.