Este relatório foi desenvolvido nos ambientes RStudio 1.4.1103 e R version 4.0.4 (2021-02-15). Os testes de hipóteses foram embasados em valores-p considerando nível de significância \(\alpha=5\%\). Deta forma, não é garantido o cumprimento do Princípio da Verossimilhança.
Dos \(30+220=250\) processos considerados, 220 são procedentes, correspondendo a \(220/250 = 88\%\) do total. Este valor pode ser admitido como a probabilidade de base (baseline) para um processo ser procedente considerando todo o banco de dados.
# y:procedente, 0:não, 1:sim
(tab0 <- table(y))
## y
## 0 1
## 30 220
round(prop.table(tab0),3)
## y
## 0 1
## 0.12 0.88
Podem-se considerar quebras por outras variáveis do banco de dados conforme indicado a seguir. Note que quando considera-se o grupo de pessoas que solicitaram hora extra, a probabilidade de procedente sobe para \(198/204 \approx 97.1\%\). No caso do grupo que solicitou intrajornada o valor sobe para \(125/131 \approx 95.4\%\) e para interjornada para \(10/11 \approx 90.9\%\).
# procedencia x hora extra
(tab1 <- table(y, hora_extra))
## hora_extra
## y N S
## 0 17 6
## 1 15 198
round(tab1[2,2]/sum(tab1[,2]),3)
## [1] 0.971
# procedencia x intrajornada
(tab2 <- table(y, intrajornada))
## intrajornada
## y N S
## 0 17 6
## 1 87 125
round(tab2[2,2]/sum(tab2[,2]),3)
## [1] 0.954
# procedencia x interjornada
(tab3 <- table(y, interjornada))
## interjornada
## y N S
## 0 4 1
## 1 74 10
round(tab3[2,2]/sum(tab3[,2]),3)
## [1] 0.909
A análise descritiva realizada até aqui dá indícios de tendências e relações que possam auxliar no direcionamento das decisões. Para uma avaliação de cunho inferencial, será considerado o modelo logístico binomial univariado (Agresti 2007). Tal modelo permite calcular a significância das variáveis avaliadas e estimar o impacto na chance de se observar um resultado procedente considerando as variáveis significativas.
O modelo a seguir sugere que a variável hora_extra é significativa (\(p=3.07\times10^{-11} < 0.05\)). Processos com pedidos de hora extra têm aproximadamente \(2.71828^{3.6217} \approx 37.4\) vezes a chance de ter um processo procedente em comparação a processos sem pedido de horas extras.
fit1 <- glm(y ~ hora_extra, family = 'binomial', data = dat)
summary(fit1)
##
## Call:
## glm(formula = y ~ hora_extra, family = "binomial", data = dat)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.6557 0.2444 0.2444 0.2444 1.2310
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.1252 0.3542 -0.353 0.724
## hora_extraS 3.6217 0.5452 6.643 3.07e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 150.785 on 235 degrees of freedom
## Residual deviance: 98.374 on 234 degrees of freedom
## (14 observations deleted due to missingness)
## AIC: 102.37
##
## Number of Fisher Scoring iterations: 6
exp(fit1$coefficients)
## (Intercept) hora_extraS
## 0.8823529 37.4000000
O modelo a seguir sugere que a variável intrajornada é significativa (\(p=0.00456 < 0.05\)). Processos com intrajornada têm aproximadamente \(2.71828^{1.4039} \approx 4.1\) vezes a chance de ter um processo procedente em comparação a processos sem intrajornada.
fit2 <- glm(y ~ intrajornada, family = 'binomial', data = dat)
summary(fit2)
##
## Call:
## glm(formula = y ~ intrajornada, family = "binomial", data = dat)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.4833 0.3062 0.3062 0.5975 0.5975
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.6327 0.2652 6.157 7.41e-10 ***
## intrajornadaS 1.4039 0.4949 2.837 0.00456 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 150.58 on 234 degrees of freedom
## Residual deviance: 141.36 on 233 degrees of freedom
## (15 observations deleted due to missingness)
## AIC: 145.36
##
## Number of Fisher Scoring iterations: 5
exp(fit2$coefficients)
## (Intercept) intrajornadaS
## 5.117647 4.070881
O modelo a seguir sugere que a variável interjornada é não significativa (\(p=0.598 > 0.05\)), i.e., não há diferença significativa entre as chances de procedência de procesos com e sem interjornada.
fit3 <- glm(y ~ interjornada, family = 'binomial', data = dat)
summary(fit3)
##
## Call:
## glm(formula = y ~ interjornada, family = "binomial", data = dat)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.4374 0.3245 0.3245 0.3245 0.4366
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 2.9178 0.5133 5.684 1.31e-08 ***
## interjornadaS -0.6152 1.1677 -0.527 0.598
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 38.506 on 88 degrees of freedom
## Residual deviance: 38.257 on 87 degrees of freedom
## (161 observations deleted due to missingness)
## AIC: 42.257
##
## Number of Fisher Scoring iterations: 5