Análise dos Dados da Violência no Rio de Janeiro

Pandas Couple
6 min readFeb 26, 2021

--

Pessoas foto criado por wirestock — br.freepik.com

O Rio de Janeiro é um dos principais cartões postais do Brasil, visita obrigatória turisticamente falando.

Mas além disso, a cidade está sempre em evidência na mídia no quesito segurança pública, pois vive uma crise que vem de décadas atrás. Infelizmente a criminalização da pobreza está profundamente enraizada no tecido da sociedade carioca.

A proposta desse projeto é realizar uma análise exploratória dos dados referentes à violência do Rio de Janeiro afim de obter alguns insights.

Vamos lá!

Obtenção dos Dados

Os dados utilizados para essa análise foram obtidos do ISP Dados Abertos, uma de base de dados abertos do Instituto de Segurança Publica de registros criminais e atividade policial do estado do Rio de Janeiro.

O arquivo baixado violencia_rio.csv para esta análise foi minimamente pré-processado e está disponível neste repositório do github do Carlos Melo.

Análise dos Dados

Para dar início, serão apresentadas algumas informações básicas iniciais sobre o dataframe para conhecermos melhor os dados a serem estudados.

Variáveis e entradas

Vamos verificar:

  • tamanho do dataframe
  • nomes e tipos das variáveis (colunas)
Entradas:  344
Variáveis: 56
vano int64
mes int64
hom_doloso int64
lesao_corp_morte float64
latrocinio int64
hom_por_interv_policial float64
tentat_hom int64
lesao_corp_dolosa int64
estupro float64
hom_culposo float64
lesao_corp_culposa float64
roubo_comercio int64
roubo_residencia int64
roubo_veiculo int64
roubo_carga int64
roubo_transeunte int64
roubo_em_coletivo int64
roubo_banco int64
roubo_cx_eletronico float64
roubo_celular float64
roubo_conducao_saque float64
roubo_apos_saque float64
roubo_bicicleta float64
outros_roubos int64
total_roubos int64
furto_veiculos int64
furto_transeunte int64
furto_coletivo float64
furto_celular float64
furto_bicicleta float64
outros_furtos int64
total_furtos int64
sequestro float64
extorsao float64
sequestro_relampago float64
estelionato float64
apreensao_drogas int64
posse_drogas float64
trafico_drogas float64
apreensao_drogas_sem_autor float64
recuperacao_veiculos int64
apf float64
aaapai float64
cmp float64
cmba float64
ameaca float64
pessoas_desaparecidas float64
encontro_cadaver int64
encontro_ossada float64
pol_militares_mortos_serv float64
pol_civis_mortos_serv float64
indicador_letalidade int64
indicador_roubo_rua int64
indicador_roubo_veic int64
registro_ocorrencias float64
fase int64
dtype: object

Já é possível perceber que é um dataset extenso, possui muitas variáveis (56 colunas) e não seria interessante listarmos todas neste momento, porém vamos nos familiarizar com algumas que serão exploradas aqui.

Lista de Variáveis a serem exploradas do dataset:

  • vano: ano da ocorrência
  • mes: mês da ocorrência
  • hom_doloso: quantidade de ocorrências de homicídio doloso
  • roubo_veiculo: quantidade de ocorrências de roubo de veículos
  • furto_veiculo: quantidade de ocorrências de furto de veículos
  • recuperacao_veiculos: quantidade de ocorrências de veículos recuperados
  • roubo_bicicleta: quantidade de ocorrências de roubo de bicicleta
  • furto_bicicleta: quantidade de ocorrências de furto de bicicleta

A seguir serão impressas as 5 primeiras entradas (linhas) e 7 primeiras colunas para então visualizarmos a aparência do dataset.

primeiras entradas do dataset

Valores ausentes no dataset

É muito importante entender logo no início da análise a proporção de valores ausentes do dataset, uma vez que isso indica a qualidade do mesmo.

Para isso, será impresso a porcentagem de valores ausentes em cada coluna, em ordem decrescente:

roubo_bicicleta               80.232558
furto_bicicleta 80.232558
apreensao_drogas_sem_autor 52.325581
posse_drogas 52.325581
apf 52.325581
aaapai 52.325581
cmp 52.325581
trafico_drogas 52.325581
cmba 52.325581
sequestro_relampago 41.860465
furto_coletivo 41.860465
extorsao 41.860465
furto_celular 41.860465
roubo_apos_saque 41.860465
roubo_conducao_saque 41.860465
roubo_cx_eletronico 41.860465
estupro 41.860465
estelionato 41.860465
pol_civis_mortos_serv 41.860465
pol_militares_mortos_serv 41.860465
pessoas_desaparecidas 38.372093
encontro_ossada 38.372093
roubo_celular 31.395349
lesao_corp_culposa 27.906977
ameaca 27.906977
sequestro 27.906977
lesao_corp_morte 27.906977
registro_ocorrencias 27.906977
hom_por_interv_policial 24.418605
hom_culposo 24.418605
tentat_hom 0.000000
roubo_comercio 0.000000
roubo_residencia 0.000000
latrocinio 0.000000
lesao_corp_dolosa 0.000000
hom_doloso 0.000000
roubo_transeunte 0.000000
mes 0.000000
roubo_veiculo 0.000000
roubo_carga 0.000000
fase 0.000000
roubo_em_coletivo 0.000000
roubo_banco 0.000000
outros_roubos 0.000000
total_roubos 0.000000
furto_veiculos 0.000000
furto_transeunte 0.000000
outros_furtos 0.000000
total_furtos 0.000000
apreensao_drogas 0.000000
recuperacao_veiculos 0.000000
encontro_cadaver 0.000000
indicador_letalidade 0.000000
indicador_roubo_rua 0.000000
indicador_roubo_veic 0.000000
vano 0.000000
dtype: float64

A partir da relação obtida, é possível observar:

  • As variáveis roubo_bicicleta e furto_bicicleta tem 80% das entradas nulas.
  • 20 de 56 variáveis (36%) tem em torno de 45% das entradas nulas.
  • 8 de 56 variáveis (14%) tem em torno de 25% das entradas nulas.
  • Apenas 26 de 56 variáveis (46%) não possuem valores nulos.

Resumindo, aproximadamente metade do nosso dataset tem todos os valores não nulos e a outra metade tem de 25 a 80% de seus valores nulos, o que indica baixa qualidade. Para uma análise mais profunda, é necessário tratar esses dados faltantes.

Informações Estatísticas da Violência no Rio de Janeiro

Após avaliarmos a qualidade do dataset, vamos conhecer os dados estatísticos, que serão utilizados nas análises posteriores.

Abaixo será plotado o resumo estatístico:

resumo estatístico

A partir do resumo estatístico, mesmo trabalhando com um dataset extenso, é possível observar indicações de presença de outliers:

  • algumas variáveis possuem seus valores máximos muito superiores aos 75% dos valores.
  • algumas variáveis apresentam desvio padrão (std) alto, o que indica alta dispersão dos dados.

Análise de crimes relacionados a veículos

Agora que já visualizamos o resumo estatístico, podemos escolher alguns dados para trabalharmos.

Faremos uma breve análise dos dados referentes a veículos, são eles: roubo_veiculo, furto_veiculos e recuperacao_veiculos.

Como essas três variáveis não possuem valores nulos, nossa análise é válida. Vamos imprimir a média de cada uma delas:

Média de veículos roubados:     2448.7
Média de veículos furtados: 1674.67
Média de veículos recuperados: 1772.24

Agora que obtivemos as médias, vamos entender qual a relação entre elas, ou seja, qual a proporção de veículos roubados e furtados são recuperados posteriormente, da seguinte forma:

Aproximadamente 43 % dos carros roubados e furtados são recuperados posteriormente.

Análise de crimes relacionados à vida

Vamos identificar quais foram os valores mínimos e máximos de homicídios dolosos:

272 foi o menor número de homicídios dolosos registrados em um mês.
831 foi o maior número de homicídios dolosos registrados em um mês.

É possível perceber uma diferença significativa entre o menor e maior número de homicídios dolosos. Isso nos induz a investigar esses dados mais afundo afim de entender o que pode ter influência no seu aumento ou diminuição.

Para isto, vamos identificar as informações da linha referente ao menor e maior número de homicídios dolosos:

menor número de homicídios dolosos
maior número de homicídios dolosos

Obtivemos as datas de menor e maior número de homicídios dolosos:

  • Menor: junho 2015
  • Maior: janeiro 1995

Esses dados nos sugerem que pode estar acontecendo uma diminuição dos crimes de homicídios dolosos de 1995 para cá.

Porém nesse momento não é possível afirmar isto, seria necessário uma análise mais profunda.

Visualização de Dados

Para conseguirmos visualizar a distribuição dos valores dentro dessa variável hom_doloso iremos plotar um histograma, uma ótima ferramenta de visualização de dados.

histograma de homicídios dolosos

A partir do histograma plotado ao lado podemos observar:

  • Aproximadamente 550 homicídios dolosos são registrados por mês em mais de 40 meses.
  • Houveram menos de 5 meses com quantidade inferior a 300 homicídios dolosos registrados.
  • Houveram menos de 5 meses com quantidade superior a 800 homicídios dolosos registrados.

Conclusão

Foi feita apenas uma análise exploratória da base de dados do Instituto de Segurança Pública do Rio de Janeiro, porém já foi possível perceber muitos dados faltantes e a presença de outliers em algumas das variáveis, algo normal por se tratar de uma base de dados reais.

Para uma análise mais profunda a partir desta, é necessário tratar os dados faltantes e eliminar os outliers.

De toda forma, como já era esperado, os dados nos mostram que a criminalidade da cidade do Rio de Janeiro atinge números indesejados e que merecem mais atenção para buscar reduzi-los.

Obrigada!

Obrigada pelo seu tempo! Se tiver qualquer dúvida ou feedback vou adorar que você comente ou entre em contato com pelo Linkedin.

Para ver esse e outros projetos completos, acesse meu portfólio no GitHub.

Valeu!

--

--

Pandas Couple
Pandas Couple

Written by Pandas Couple

Casal de Cientistas de Dados, contribuindo para a comunidade de Data Science.

No responses yet