DETECÇÃO DE CRIMES DE PEDOFILIA A PARTIR DE CONVERSAS POR MENSAGENS DE TEXTO

Faculdade de Tecnologia de Mogi das Cruzes

DETECÇÃO DE CRIMES DE PEDOFILIA A PARTIR DE CONVERSAS POR MENSAGENS DE TEXTO

LUCAS SANTOS DA SILVA

Resumo

A internet permite que diversos crimes sejam praticados e entre eles está a pedofilia. Desenvolver técnicas de detecção de pedófilos na web torna-se necessário devido à facilidade que os criminosos tem em aliciar suas vítimas. Esse trabalho propõe o desenvolvimento de uma técnica de detecção de ações de pedófilos, baseando em conversas de mensagem de textos. O que diferencia o projeto desenvolvido aqui, em relação a outros trabalhos relacionados, é que as classificações serão feitas levando em consideração toda uma conversa, e não apenas dos suposto agressor. Foram utilizados algoritmos de classificação k-means, Bayes Ingênuo e Árvores de decisão. Em seguida, foram comparadas as performances e resultados de classificação dos algoritmos utilizados e então foi proposto o desenvolvimento de um algoritmo específico para a classificação de mensagens de conversa de texto.

Palavras-chave: Pedofilia, Data Mining, Text Mining Inteligência Artificial

Abstract

The internet allows many crimes are committed and among them is pedophilia. Developing techniques for detecting pedophiles actions on the web becomes necessary due to the ease which the criminals have to entice his victims. This paper proposes the development of a pedophiles detection technique, basing on text message conversations. What differentiates the project developed here, in relation to other related works, is that the ratings will be made taking into consideration a whole conversation, and not just the attackers messages. The classification algorithms used here were k-means clustering, decision trees and Naïve Bayes. Then, the results and performance of each algoarithm were compared and it was proposed the development of a specific classification algorithm for text messages.

Palavras-chave: Pedobilia, Data Mining, Text Mining Artificial Intelligence

Introdução

A Internet possibilitou que a comunicação entre as pessoas se tornasse muito fácil graças à diversas ferramentas de bate-papo ou redes sociais que foram criadas ao longo do tempo como Facebook, Yahoo Messenger, WhatsApp, entre outros (Olhar Digital). Essas ferramentas possibilitam que diferentes pessoas conversem sobre qualquer assunto. No entanto não é garantido que sejam verdadeiras as identidades das pessoas envolvidas e isso permite que diversas atitudes maliciosas e até criminosas sejam cometidas. A pedofilia é uma delas.

A pedofilia é classificada pela Organização Mundial da Saúde como um distúrbio de desejos sexuais, onde adultos, sejam homens ou mulheres, demonstram desejos sexuais por crianças(Ministério Público Federal) e no Brasil esse distúrbio é considerado crime. O crime de pedofilia é conhecido também como diversos crimes sexuais contra vulneráveis (Vargas, 2012).

Os crimes sexuais contra vulneráveis abrangem os crimes de estupro de vulnerável (art. 217-A), indução de menor de 14 anos a satisfazer a lascívia de outrem (art. 218), satisfação da lascívia mediante presença de criança ou adolescente (art. 218-A) e favorecimento da prostituição ou outra forma de exploração sexual de vulnerável (art. 218-B); frise-se que para ocorrer a pedofilia não é necessário a consumação de nenhum destes delitos pelo indivíduo; da mesma forma, que uma conduta para ser enquadrada nos tipos legais em tela não precisa ser necessariamente realizada por um pedófilo, sendo o saneamento desta complexidade o intuito principal deste artigo. Em se tratando de pedófilos, só há crime quando a pedofilia extrapola os limites da mente e do corpo do próprio pedófilo, atingindo o menor e enquadrando-se nas tipificações acima (LimaFrança, 2014, p. 1).


Pedófilos não são fáceis de serem identificados. No dia-a-dia aparentam ser pessoas muito sociáveis, que não despertam qualquer tipo de desconfiança por parte de outras pessoas. Eles demonstram uma aparente inocência em suas amizades por crianças e geralmente são conhecidos e/ou possuem laços de amizade com os parentes da criança vítima. (Vargas, 2012).

A internet é o principal meio onde os crimes de pedofilia são praticados e, na maioria dos casos, são cometidos por homens que usam as redes sociais para praticarem seus delitos. Normalmente, a abordagem direta aos menores começa por meio das ferramentas de bate-papo por texto, onde os criminosos tendem a utilizar perfis falsos para esconderem suas identidades reais na tentativa de não serem incriminados (Cabette, 2015).

Dessa forma, torna-se necessário estudar e desenvolver métodos que auxiliem na identificação precoce de pedófilos.

Motivação

Tem-se como motivação deste trabalho a ajuda que o mesmo pode prover na identificação e até prevenção dos crimes de pedofilia, visto que o projeto desenvolvido aqui utilizará das conversas por mensagens de texto como base para análise e identificação de pedófilos por meio de técnicas de mineração e análise de textos.

É possível apresentar as seguintes razões como motivações técnico-científicas:

  • Os métodos atuais de classificação e análise de textos são falhos no que tange uma conversa informal online. Em uma conversa por mensagem de texto em uma sala de bate-papo é utilizado um pseudo-dialeto conhecido como “internetês”, onde palavras são abreviadas para agilizarem a digitação. Essa forma de comunicação prejudica ainda mais as análises, visto que muitos modelos de treinamento utilizados pelos métodos atuais são baseados em uma ortografia normalizada.
  • O desenvolvimento de uma técnica de análise de textos baseadas em conversas informais possibilitará um avanço no que tange classificadores universais, visto que será possível desenvolver outras técnicas de analises mais próximas ao mundo real.

Hipótese

Este trabalho tem como hipóteses:

  • A análise de uma conversa completa entre o pedófilo e a vítima poderá tornar as classificações mais fiéis à uma classificação correta;
  • O uso do algoritmo Random Forest poderá tornar o processo de classificação das mensagens mais acurado;
  • A remoção de palavras frequentes, conhecidas como stopwords, poderá tornar o processo de classificação mais acurado;
  • O uso de uma ontologia de domínio para conversas entre o pedófilo e vitima pode auxiliar o processo de classificação.

Objetivos Gerais

Analisar e classificar conversas em mensagens de texto em busca de
possíveis ações de pedófilos contra menores de idade.

Objetivos Específicos

  • Classificar individualmente mensagens de texto em busca de padrões que
    indiquem abordagens de pedófilos;
  • Comparar a performance e acurácia de técnicas de classificação k-means, árvore de decisão e Bayes ingênuo;
  • Implementar um algoritmo específico de classificação que utilize uma ontologia de domínio e comparar sua performance e acurácia com os demais apresentados anteriormente.

Metodologia

Este projeto se iniciou com uma pesquisa bibliográfica em artigos relacionados a mineração de textos (text mining). Entre eles a principal fonte de pesquisa foi o livro “Inteligência Artificial”, escrito por Stuart Russel e Peter Norvig. Foi possível encontrar os métodos mais utilizados na tarefa de classificação de documentos.

O próximo passo se deu na implementação de uma API de aprendizagem de máquina chamada Weka. Utilizando essa API, foi desenvolvido um simples programa de testes que classificaria textos utilizando o algoritmo de árvore de decisão J48. Para isso, foi criada uma base de treinamento que conteria textos associados à rótulos pré-definidos (labels). O programa deveria criar modelos que seriam usados para classificar futuros textos ainda não associados a algum rótulo. A partir dos resultados, foram checadas a performance de execução e acurácia na classificação.

A próxima etapa constituiu na obtenção de conversas por mensagens de textos
reais, realizadas entre agressores sexuais e crianças. Foi utilizado o site Perveted Justice (Perveted Justice) , onde é possível encontrar centenas de mensagens trocadas entre voluntários, que se passam por menores de idade, e agressores sexuais.

Por fim, baseando-se em resultados da execução dos algoritmos da API Weka e no conceito utilizado por cada algoritmo, será proposto um algoritmo especifico para identificação pedófilos em conversas por mensagens de texto. Os resultados de performance e acurácia foram comparados com outros algoritmos propostos, visando minimizar erros na tarefa de classificação.

Fundamentação Teórica

aprendizagem de máquina

Russel e Norvig (2013) definem que há um processo de aprendizagem quando um agente melhora seu desempenho a partir de observações de mundo. Um aluno é o exemplo mais clássico de um processo de aprendizagem, pois ele tende a melhorar seu desempenho em matérias conforme vai estudando mais afundo sobre determinado assunto.

Algoritmos de aprendizagem de máquinas, também conhecidos como aprendizagem automática, são utilizados quando é extremamente difícil ou até mesmo impossível definir previamente uma função exata que retorne valores corretos. Dessa forma, delega-se ao computador definir, por meio de exemplos, uma função de hipótese h que se aproxime da função verdadeira f. (RUSSEL e NORVIG, 2013)

Os algoritmos de reconhecimento facial são exemplos de algoritmos que mostraram resultados satisfatórios no uso de aprendizagem automática. Dando um conjunto de fotos de determinada pessoa é possível “treinar” um programa que implemente algum algoritmo de reconhecimento facial (ViolaJones, por exemplo ), fazendo com que ele aprenda a reconhecer a mesma pessoa em fotos não utilizadas no treinamento. (Wang, 2014).

APRENDIZAGEM SUPERVISIONADA

Russel e Norvig (2013) definem que a aprendizagem
supervisionada é dada por um conjunto de treinamento de N pares de exemplos de entrada e saída (x1, y1), (x2, y2), … (xn, yn) onde cada yj foi gerado por uma função desconhecida y = f(x). O método de aprendizagem supervisionada consiste em descobrir uma função h que mais se aproxime da função verdadeira f.

ÁRVORES DE DECISÃO

A implementação de algoritmos de árvores de decisão é uma das
formas mais simples de aplicação de aprendizagem de máquina. Uma árvore de decisão representa uma função que toma como entrada um vetor de valores de atributos e retorna uma decisão.

Exemplo de árvores de decisão para jogar tênisExemplo de árvores de decisão para jogar tênisAna Teresa Freitas (2017)

BAYES INGÊNIO

A o algoritmo Bayes Ingênio é um tipo de classificador que se utiliza da estatística para dar previsões. No caso de uma classificação de uma frase de texto, ela será classificada com determinada class, baseando-se na probabilidade dela pertencer ou não aquela classe (Raschka, 2014).

random forest

Ainda estou procurando mais sobre

text mining

As técnicas de Text Mining ou Mineração de Texto consistem em extrair conhecimento de uma base estruturada ou não de textos (Tan, 1999). Podemos utilizar algumas medidas estatísticas para realizar a classificação de documentos como a frequência de determinada palavra em um texto.

O processo de mineração de texto utiliza basicamente algoritmos de classificação de textos, onde o objetivo é encontrar a classe a qual pertence determinado texto. As ferramentas anti-spams, presentes nos serviços de emails, utilizam alguns desses algoritmos e classes pré definidas são, geralmente, “spam” e “não spam“. (RUSSEL e NORVIG, 2013)

TF (TERM FREQUENCE)

Uma das principais formas de análise de textos é analisando sua
relação com outros textos. Suponha-se que desejamos, em um conjunto de documentos, verificar quais deles tem relação com a frase “Feliz aniversário”. Uma forma de se obter essa classificação é analisar quais documentos possuem as palavras “Feliz” e “aniversário”, descartando os que não possuem. Para quantificar a relação entre os documentos, é possível que seja analisada a frequência que cada palavra ocorre em cada documento, ou seja, contar o número de vezes que uma palavra aparece (SALTONBUCKLEY, 1988).

IDF (INVERSE TERM FREQUENCE)

Analisar somente a frequência das palavras em cada documento
não é a melhor abordagem na análise de documentos, é preciso que sejam consideradas a importância que cada palavra tem no texto. Palavras muito frequentes interferem diretamente na classificação. Sendo assim, o inverso da frequência dos termos (IDF) é utilizado diminuir o peso de palavras muito frequentes e aumentar o de palavras menos frequentes.

desenvolvimento

Nesse processo de análise foram utilizados os algoritmos Bayes Ingênuo, árvore de decisão J48 e Random Forest, sendo que os três são fornecidos pela API de Machine Learning WEKA. O processo de análise de mensagens se baseou em um arquivo de treinamento contendo 444 mensagens pré-classificadas. Para balancear o arquivo de treinamento, metade das mensagens foram marcadas com positivo para mensagem com conteúdo sexual e a outra metade como negativo.

Para não prejudicar o processo de treinamento, todas as mensagens passaram por um pré-tratamento, removendo seus caracteres especiais. O objetivo desse tratamento foi utilizar apenas palavras para serem classificadas, eliminando a influência de caracteres especiais.

Para avaliar a eficácia dos três algoritmos, foram feitos testes com a remoção e não-remoção de stopwords, que são palavras que são consideradas com irrelevantes no processo de análise e classificação de um conjunto de textos. Esse conjunto de palavras é normalmente utilizado por motores de busca para eliminar palavras que não interferem nos resultados da busca. O processo de análise se baseou em testes com e sem a remoção de stopwords de quatro categorias de palavras: preposições, verbos, substantivos e pronomes, que são os stopwords mais comuns.

Foi realizado testes com a remoção de 6 conjuntos de duas classes de palavras: preposição/substantivos, preposição/verbos, verbos/substantivos, pronomes/verbos, pronomes/substantivos e pronomes/preposições e remoção de todos as classes de stopwords. O objetivo dessa análise foi tentar avaliar se quanto maior o número de stopwords removidos, maior será a acurácia dos algoritmos. 

Resultados da análise do algoritmo Random Forest
Resultados da análise do algoritmo Random ForestO autor (2017)

Resultados da análise do algoritmo J48
Resultados da análise do algoritmo J48O autor (2017)

Resultados da análise do algoritmo Bayes Ingênuo
Resultados da análise do algoritmo Bayes IngênuoO autor (2017)

Resultados das análises

Durante os testes, para todos os algoritmos foram configuradas com as mesmas opções de considerar a frequência de palavras (TF-IDF) e letras em minúsculas, para garantir que a única diferença possível entre as classificações se desse de acordo com os stopwords. No geral, o algoritmo Bayes Ingênuo obteve os melhores resultados, com acurácia máxima de 81,7568% quando foram removidos todos os stopwords ou apenas os stopwords substantivos. Sua menor acurácia foi de 75,5045% quando foram removidos os stopwords das classes pronomes e verbos.

O algoritmo com os piores resultados foi o J48 (árvore de decisão). Sua acurácia máxima for de 70,2703% quando foram removidos todos os stopwords da classe verbo. Sua pior acurácia foi de 54,7297% quando foram removidos todos os stopwords.

Conclusão

Durante os testes foram esperados resultados de acurácia superior a 90%. Entretanto só foi possível conseguir uma acurácia máxima de 81%, com o algoritmo Bayes Ingênuo. Os resultados obtidos aqui muito provavelmente se devem a uma base de aprendizado composta por 444 mensagens pré-classificadas, o que pode ser considerada uma base pequena.

Ainda sim, é possível concluir que os algoritmos de árvores de decisão não são os mais adequados na tarefa de classificação de mensagens de texto, pois de acordo com os testes eles obtiveram resultados bem abaixo do esperado, embora o algoritmo Random Forest tenha conseguido resultados acima de 80%.

Foi possível observar também que a remoção de stopwords das classes preposição e pronomes afetaram positivamente os resultados, melhorando ligeiramente a acurácia dos algoritmos..

Referências

CabetteEduardo Luiz SantosA pedofilia na era digital à luz do Estatuto da Criança e do Adolescente, por Caio Tácito Griecco de Andrade Siqueira. Jusbrasil. 2015. Disponível em: <https://eduardocabette.jusbrasil.com.br/artigos/239700073/a-pedofilia-na-era-digital-a-luz-do-estatuto-da-crianca-e-do-adolescente-por-caio-tacito-griecco-de-andrade-siqueira>. Acesso em: 21 Out. 2017.

LimaAntonio Henrique MaiaFrançaMaurício SerpaO direito penal, pedofilia e os crimes sexuais contra vulneráveis. Âmbito Jurídico. 2014. 1 p. Disponível em: <http://www.ambito-juridico.com.br/site/?n_link=revista_artigos_leitura&artigo_id=14364>. Acesso em: 26 Abr. 2017.

Ministério Público FederalO que é pedofilia?. Turminha do MPF. Brasilia. 1 p. Disponível em: <http://www.turminha.mpf.mp.br/direitos-das-criancas/18-de-maio/o-que-e-pedofilia>. Acesso em: 26 Abr. 2017.

Olhar DigitalDo ICQ ao Facebook: uma breve história dos mensageiros instantâneos. Disponível em: <https://olhardigital.com.br/noticia/historia-dos-mensageiros-instantaneos/30392>. Acesso em: 21 Out. 2017.

Perveted Justice. Perveted Justice. Disponível em: <http://perverted-justice.com/>. Acesso em: 25 Out. 2017.

RaschkaSebastianNaive Bayes and Text Classification. sebastianraschka. 2014. Disponível em: <http://sebastianraschka.com/Articles/2014_naive_bayes_1.html>. Acesso em: 23 Out. 2017.

SALTONGERARDBUCKLEYCHRISTOPHERTERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL . Ithaca, NY, 1988. Dissertação ()Cornell University

TanAh-HweeText Mining: The state of the art and the challenges. Singapore , 1999. Dissertação (Ciência da Computação)Nanyang Technological University, 1999

VargasAna Carla CamposPEDOFILIA NO ÂMBITO FAMILIAR . Barbacena, 2012. 50 p.  TCC (Direito)UNIVERSIDADE PRESIDENTE ANTÔNIO CARLOS Disponível em: <http://www.unipac.br/site/bb/tcc/tcc-faa1f5744d72f53d9031a9ee64455372.pdf>. Acesso em: 20 Out. 2017.

WangYi-QingAn Analysis of the Viola-Jones Face Detection Algorithm. 2014. Disponível em: <http://www.ipol.im/pub/art/2014/104/article.pdf>. Acesso em: 23 Out. 2017.

feito

Use agora o Mettzer em todos
os seus trabalhos acadêmicos

Economize 40% do seu tempo de produção científica