Descubra todas as frentes de decode

Desenvolvemos continuamente novas metodologias de coleta e análise de dados para compreender fluxos

Somo um laboratório multidisciplinar de pesquisa e inovação digital da Decode.

Data Science: o que machine learning tem a ver com estatística?

Share:

Entenda a relação entre esses conceitos e de que forma esta área do conhecimento interfere no desenvolvimento do Aprendizado de Máquina.


A relação entre Estatística e Aprendizado de Máquina (machine learning) é um tópico que gera muita discussão, então para entender as aproximações entre esses dois conceitos, muitas vezes vale a pena olhar para suas diferenças.

Hoje, o Aprendizado de Máquina é considerado um subcampo de Inteligência Artificial e de Ciência da Computação. A Estatística, por outro lado, é um subcampo da Matemática.

Apesar de serem de áreas diferentes, princípios de Estatística complementam o Aprendizado de Máquina, fornecendo base para o trabalho de análise de dados e de desempenho de um algoritmo, por exemplo.

Do ponto de vista técnico, podemos dizer que a principal diferença entre Aprendizado de Máquina e Estatística é seu propósito. Enquanto os modelos de aprendizado de máquina são projetados para fazer as previsões com a maior precisão possível, os modelos estatísticos são projetados para inferência sobre as relações entre variáveis.

Estatística e Machine Learning

Diante disso, é preciso entender também o que são a Estatística e os modelos estatísticos. Estatística é o estudo matemático dos dados. Isso significa se você não tem dados, não é possível fazer uma análise estatística. Já um modelo estatístico é usado para inferir algo sobre a relação dentre os dados ou para criar um modelo que é capaz de prever valores futuros. Frequentemente, esses dois andam de mãos dadas.

Apesar do Machine Learning ter o mesmo objetivo da Estatística – como aprender a partir dos dados? – eles não são usados da mesma forma. Em outras palavras, o Aprendizado de Máquina é um algoritmo que pode aprender com os dados, sem depender de programação baseada em regras. A modelagem estatística é uma formalização das relações entre as variáveis nos dados na forma de equações matemáticas.

O fato é que o Aprendizado de Máquina usa estatística para entender e comparar dados, bem como para fazer a validação de modelos. Existem certos conjuntos de problemas os quais se pode intercambiar modelagem estatística ou Aprendizado de Máquina (também conhecido como Machine Learning clássico) – a regressão logística é um exemplo.

O Machine Learning vai substituir a Estatística?

Nem perto disso. Os departamentos de Estatística das universidades continuarão existindo. O Machine Learning tem o mesmo objetivo como falamos acima, mas não as mesmas finalidades.

A diferença entre os dois é que o Aprendizado de Máquina enfatiza a otimização e o desempenho sobre a inferência, que é a preocupação principal da Estatística. Vamos a um exemplo ilustrativo. Um estatístico e um especialista em Aprendizado de Máquina descrevendo o mesmo resultado apresentarão as seguintes informações:

Estatístico: “O modelo tem 70% de precisão na previsão de Y, dados a, b e c; e estou 80% certo de que você obterá o mesmo resultado”

Especialista de ML: “O modelo é 70% preciso na previsão de Y, dados a, b e c.”

O Aprendizado de Máquina não requer suposições anteriores sobre os relacionamentos subjacentes entre as variáveis. Você apenas tem que jogar todos os dados que possui e o algoritmo processa os dados e descobre padrões, usando-os para fazer previsões sobre o novo conjunto de dados.

O Machine Learning trata um algoritmo como uma caixa preta, desde que funcione. Geralmente, é aplicado a conjuntos de dados em Big Data, por exemplo, já que quanto mais dados você tiver, mais precisa será sua previsão.

Para saber mais sobre Data Science e Machine Learning, leia também este artigo. E para saber sobre as relações entre Machine Learning e Inteligência Artificial, acesse este aqui.