Conheça as três linguagens de programação mais populares para a execução de rotinas de análises de dados
Uma das principais competências do cientista de dados é a programação.
Ao destacar esse requerimento, devemos fazer uma especificação, o profissional deve dominar certos softwares e certas linguagens que o permitam aplicar sobre bases de dados: funções matemáticas, expressões aritméticas, modelos estatísticos e outros processos lógicos.
A capacidade de geração de gráficos e tabelas para apresentação dos resultados gerados através do desenvolvimento das operações realizadas com os dados, é também um ponto importante a ser atendido pelas ferramentas de data science.
Para contemplar todas essas necessidades, o mercado oferece diversas soluções, dentre elas, três destacam-se como principais, sobretudo, pela quantidade de usuários: Python, R e Excel.
Ao longo do artigo, conheceremos as características de cada uma dessas linguagens.
1- Excel
Escolhemos o Excel para encabeçar a lista, para ingressar com uma polêmica: Excel é uma linguagem de programação?
Considerando que um dos critérios para que uma linguagem seja definida como linguagem de programação, ela deve ser “Turing Complete”, isto é, se pode ser usada para repetir uma “Turing Machine”, que na prática, é qualquer mecanismo que acabe por repetir uma sequência de instruções indefinidamente, e que:
“Compute uma certa função computável parcial fixa a partir de uma cadeia como entrada formada pelos símbolos de seu alfabeto”
Algo que o Excel é capaz de fazer através de seu conjunto de funções que não recebe um nome definido, e quando considerada a introdução de macros e VBA, sem dúvidas, há o atendimento desse requisito.
Após justificar sua presença em nossa lista, podemos destacar alguns dos pontos positivos do software.
A interatividade de sua interface, facilidade de utilização e principalmente o fato de pertencer ao tradicional pacote Microsoft Office, faz com que ainda seja o software/linguagem para análise de dados com o maior número de adeptos.
As fraquezas do Excel se originam de suas dificuldades de automatização. A dependência do constante contato humano para gerenciar códigos e tabelas provoca retrabalho e erros organizacionais.
Por ser código fechado, as ferramentas e atualizações são limitadas em relação a certos concorrentes.
Esse mesmo gargalo, dificulta o desenvolvimento de técnicas de advanced analytics com a linguagem, como o machine learning.
2- Linguagem R
Muito apreciada por matemáticos e estatísticos, já que possui suporte para cálculos e análises complexas, “R” é amplamente utilizada pelos cientistas de dados. Entre seus usos como linguagem, estão: modelagem linear e não-linear, análises temporais, agrupamento e etc..
Entre os benefícios concedidos por R, estão: ambientes interativos para criar códigos (REPL) e uma ampla biblioteca nativa com mais de 9 mil pacotes catalogados (maior do mercado).
Para disfrutar de tudo isso, é necessária uma boa memória RAM, computadores de menos de 64 bits estão fora do radar de R. A complexidade de aprendizado também é um fato “negativo” a ser destacado, que junto a falta de um suporte contratado deixa algumas empresas com o pé atrás para contratá-lo (fato que vem mudando aos poucos, gigantes como Microsoft e Oracle, estão desenvolvendo soluções com R).
3- Python
Por último e não menos importante (talvez até o mais relevante da lista), temos Python.
Sem dúvidas, para aplicações de advanced analytics, Python é a linguagem mais utilizada no Brasil.
Python inicialmente era uma linguagem para ciência de dados acadêmica, bastante utilizada em cursos de matemática e estatística, de tipagem dinâmica, funcional e que tem como base a orientação a objetos.
A sintaxe simples de Python é um dos fatores que justifica sua enorme popularidade.
Assim como R, Python oferece um ambiente interativo para a execução de códigos (REPL), além de bibliotecas nativas, Phyton se vale do fato de ser open-source e de ter uma comunidade dedicada a desenvolver pacotes variados.
A integrabilidade de Python é outro fator impactante para o cientista de dados, diferencial em situações em que se precisa usar uma máquina virtual Windows e uma Linux por exemplo.
Para finalizar, alguns pacotes consagrados exclusivos para data science como como scikit-learn para Machine Learning, e NumPy e Pandas para análise de dados, facilitam muito a vida desses profissionais.
Quer iniciar sua jornada de analytics e não sabe qual dessas ferramentas é a mais adequada para sua empresa?