Como a análise de dados a partir de textos escritos pode aperfeiçoar o desempenho do setor industrial
*Por Maria Clara Duque
Quando falamos sobre
análise de dados, as pessoas costumam imaginar que as informações contidas nela
estão atreladas apenas aos números. Porém, os textos escritos feito por meio de
anotações de observação dos profissionais durante as atividades operacionais também
são considerados “dados” e podem auxiliar no complemento de relatórios a fim de
atribuir informações úteis de serem exploradas pela indústria futuramente.
Um exemplo que pode ser
usado para explicar sobre a relevância dessas observações é o de operações de
perfuração. Geralmente costumam ser atividades custosas e, por esse motivo, o
monitoramento contínuo delas torna-se necessário para reduzir as interrupções
do processo e evitar possíveis falhas dos equipamentos. Para isso, os
Relatórios Diários de Perfuração (DDRs) têm sido a principal maneira de
registrar eventos perceptíveis, tendo em vista que o setor industrial teve um
crescimento significativo de digitalização durante a última década.
Nesse contexto, os DDRs
passaram a conter uma valiosa base de informações para a maioria das empresas
de petróleo, por se tratar de um relatório completo que relata os principais
eventos ocorridos em uma plataforma de perfuração. Geralmente é escrito por
operadores e constituído por uma rica fonte de informação. No entanto, a tarefa
de extrair conhecimento desses relatórios também pode ser cara, demorada e
propensa a erros humanos, por isso é necessário ter o auxílio de abordagens
capazes de reconhecer os eventos de perfuração em DDRs: uma delas é o método de
processamento de linguagem baseado em regras, chamado Fuzzy String Matching
(FSM).
Trata-se da aplicação
do algoritmo FSM na busca de um conjunto de palavras-chave e frases-chave
predefinidas para extrair possíveis eventos de Tempo Perdido Invisível de DDRs
que possam indicar risco de falha ou de baixa eficiência operacional. Isso
também é possível ao combinar o conhecimento de especialistas com técnicas de
Processamento de Linguagem Natural (NLP) para encontrar expressões considerando
erros de digitação e diferentes sufixos ou prefixos.
Em termos práticos,
pode-se dizer que, em toda a operação onde existe uma supervisão de dados,
raramente haverá a interpretação de um profissional em uma planilha, pois
geralmente ele irá escrever suas anotações por meio de uma linguagem natural -
não será por meio da linguagem analítica.
É a partir desse
cenário que a ferramenta de NLP ganha importância, uma vez que evita a
perda do caráter “analítico” dos dados, sendo responsável por estabelecer um
padrão de texto por meio de uma linguagem para que a tecnologia ajude na
compreensão e extração das informações mais relevantes, transformando os
dados “não estruturados” para “estruturados” - ou seja, unindo informação com
análise.
Além das metodologias citadas acima, é necessária a utilização de uma métrica
de distância, como, por exemplo, a Normalized Damerau-Levenshtein (NDL)
distance, que, basicamente, é uma comparação entre duas expressões, onde
uma delas é considerada a correta e a outra é uma expressão similar, porém contém
uma forma de escrita diferente. Por meio dessa métrica e da Subject
Matter Experts(SME) - que utiliza conhecimento de especialistas na área
operacional para ajudar a estabelecer quais são os problemas que costumam se
repetir e que precisam ser codificados - é possível corrigir os erros
ortográficos e identificar palavras repetidas que indiquem erros recorrentes e
que precisam ser eliminados, a fim de aprimorar o funcionamentos das
operações.
Para exemplificar a
importância dos recursos utilizados, destaco a aplicação em uma empresa de
perfuração, que compilou dados de 392 registros DDR do mundo real usando um
conjunto de seis frases-chave do evento ILT anotadas por especialistas no
assunto. Os resultados mostraram que, em 116 relatórios marcados como normais,
92 registros foram identificados como possíveis eventos de ILT, o que
representa, em horas, uma soma de 923 horas de tempo não produtivo.
Portanto, esses
resultados comprovam que a utilização de todos os métodos são primordiais para
que informações relevantes não sejam descartadas e possam gerar dados
significativos, caso sejam bem estruturados. Além disso, evidencio a
importância da metodologia FSM e sua capacidade de identificar problemas para
facilitar a busca de DDRs problemáticos a fim de otimizar o fluxo e o tempo de
trabalho do setor industrial
* Maria Clara Duque é Cientista de Dados da Intelie
Nenhum comentário