SSBI - Softwares & Soluções em Business Intelligence


     Contamos com um amplo e variado leque de ferramentas para implementação do conceito de BI. Procuraremos descrever as mais significativas e a seguir exibiremos um quadro demonstrativo onde serão relacionadas as referidas ferramentas com respectivos fornecedores e as etapas da metodologia aonde estas ferramentas podem ser utilizadas.

Datawarehouse

    São poucos os empreendimentos que adotam a filosofia de guardar todos os seus dados transacionias (movimentações diárias, como por exemplo: entradas e saídas de itens de estoque) numa única base. Isto exigiria uma grande capacidade de armazenamento, o que teria um custo elevado, além de interferir na velocidade de processamento, o que demandaria um tempo maior de operação. Por esses motivos, os dados que não precisam necessariamente estar disponíveis on-line (acessados a qualquer momento), ficam disponíveis em outra base, para quando se fizer necessária uma consulta. Esta "outra-base" é estruturada de forma a facilitar este processo de consulta, além de contar com recursos de pré-processamento como por exemplo de ETL (Extraction , transformation and load), que compreende a fase de alimentação do que denominamos datawarehouse.

Datamarts

    Pequenos datawarehouses; assim poderíamos definir os datamarts, que se utilizam da mesma concepção do datawarehouse. A diferença entre um e outro, fica por conta da especialização por um determinado assunto ou área da empresa, como por exemplo podemos ter um um datamart específico para marketing.

Data Mining

    O conceito de “Datas Mining” ou Mineração de Dados (MD) abrange as técnicas que têm por objetivo extrair e explorar uma base de dados, de forma a encontrar as informações solicitadas pelo usuário final de acordo com o que é previsto na metodologia de KDD(Knowledge Discovery in Databases), da qual MD é uma das etapas. A aplicabilidade dessas técnicas permite, por exemplo, descobrir que alguns leitores, em função da faixa etária, compram determinado tipo de revista. Essa descoberta pode ser utilizada para predizer o comportamento de um futuro leitor, quanto a novas compras de revistas.
   Pode-se contar, dentro da MD, com técnicas como Aprendizado baseado em casos, até a construção de uma Rede Neural, ou então recorrer ao uso de Algoritmos Genéticos. Não se pode esquecer que, dependendo do recurso utilizado, haverá reflexo no custo e no tempo de desenvolvimento. Na seqüência estão identificadas e descritas as principais técnicas que podem ser enquadradas na etapa de MD:

        -        Aprendizado baseado em casos
-   Árvore de Decisão
-   Regras de Associação
-   Redes Neurais
-   Algoritmos Genéticos

Aprendizado baseado em casos

Na análise de um relatório com informações relativas aos horários de entrada e saída do expediente de um grupo de funcionários, pode-se observar que um certo número de funcionários não obedece ao horário de chegada. Faz-se então uso de intuição, para reunir algumas características sobre esse determinado grupo de funcionário que pode indicar uma influência sobre o fato da não obediência ao horário de entrada, mas fica a pergunta: Quantos funcionários mais, com essas mesmas características, existem na nossa base de dados para que se possa entender como relevante a intuição efetuada, e se foi correta a escolha das características? Para responder a essa pergunta, pode-se utilizar o algoritmo, o K-nearest neighbor, ou aprendizado baseado em casos que parte da seguinte filosofia: “Faça o que seus vizinhos fazem. Se nós queremos predizer o comportamento de um determinado indivíduo, começaremos a observar o comportamento, por exemplo, de 10 indivíduos que estão próximos a ele na área de dados”. Com base nessas características e em função do número de "vizinhos" que são indicados, esse algoritmo efetua a pesquisa na base de dados e fornece como resposta à confirmação o número de “vizinhos” indicados. Dependendo da confirmação, que pode ser maior, menor ou igual ao número indicado, pode-se entender como relevante ou não as características que foram reunidas.

Árvore de Decisão

“Uma abordagem, dividir-e-vencer, para o problema de aprendizado a partir de um grupo de instâncias independentes, conduzem naturalmente para um estilo de representação chamado árvore de decisão”. Assim como uma árvore comum, a árvore de decisão contém nódulos (vide figura abaixo): “Nódulos em uma árvore de decisão envolvem o teste de um atributo particular, e se abrem em duas ramificações, com cada uma destas oferecendo uma classificação, ou um grupo de classificações, ou as probabilidades de distribuição relativas a todas as possibilidades de classificação.” 

   

Analisando a árvore de decisão voltada para dados de lentes de contato, concluímos que a mesma é formada por várias instâncias independentes (taxa de produção de lágrimas, astigmatismo e prescrição de lentes), com atributos (reduzida, normal, não, sim, miopia e hipermetropia), e que por sua vez resultam em classificações (nenhuma, leve e forte). Pode-se aplicar a abordagem de árvore de decisão para vários tipos de problemas, como o de utilização do critério de centros de trabalho dentro do processo de produção. Para que se possa definir se um novo produto vai ou não utilizar um determinado centro de trabalho (classificação), é necessário que se faça um levantamento acerca das características do processo produtivo do mesmo, a fim de chegar ao seu completo ciclo produtivo, ou seja; se em uma destas etapas desse ciclo; precisa-se fazer corte de 0,5 mm (instância) nesse produto, então o mesmo vai passar pelo centro de trabalho X (classificação), ser derretido à temperatura de 200 graus (instância), então ser encaminhado para o centro de trabalho Y (classificação); e assim por diante até que sejam completadas todas as etapas do ciclo produtivo. Nesse caso os atributos são sempre: não e sim.

Ao contar com uma ferramenta, como as várias existentes, baseada no algoritmo de árvore de decisão, pesquisa-se a base de dados na busca de produtos que tenham instâncias similares (características de produto), e demonstra-se, através dessa ferramenta, todas as possibilidades de utilização de determinados centros de trabalho para o novo produto.

Regras de Associação

É comum para os profissionais da área de marketing, utilizar-se uma série de associações para determinar um padrão de compra de um determinado consumidor. Se possui carro, casa, está dentro de uma alta faixa-salarial e ocupa uma posição de direção em uma empresa. Nesse caso, a tendência para esse consumidor é a compra de produtos que melhor expressem sua condição de “status” elevado. Esse tipo de associação possibilita dirigir a estratégia de marketing de forma a identificar esses consumidores e os meios de oferecer produtos que venham ao encontro de suas necessidades.

As ferramentas que utilizam o algoritmo de regra de associação, quando aplicadas às bases de dados, permitem calcular as possibilidades percentuais de associações, como as efetuadas pelos profissionais de marketing, de forma a obter uma comprovação das mesmas. Sendo assim, com a aplicação da ferramenta, pode-se obter como resultado que, em 90% dos casos, os consumidores que possuem carro, casa, e estão dentro de uma alta faixa-salarial, compram produtos considerados como de “status” elevado, comprovando o padrão de compra imaginado pelos profissionais de marketing. Mas se, ao contrário, o resultado fosse de apenas 30%, isso indicaria uma revisão na estratégia de marketing formulada sobre o padrão de compra imaginado, pois não encontra comprovação na base de dados existente.

Redes Neurais

“O cérebro humano consiste de um grande número de neurônios, cerca de 1011, conectados um ao outro por enorme número de conexões, como são chamadas as sinapses. Um simples neurônio é conectado ao outro neurônio por um par de milhares desses neurônios. Embora neurônios podem ser descritos como simples blocos de construção do cérebro, o ser humano pode lidar com muitas tarefas complexas apesar desta relativa simplicidade. Esta analogia, por este motivo, oferece um interessante modelo para criação de complexas máquinas de aprendizado, e tem levado para a criação de como são chamadas as redes neurais artificiais”. Esses algoritmos, baseados nessas redes neurais artificiais, atuam como verdadeiras sinapses para onde os dados fluem como se fossem neurônios formando então uma rede neural. Para exemplificar essa questão, recorre-se a uma atividade típica da área financeira: a concessão de crédito.

Na base de dados consta o registro de inúmeros clientes que tiveram crédito aprovado ou não. Como ponto de partida, coleta-se uma amostra de clientes com crédito aprovado e suas respectivas características que se acredita determinantes para a referida aprovação. A partir daí, começa-se a "treinar" a rede neural, utilizando os dados da amostra, de forma a obter o resultado de aprovação esperado. Quando essa rede estiver suficientemente "treinada", passa-se então a indicar as características de novos clientes, e a rede irá responder se este novo cliente é aprovado ou não. Essa "pré-análise" efetuada pela rede facilitará o processo final de tomada de decisão sobre a concessão ou não de crédito ao novo cliente.

Algoritmos Genéticos

Proveniente da teoria da origem das espécies, de Darwin, cujo elemento básico é a predominância de um indivíduo sobre os demais que compõem uma determinada espécie, em função da melhor adaptação deste ao ambiente em que vivem; e dos estudos acerca das moléculas de DNA, que indicaram que nestas moléculas são "arquivados" caracteres físicos ou morais de um indivíduo, também conhecidos como hereditariedade, surgiu a fundamentação para a criação dos algoritmos genéticos.

Esses algoritmos partem do princípio que, grupos de soluções diferentes, encontrados para um determinado problema, constituem a primeira geração e são classificadas de acordo com as probabilidades de resolução do problema. Efetua-se então a geração genética: substituindo-se soluções de um grupo, por soluções encontradas em outro grupo (processo denominado de mutação); em seguida, une-se parte de soluções de um grupo com parte de soluções de outro (processo denominado de cruzamento); formando-se assim novos grupos de soluções, baseados nos processo de mutação e cruzamento. Esses  novos grupos farão parte, juntamente com os grupos que lhe deram origem, da segunda geração; para então resultar na última geração,  que constitui a melhor solução encontrada até aquele momento, conforme  demonstrado na evolução de um algoritmo genético com base em um grupo soluções representada  por pontos em um diagrama,  dividido em cinco regiões e que trazem para cada uma destas regiões, cinco coordenadas de pontos distintas ( vide figura abaixo).

 Pode-se aplicar algoritmos genéticos para atividades de concessão de crédito. Basta selecionar grupos de clientes que, em função de suas características (nível de renda, possuidores ou não de bens, região onde residem, etc.), contam com a avaliação do risco de inadimplência que varia de baixo até alto e que constituiriam a primeira geração. Depois seriam aplicadas as demais etapas para se chegar ao algoritmo genético: geração genética (mutação e cruzamento), segunda e última geração, que representaria o nível ideal de risco de inadimplência.

 

SQL

      O SQL é um exemplo, dentro das muitas ferramentas disponíveis para pesquisar dados. Mesmo quando não associadas ou não ao banco de dados para os quais foram desenvolvidas originalmente, esta ferramenta é uma poderosa aliada para a pesquisa de dados. O próprio banco de dados SQL, da Microsoft, em sua versão 7, possui recursos avançados que possibilitam a criação de datawarehouses e datamarts, e o dimensionamento da concepção de DSS.

Oracle

     O banco de dados Oracle, em sua versão 8i, proporciona uma série de recursos que, a exemplo do SQL, permitem a formação de datawarehouses e datamarts, além de recursos como Rollup, Olap e Cube, que também são encontrados na mencionada concepção DSS, da Microsoft.

DSS

    A concepção de DSS(Microsoft Decision Support Service) abrange a formação datawarehouses e datamarts, e a utilização de recursos de Rollup e Cube, para possibilitar consultas utilizando a ferramenta de Olap. Toda esta junção de recursos possibilita uma consulta bem específica à base de dados com uma interação mais fácil para o usuário, de forma a auxiliar no processo de tomada de decisão.

Rollup/Olap

    Os recursos de Rollup e Olap possibilitam o agrupamento de informações que se encontram de forma detalhada. Imagine a necessidade de efetuar a totalização do total das vendas em um determinado mês de um ano qualquer, em um banco de dados em que somente tenho relacionada as minhas vendas de forma detalhada. É justamente neste ponto que estes recursos vêm de encontro à esta necessidade.A principal diferenciação entre esses dois recursos é que a concepção de Olap possibilita uma interação maior com o usuário, incluindo consultas on-line.

Cubo

    Na consulta que venhamos a executar em um banco de dados, poderiamos inicialmente requerer um relatório com os totais de vendas para uma determinada região. Na seqüência, após ter analisado o referido relatório, naturalmente poderíamos perguntar: Quais foram os produtos vendidos?, Para quais clientes?, Quais as margens de lucratividade?, e para incrementar mais ainda: por período mensal. Se todas estas relações estivessem previstas no banco de dados, como dimensões de um cubo, as respostas seriam facilmente obtidas. É justamente sobre este conceito que muitas empresas de ERP (Enterprise Resource Planning), como a BAAN (Baan Company) e fornecedores de ferramentas de BI como a COGNOS se baseiam. Para todos os processos sobre os quais recaem a aplicação de BI e que suportam a gestão de negócios, existe um cubo específico, definido por empresas de ERP e fornecedores de ferramentas de BI, conforme citado acima.As respectivas dimensões de cada um dos cubos são fruto da percepção e da experiência de administradores quanto às suas necessidades de informação, a exemplo das perguntas encontradas acima. Isto não impede que sejam criados os nossos próprios cubos, utilizando os recursos de bancos de dados, como o SQL e Oracle, mas se contamos com um ERP, e o cubo já existir, muito melhor assim, pois estaremos encurtando uma boa parte do nosso trabalho de disponibilizar a consulta solicitada.

Técnicas estatísticas

    As técnicas estatísticas vêm de encontro ao propósito de descobrir os chamados dados escondidos, ou seja aqueles que as ferramentas de consulta comum não demonstram e que podem chegar a 20% do total e são de vital importância para qualquer empreendimento. Vamos dizer que pretendemos saber qual o percentual de compra de um determinado produto, em função de uma característica de um cliente. Por exemplo, qual o peso do fato de um cliente, por exemplo, ter uma casa própria e comprar determinado produto?. Neste ponto podemos contar um algoritmo (série de operações matemáticas para solução de um problema), a exemplo do Naive Prediction, para ajudar na resolução da questão acima levantada.

Visualização

    Ao utilizarmos técnicas estatísticas, encontraremos os resultados esperados, mas podemos sofisticar a forma pela qual estes resultados são visualizados. Não se trata aqui de incrementar a forma de apresentação, mas sim de exibir os resultados de maneira a que a avaliação sobre os mesmos seja mais adequada e rápida. E isto é bem simples de demonstrar. Ao nos fixarmos sobre um histograma, em princípio, estaremos nos atendo aos dados contidos nas colunas e a seguir tentaremos entender a relação destas colunas com os eixos (x e y); se ao invés do histograma viéssemos a contar com o diagrama de Scatter, por exemplo, iríamos observar uma série de pontos que se aglutinariam em determinadas parte do referido eixo, com maior ou menor densidade, indicando onde deveríamos nos ater para identificar o que precisamos.

Quadro Demonstrativo

Ferramenta
Fornecedor(es)
Etapas da Metodologia
Datawarehouse
Oracle,Microsoft, Ardent, Informix, SAS institute, IBM e Sybase
3) Depuração de Dados
5.1) Seleção do Método de Extração
6) Execução do Processo
Datamarts
Oracle, Microsoft, Ardent, Informix, SAS institute, IBM e Sybase
5.1) Seleção do Método de Extração
6) Execução do Processo
SQL Microsoft 2) Análise de Dados
3) Depuração de Dados
4) Agregação de Dados
Oracle Oracle 2) Análise de Dados
3) Depuração de Dados
4) Agregação de Dados
DSS Microsoft 5.1) Seleção do Método de Extração
5.2) Seleção do Método de Exploração
6) Execução do Processo
Rollup/Olap Oracle, Microsoft, Informix, Pilot, Seagate, Hyperion, 5.1) Seleção do Método de Extração
5.2) Seleção do Método de Exploração
Cubo
Oracle, Microsoft, Cognos e Baan 5.2) Seleção do Método de Exploração
5.3) Seleção do Método de Visualização
6) Execução do Processo
Técnicas Estatísticas SAS institute, SPSS Inc e Unica Technology 5.3) Seleção do Método de Visualização
6) Execução do Processo
Visualização Sybase, ZTI e Consist 5.3) Seleção do Método de Visualização
6) Execução do Processo
Árvore de Decisão
Business Objects, Cognos, Angoss International, IBM, Accrue Software, Oracle, Salford Systems, SAS institute, SGI, SPSS Inc e Única Technology
5.3) Seleção do Método de Exploração
6) Execução do Processo
Regras de Associação
IBM, Accrue Software, SAS Institute, SGI e SPSS inc.
5.3) Seleção do Método de Exploração
6) Execução do Processo
Redes Neurais
CA, Angoss International, Cognos, HNC Software, IBM, Accrue Software, Neural Ware, Oracle Corp, SAS institute, SPSS Inc e Única Technology
5.3) Seleção do Método de Exploração
6) Execução do Processo
Algoritmos Genéticos
Ariel Dolan, Trajan Software, Wizsoft e Oingo.
5.3) Seleção do Método de Exploração
6) Execução do Processo

Voltar

Topo


Home


[BI]
[Aplicações]
[Ferramentas]
[Publicações]
[Metodologia]
[Opinião]
[Consultor]