Mudanças entre as edições de "Aprimorando a Disponibilidade da rede do ISP"

De Wiki BPF
Ir para navegação Ir para pesquisar
m
(Simplificação do texto, correção ortográfica, e adição de uma seção final)
 
(2 revisões intermediárias pelo mesmo usuário não estão sendo mostradas)
Linha 1: Linha 1:
 +
=== Aprimorando a Disponibilidade da Rede do ISP ===
 +
 +
==== Nota sobre direitos autorais, termo de uso e isenção de responsabilidade ====
 +
Consulte [[Direitos Autorais Licenca de Uso|os direitos autorais e licença de uso antes de usar este material em seu blog, ou incorporá-lo a qualquer trabalho de natureza acadêmica ou de destinação profissional]].
 +
 +
'''Autor: [https://wiki.brasilpeeringforum.org/w/Usu%C3%A1rio:Leonardo.furtado Leonardo Furtado]'''
 +
 
=== Introdução ===
 
=== Introdução ===
Neste artigo discutiremos informações bastante relevantes para o correto dimensionamento de uma das torres funcionais mais primárias da infraestrutura de redes do ISP. Dentre os principais indicadores-chave de performance do negócio (do inglês “KPI”) do provedor, dois destes são tidos como primários: '''Performance''' (ou “Desempenho”) e '''Disponibilidade'''. E as razões para isto são bem simples, e faço a seguinte reflexão aqui:
+
Neste artigo abordaremos informações essenciais para o correto dimensionamento de uma das torres funcionais mais básicas da infraestrutura de redes do ISP. Entre os principais indicadores-chave de desempenho do negócio (KPI) do provedor, destacam-se dois como primários: '''Performance''' (ou "Desempenho") e '''Disponibilidade'''. As razões são simples, como podemos ver na seguinte reflexão:
* De que adianta uma Internet rápida ou muito rápida, mas cujo serviço fica indisponível para o cliente com razoável ou muita frequência?
+
* De que adianta uma Internet rápida ou muito rápida se o serviço fica indisponível para o cliente com frequência?
* De que adianta uma Internet muito disponível ou com excepcional índice de disponibilidade, se o seu desempenho é ruim ou péssimo?
+
* De que adianta uma Internet com alta disponibilidade se seu desempenho é ruim?
Como podemos perceber, estes dois indicadores são os primários, pois o assinante/cliente consegue percebê-los fácil e amplamente durante a utilização dos serviços de comunicação de dados ou do serviço de Internet.
+
Estes dois indicadores são considerados primários justamente porque o assinante consegue percebê-los facilmente durante a utilização dos serviços de comunicação de dados ou de Internet.
  
Este artigo concentrará na torre funcional de '''<u>Disponibilidade</u>''', e, em outro artigo, discutiremos o de Desempenho.
+
Este artigo focará na torre funcional de '''Disponibilidade''', enquanto o tema Desempenho será abordado em outro artigo.
  
 
=== Definição do Conceito de Disponibilidade e das Torres Funcionais Periféricas ===
 
=== Definição do Conceito de Disponibilidade e das Torres Funcionais Periféricas ===
Eu particularmente trato a Disponibilidade como uma “torre funcional”, pois é possível identificar, tipificar, categorizar e agrupar conjuntos de especificações técnicas que fomentam o aumento (ou a diminuição) deste indicador, e isto inclui características físicas e eletromecânicas (ex: hardware em configuração ou disposição redundante) além de abordagens sistêmicas que incluem serviços, recursos, facilidades, tais como protocolos e afins, de nível software, e que maximizam o conceito de Disponibilidade.
+
Eu trato a Disponibilidade como uma "torre funcional", pois é possível identificar, categorizar e agrupar especificações técnicas que contribuem para o aumento (ou diminuição) deste indicador. Isso inclui características físicas e eletromecânicas (como hardware em configuração redundante), além de abordagens sistêmicas que englobam serviços, recursos e facilidades, como protocolos e outros elementos de software, que maximizam a Disponibilidade.
  
A Disponibilidade tem como objetivo fornecer o óbvio: idealmente, toda vez que um usuário (cliente ou assinante, como preferir chama-lo) desejar utilizar o serviço ou o produto contratado, este encontra-se disponível, pronto para quaisquer que sejam os interesses do usuário. Da mesma forma, toda a vez que o usuário tentar acessar o serviço ou o produto e este encontrar-se indisponível, temos então a caracterização de um serviço com algum padrão de frequência desta indisponibilidade.
+
A Disponibilidade tem um objetivo simples: garantir que o serviço ou produto esteja pronto para uso sempre que o cliente (ou assinante) precisar. Quando o usuário não consegue acessar o serviço, caracterizamos uma indisponibilidade, que pode ocorrer com diferentes frequências.
  
O indicador de Disponibilidade é afetado pela combinação de outras torres funcionais que participam da mesma missão proposta, que é a de fazer o usuário satisfeito com o serviço contratado. Estas disciplinas seriam '''''Confiabilidade''''' e '''''Resiliência''''', respectivamente.
+
O indicador de Disponibilidade é influenciado por duas outras torres funcionais essenciais para a satisfação do usuário: '''''Confiabilidade''''' e '''''Resiliência'''''.
  
A Confiabilidade de uma rede por si só é também um indicador em uma torre funcional própria, mas que agrega positivamente para o aumento da disponibilidade de uma rede. Quando estudando os conceitos de confiabilidade, podemos identificar questões tais como qualidade/confiabilidade de manufatura dos componentes do produto ou dispositivo, características e a presença de componentes em configuração sistêmica redundante, tanto física quanto lógica, além de mecanismos ou recursos periféricos que participam para agregar o conjunto confiabilidade + disponibilidade pretendidos.  
+
A Confiabilidade, embora seja um indicador independente, contribui diretamente para aumentar a disponibilidade da rede. Ela engloba aspectos como qualidade de manufatura dos componentes, presença de redundância sistêmica (física e lógica) e recursos complementares que fortalecem o conjunto confiabilidade + disponibilidade.
  
A Resiliência, por sua vez, tem relação com a forma em que o dispositivo e/ou a rede como um todo reage em situações onde ocorrem falhas na infraestrutura, sejam estas falhas de um componente de um equipamento ou incidentes de contexto lógico.
+
A Resiliência se refere à capacidade do dispositivo ou da rede de reagir a falhas na infraestrutura, sejam elas físicas (em componentes) ou lógicas.
  
Eu particularmente gosto de tratar estes três da seguinte forma: o indicador balizador pretendido é a '''''Disponibilidade''''', a qual pode ser calculada e aprimorada por conjuntos de especificações tecnológicas derivadas a partir de princípios de '''''Confiabilidade''''' e '''''Resiliência'''''.
+
É importante frisar que resiliência não é redundância. Resiliência é a capacidade de cada componente, individualmente, responder a diversas situações que afetem sua disponibilidade, considerando seu papel em uma comunicação fim-a-fim e sua posição em um diagrama de bloco de confiabilidade, seja em série ou em paralelo.
 +
 
 +
Em síntese: a '''''Disponibilidade''''' é nosso indicador principal, que pode ser calculado e aprimorado através de especificações tecnológicas baseadas nos princípios de '''''Confiabilidade''''' e '''''Resiliência'''''.
  
 
=== Os Desafios dos Provedores na Questão da Disponibilidade ===
 
=== Os Desafios dos Provedores na Questão da Disponibilidade ===
Linha 27: Linha 36:
  
 
==== O quanto de Disponibilidade a sua infraestrutura de redes precisa e o quanto você está disposto a pagar por isto? ====
 
==== O quanto de Disponibilidade a sua infraestrutura de redes precisa e o quanto você está disposto a pagar por isto? ====
Uma coisa que pode parecer óbvio mas absolutamente não é: muita redundância é ruim, pois, além de aumentar muito os custos do projeto e da infraestrutura como um todo, torna as funções lógicas da rede demasiadamente complexas e pode inclusive ser um tiro contra o próprio pé! A escolha da quantidade ou qualidade da redundância em uma rede não pode ser tratada que nem o “ponto da carne do churrasco” (cru, mal passado, ao ponto, bem passado), analogias aqui, ou seja, não é uma questão de escolha ou de preferência pessoal. Os projetos de infraestrutura visando melhor disponibilidade precisarão contar com um determinado e ideal padrão de redundância física e lógica, o qual não pode ser escasso e nem demasiadamente excessivo. Talvez um dos maiores desafios aqui está na projeção de uma infraestrutura ''redundante'', ''confiável'' e ''resiliente'' para que se tenha o indicador de '''Disponibilidade''' desejado/ideal, mas fazendo isto de forma que os '''<u>''Custos''</u>''' de adoção destas abordagens sejam compreendidos e compatíveis com a missão do negócio e a realidade financeira do operador de redes.
+
Uma coisa que pode não parecer óbvia: excesso de redundância é prejudicial. Além de aumentar significativamente os custos do projeto e da infraestrutura, torna as funções lógicas da rede demasiadamente complexas - podendo até se tornar contraproducente.
  
Nesta questão, segue a minha primeira dica: <blockquote>'''''Determine os custos de DOWNTIME primeiro, para depois determinar e balancear os custos de Disponibilidade. Será mais fácil você aceitar a dura realidade do investimento necessário quando se compreende com clareza os impactos do negócio decorrentes de uma falha, seja esta uma falha simples e de baixo espectro de aborrecimento, ou uma catástrofe na rede do seu provedor.'''''</blockquote>
+
A escolha da quantidade ou qualidade da redundância em uma rede não pode ser tratada como uma simples questão de preferência pessoal, como escolher o ponto da carne no churrasco (cru, mal passado, ao ponto, bem passado…).
 +
 
 +
Os projetos de infraestrutura que visam melhor disponibilidade precisam estabelecer um padrão ideal de redundância física e lógica, evitando tanto a escassez quanto o excesso. Um dos maiores desafios está em projetar uma infraestrutura ''redundante'', ''confiável'' e ''resiliente'' para atingir o indicador de '''Disponibilidade''' desejado, garantindo que os '''''Custos''''' sejam compatíveis com a missão do negócio e a realidade financeira do operador de redes.
 +
 
 +
Nesta questão, segue a minha primeira dica:<blockquote>'''''Determine os custos de DOWNTIME primeiro, para depois determinar e balancear os custos de Disponibilidade. Será mais fácil aceitar a realidade do investimento necessário quando se compreende claramente os impactos de uma falha no negócio, seja ela simples ou uma catástrofe na rede do seu provedor.'''''</blockquote>
 
* O quanto você está disposto a perder financeiramente com uma falha na sua rede?
 
* O quanto você está disposto a perder financeiramente com uma falha na sua rede?
 +
 
* O quanto você está disposto a perder em termos de base de clientes, participação de mercado / market share, reputação e afins, como consequências de desastres na sua rede?
 
* O quanto você está disposto a perder em termos de base de clientes, participação de mercado / market share, reputação e afins, como consequências de desastres na sua rede?
 
* O quanto você está disposto a investir para mitigar corretamente os tantos riscos que podem provocar desde pequenas, mas inconvenientes, indisponibilidades, até grandes dores de cabeça com falhas e impactos massivos?
 
* O quanto você está disposto a investir para mitigar corretamente os tantos riscos que podem provocar desde pequenas, mas inconvenientes, indisponibilidades, até grandes dores de cabeça com falhas e impactos massivos?
 
Exercite precisamente as três questões acima antes mesmo de tentar elaborar o seu próximo projeto de infraestrutura!
 
Exercite precisamente as três questões acima antes mesmo de tentar elaborar o seu próximo projeto de infraestrutura!
 
[[Arquivo:Bpf-ha-1.png|centro|miniaturadaimagem|640x640px|Compatibilizando os Custos de Downtime versus os Custos de Disponibilidade]]
 
[[Arquivo:Bpf-ha-1.png|centro|miniaturadaimagem|640x640px|Compatibilizando os Custos de Downtime versus os Custos de Disponibilidade]]
Acima de tudo, procure identificar e quantificar os seguintes impactos para o negócio do seu provedor:
+
 
 +
Procure identificar e quantificar os seguintes impactos para o negócio do seu provedor:
 
* '''Impactos de natureza imediata'''
 
* '''Impactos de natureza imediata'''
 
** Perda de receitas
 
** Perda de receitas
** Custos com reparos e manutenções corretivas
+
** Custos com reparos e manutenção corretiva
** Penalidades dos SLA contratados
+
** Penalidades contratuais de SLA
** Insatisfação de clientes
+
** Insatisfação dos clientes
 
** Atrasos em projetos internos e externos
 
** Atrasos em projetos internos e externos
** Distrações negativas no negócio
+
** Impactos negativos na operação do negócio
 
* '''Impactos de natureza de longo prazo'''
 
* '''Impactos de natureza de longo prazo'''
 
** Danos à imagem da empresa/ISP
 
** Danos à imagem da empresa/ISP
** ''Churn'' de clientes, evasão de assinantes
+
** ''Churn'' e evasão de assinantes
** Favorecimento indesejável do concorrente
+
** Fortalecimento indevido da concorrência
** Ações e reparações judiciais
+
** Processos e reparações judiciais
** Perda de confiança, tanto dos funcionários/colaboradores do ISP, quanto do mercado e clientes
+
** Perda de confiança dos funcionários, colaboradores, mercado e clientes
  
 
=== Compreendendo a Derivação do Indicador de Disponibilidade ===
 
=== Compreendendo a Derivação do Indicador de Disponibilidade ===
Nesta seção do artigo apresentarei os fundamentos de cálculos de disponibilidade de uma rede.
+
Nesta seção do artigo, apresentarei os fundamentos dos cálculos de disponibilidade de uma rede.
  
Um dos principais objetivos nesta questão é permitir ao ISP estabelecer um nível de disponibilidade quantificável matematicamente, ou seja, a disponibilidade de sua rede possuir um índice de disponibilidade quantificável e comunicado para seus clientes nos acordos de SLA. Este índice de disponibilidade é fornecido através de um valor percentual conforme demonstrado a seguir:
+
O principal objetivo é permitir que o ISP estabeleça um nível de disponibilidade matematicamente quantificável. Isso significa que a rede terá um índice de disponibilidade mensurável, que será comunicado aos clientes nos acordos de SLA. Este índice é expresso através de um valor percentual, como demonstrado a seguir:
 
[[Arquivo:Bpf-ha-2.png|centro|miniaturadaimagem|640x640px|Quantificação da confiabilidade e disponibilidade de uma rede]]
 
[[Arquivo:Bpf-ha-2.png|centro|miniaturadaimagem|640x640px|Quantificação da confiabilidade e disponibilidade de uma rede]]
Para chegarmos a esta conta de disponibilidade, temos que primeiro medir a confiabilidade de uma rede, pois a ''Confiabilidade'' é um conceito mensurável e, para este cálculo, usamos dois indicadores primários:
+
Para calcular a disponibilidade, precisamos primeiro medir a confiabilidade de uma rede, pois a ''Confiabilidade'' é um conceito mensurável. Para este cálculo, utilizamos dois indicadores primários:
  
 
'''Mean Time Between Failures (MTBF)'''
 
'''Mean Time Between Failures (MTBF)'''
  
É o tempo total de operação do dispositivo e/ou da rede como um todo (mas comecemos aqui com o dispositivo/equipamento primeiro, antes de considerarmos o ambiente como um todo) dividido pela quantidade de falhas.
+
É o tempo total de operação do dispositivo e/ou da rede dividido pela quantidade de falhas. Para simplificar, começamos analisando um dispositivo individual antes de considerar o ambiente completo.
  
Em outras palavras: "''quando isto (o componente) falha?''".
+
Em outras palavras: "''quando o componente falha?''"
  
 
'''Mean Time to Repair (MTTR)'''
 
'''Mean Time to Repair (MTTR)'''
  
É o tempo que inclui todas as ações de manutenção da falha, incluindo o tempo para o recebimento e detecção do incidente ou falha, tempo gasto para o diagnóstico efetivo do problema, e o tempo gasto para o conserto, podendo ser uma configuração, reinicialização do equipamento, substituição de algum módulo físico com problemas, ou tempo de reparo de um enlace/link de comunicação de dados.
+
É o tempo total necessário para resolver uma falha, incluindo: detecção do incidente, diagnóstico do problema e reparo efetivo. O reparo pode envolver configuração, reinicialização do equipamento, substituição de módulos ou conserto de enlaces de comunicação.
 +
 
 +
Em outras palavras: "''quanto tempo leva para consertá-lo?''"
  
Em outras palavras: "''quando tempo leva para conserta-lo?''".
+
A confiabilidade de uma rede e, por consequência, sua disponibilidade, podem ser calculadas através de uma fórmula simples:[[Arquivo:Bpf-ha-3.png|centro|miniaturadaimagem|640x640px|Cálculo da disponibilidade de uma rede]]
  
A confiabilidade de uma rede e, consequentemente, a sua disponibilidade, podem ser computadas com base nesta simples fórmula:
+
==== Confeccionando o seu Diagrama de Blocos de Confiabilidade ====
 +
Do inglês '''''Reliability Block Diagram (RBD)''''', este diagrama é uma ferramenta essencial para iniciar os cálculos de confiabilidade e disponibilidade de uma rede. O RBD utiliza um método diagramático para demonstrar como a confiabilidade dos componentes contribui para o sucesso ou falha de um sistema complexo. No nosso caso, o equipamento da rede.
  
[[Arquivo:Bpf-ha-3.png|centro|miniaturadaimagem|640x640px|Cálculo da disponibilidade de uma rede]]
+
Os fabricantes de equipamentos de redes, especialmente os de primeira linha, são extremamente criteriosos na gestão de qualidade de manufatura de seus produtos. Embora muitos dos conceitos que abordarei estejam na esfera do fabricante e não do provedor, vale a pena entender um pouco desse processo. Vamos lá?
  
==== Confeccionando o seu Diagrama de Blocos de Confiabilidade ====
+
No desenvolvimento de um novo equipamento, e deixando de lado os processos iniciais, a confiabilidade dos componentes é rigorosamente avaliada.
Do inglês '''''Reliability Block Diagram (RBD)''''', este diagrama é extremamente útil para que consigamos iniciar todo o trabalho de cálculos da confiabilidade + disponibilidade de uma rede. Essencialmente o RBD serve para, através de um método diagramático, compreender como a confiabilidade dos componentes citados contribuem para o sucesso ou a falha de um sistema complexo, onde, no nosso caso, seria o equipamento da rede.
 
  
Os fabricantes de equipamentos de redes, em especial os fabricantes de "primeira linha" aqui, são absolutamente criteriosos na gestão de qualidade de manufatura de seus produtos. Muito do que comentarei aqui não é realmente da alçada do provedor, pois são conceitos presentes na esfera do próprio fabricante, mas, enfim, também não considero um desperdício de tempo citar um pouco do que acontece nestes casos. Vamos lá?
+
São mais de 150 requisitos técnicos distribuídos em mais de 15 disciplinas de confiabilidade, incluindo ''Integridade de Sinais'', ''Diagnósticos'', ''Mecânica'', ''Térmica'', ''Elétrica'', ''CAD'', ''Engenharia de Hardware'', ''Silício'' (ASIC, FPGA e afins), ''Ópticos'', ''Manufatura e Engenharia de Componentes''.
  
Quando concebendo um novo equipamento no mercado - suprimirei a iniciação e processos disto - focando aqui na questão da confiabilidade dos componentes, diversos artefatos que detalham os requerimentos são produzidos para o controle de qualidade de manufatura. Na questão da confiabilidade, por si só, mais de 150 requerimentos técnicos são injetados em matrizes gerenciáveis e através de mais de 15 disciplinas de confiabilidade. Exemplos de disciplinas aqui incluem Integridade de Sinais, Diagnósticos, Mecânica, Térmica, Elétrica, CAD, Engenharia de HW, Silício (ASIC, FPGA e afins), Ópticos, Manufatura, Engenharia de Componentes, e tantos outros. Diversos estágios nestas disciplinas são trabalhados sobre os mais de 150 requerimentos técnicos do projeto do equipamento. Ultimamente, isto percorrerá uma extensa esteira de Qualidade e Confiabilidade (PQE) para que o produto e todos os seus componentes embarcados sejam testados contra uma extensa lista de situações e em pleno funcionamento/operação, tais como temperatura de operação e armazenamento, altitude de operação, humidade condensada, vibração, choque, interferência EMI e RFI, e dezenas de outros casos. Após todos estes procedimentos o fabricante consegue confirmar os valores de MTBF de seus componentes.
+
Todos esses requisitos passam por uma extensa esteira de Qualidade e Confiabilidade (PQE), onde o produto e seus componentes são testados em diversas condições: temperatura de operação e armazenamento, altitude, umidade condensada, vibração, choque, interferência EMI e RFI, entre outros. Só após esses testes o fabricante determina os valores de MTBF dos componentes.
  
E é justamente aí no MTBF que você, profissional de redes de um ISP, poderá finalmente fazer uso disto. A primeira coisa que você precisará fazer é consultar o fabricante para obter as figuras de confiabilidade (MTBF) do seu equipamento. O fabricante obviamente não fornecerá o MTBF de cada "parafuso" do equipamento, pois isto é absolutamente desnecessário, mesmo! Ao invés disto, o fabricante fornecerá valores agrupados por conjuntos de componentes que perfazem o produto/equipamento. Por exemplo:
+
É com esses valores de MTBF que você, profissional de redes de um ISP, poderá trabalhar. O primeiro passo é solicitar ao fabricante as figuras de confiabilidade (MTBF) do seu equipamento. O fabricante não fornecerá o MTBF de cada componente individual, já que isso seria desnecessário. Em vez disso, você receberá valores agrupados por conjuntos funcionais do equipamento. Por exemplo:
 
* MTBF da fonte de alimentação elétrica
 
* MTBF da fonte de alimentação elétrica
 
* MTBF do módulo de ventilação
 
* MTBF do módulo de ventilação
* MTBF do módulo e supervisão e controle (ex: RSP, RP, RE, Supervisor, etc.)
+
* MTBF do módulo de supervisão e controle (ex: RSP, RP, RE, Supervisor, etc.)
 
* MTBF do módulo de portas (line card)
 
* MTBF do módulo de portas (line card)
 
* Etc.
 
* Etc.
De posse dessa informação, o que você faz? Desenha o RBD - mesmo que relativamente simplificado - daquele equipamento e calcula a confiabilidade + disponibilidade daquele equipamento. Utilizemos um exemplo bem simples aqui a título de exemplificação de um RBD contendo figuras de escalabilidade fornecidas pelo fabricante de um equipamento:
+
Com essas informações em mãos, você deve desenhar o RBD (mesmo que simplificado) do equipamento e calcular sua confiabilidade e disponibilidade. Vamos usar um exemplo simples para demonstrar um RBD com as figuras de escalabilidade fornecidas pelo fabricante:
  
OBS: ao conduzir este procedimento, certifique-se de validar os componentes com redundância em série e também o componentes com redundância em paralelo. Por exemplo, a falha do único módulo de supervisão e controle de um roteador interromperia por completo o funcionamento deste equipamento, mesmo que o referido roteador possuísse duas fontes de alimentação elétricas instaladas (ou seja, redundância em paralelo para a parte elétrica), pois há a disposição em "série" entre os blocos funcionais "alimentação elétrica" e "supervisão e controle", onde um depende do outro para manter o equipamento em operação.
+
OBS: durante este procedimento, é essencial validar tanto os componentes com redundância em série quanto em paralelo. Por exemplo: mesmo que um roteador possua duas fontes de alimentação instaladas (redundância em paralelo para a parte elétrica), a falha de um único módulo de supervisão e controle interromperia completamente seu funcionamento. Isso ocorre porque existe uma disposição em "série" entre os blocos funcionais "alimentação elétrica" e "supervisão e controle", onde um depende do outro para manter o equipamento operacional.[[Arquivo:Bpf-ha-4.png|centro|miniaturadaimagem|800x800px|Calculando a disponibilidade de um dispositivo (Fonte: Cisco)]]
[[Arquivo:Bpf-ha-4.png|centro|miniaturadaimagem|800x800px|Calculando a disponibilidade de um dispositivo (Fonte: Cisco)]]
+
O exemplo acima mostra que o equipamento possui uma disponibilidade ligeiramente superior a 99,99% (conhecida como "4-Nines"), o que representa matematicamente cerca de 50 minutos de downtime por ano.
O exemplo acima indica que o equipamento possui uma disponibilidade levemente superior a 99,99%., ou seja, "4-Nines", o que se traduziria matematicamente em 50 minutos de downtime por ano.
 
  
Após validar o índice de confiabilidade + disponibilidade de cada equipamento da sua rede, e estendendo esse trabalho também para os enlaces/links, o seu próximo passo deverá ser a derivação completa da confiabilidade + disponibilidade de toda a rede. Um exemplo de como isto poderia ser feito:
+
Após validar o índice de confiabilidade e disponibilidade de cada equipamento da sua rede, incluindo também os enlaces/links, seu próximo passo será determinar a confiabilidade e disponibilidade completa de toda a rede. Veja um exemplo de como isto pode ser feito:[[Arquivo:Bpf-ha-5.png|centro|miniaturadaimagem|640x640px|Disponibilidade de um cenário de rede (Fonte: Cisco)]]
[[Arquivo:Bpf-ha-5.png|centro|miniaturadaimagem|640x640px|Disponibilidade de um cenário de rede (Fonte: Cisco)]]
 
 
[[Arquivo:Bpf-ha-6.png|centro|miniaturadaimagem|640x640px|Disponibilidade de um cenário de rede com componentes em SÉRIE (Fonte: Juniper Networks)]]
 
[[Arquivo:Bpf-ha-6.png|centro|miniaturadaimagem|640x640px|Disponibilidade de um cenário de rede com componentes em SÉRIE (Fonte: Juniper Networks)]]
 
[[Arquivo:Bpf-ha-7.png|centro|miniaturadaimagem|640x640px|Disponibilidade de um cenário de rede com componentes em PARALELO (Fonte: Juniper Networks)]]
 
[[Arquivo:Bpf-ha-7.png|centro|miniaturadaimagem|640x640px|Disponibilidade de um cenário de rede com componentes em PARALELO (Fonte: Juniper Networks)]]
  
Ao término, você terá compreendido os níveis de disponibilidade de cada dispositivo, de cada enlace, e de toda a infraestrutura de redes. E, consequentemente, poderá finalmente conhecer o '''''Service Level Agreement (SLA)''''' de sua rede, mesmo que ainda e apenas, por enquanto, na questão do MTBF.
+
Ao final desse processo, você terá uma compreensão clara dos níveis de disponibilidade de cada dispositivo, enlace e toda a infraestrutura de rede. Como resultado, poderá definir o '''''Service Level Agreement (SLA)''''' de sua rede, mesmo que inicialmente apenas em relação ao MTBF.
  
 
==== Uma Observação Importante quanto ao MTBF ====
 
==== Uma Observação Importante quanto ao MTBF ====
algo interessante quando lidando com as figuras de confiabilidade (MTBF) fornecidas pelos fabricantes: são valores estáticos. Os componentes são eletrônica e mecanicamente estressados e testados e em diversas condições (temperatura, altitude, pressão, humidade, vibração, choque/impacto, etc.), e, consequentemente, os níveis de confiabilidade dos componentes são matematicamente validados, ficando disponíveis para o usuário do equipamento. Muitas vezes, claro, os valores não ficam publicamente disponíveis, portanto você deverá solicita-los junto ao fabricante. Todavia, são valores estáticos e não há nada que você possa fazer para aprimora-los.
+
um aspecto interessante sobre as figuras de confiabilidade (MTBF) fornecidas pelos fabricantes: elas são valores estáticos.
  
Os únicos “ajustes” que você pode realizar nestes casos é a melhor seleção da composição do equipamento no que diz respeito a sua redundância física e ações correlatas.  
+
Os componentes são submetidos a testes rigorosos de estresse eletrônico e mecânico sob diversas condições (temperatura, altitude, pressão, umidade, vibração, choque/impacto, etc.). Como resultado, os níveis de confiabilidade dos componentes são validados matematicamente e disponibilizados ao usuário do equipamento.
 +
 
 +
Na maioria dos casos, esses valores não são publicamente disponíveis, sendo necessário solicitá-los diretamente ao fabricante. É importante notar que, por serem estáticos, não há como aprimorá-los.
 +
 
 +
Os únicos "ajustes" possíveis nestes casos são a seleção criteriosa da composição do equipamento quanto à sua redundância física e ações relacionadas.
  
 
===== Fatores que Afetam o MTBF de um Dispositivo e/ou da Rede =====
 
===== Fatores que Afetam o MTBF de um Dispositivo e/ou da Rede =====
'''Chassi:''' é um elemento primariamente passivo, assim como o seu backplane.
+
'''Chassi:''' é um elemento primariamente passivo, assim como seu backplane.
  
'''Módulo de Supervisão e Controle (ex: RP, RSP, RE, Supervisor):''' pode ser único ou em configuração redundante. Ao inserir dois módulos destes no chassi, você, através da redundância em "paralelo" desse bloco apenas, melhora substancialmente o MTBF deste bloco como um todo.
+
'''Módulo de Supervisão e Controle (ex: RP, RSP, RE, Supervisor):''' pode ser único ou redundante. Ao inserir dois módulos no chassi, você melhora substancialmente o MTBF deste bloco através da redundância em "paralelo".
  
'''Fontes de alimentação elétrica:''' um equipamento com uma única fonte fica completamente refém da disponibilidade desta fonte. Alguns equipamentos permitem a inserção de duas ou mais fontes de alimentação. No entanto, fique atento que equipamentos mais “parrudos” possuem requerimentos elétricos mais exigentes, e podem necessitar de um mínimo de fontes presentes/instaladas para manter todos os módulos em funcionamento. Ou seja, nestes casos, a redundância não seria 1 + 1, e sim N + 1 ou N + N, etc.
+
'''Fontes de alimentação elétrica:''' um equipamento com fonte única depende totalmente da disponibilidade desta fonte. Alguns equipamentos aceitam duas ou mais fontes. Porém, equipamentos mais robustos têm requisitos elétricos mais exigentes e podem necessitar de um número mínimo de fontes instaladas para manter todos os módulos funcionando. Nesses casos, a redundância não seria 1 + 1, mas sim N + 1 ou N + N.
  
'''Módulo de ventilação:''' alguns fabricantes de equipamentos mais simples possuem um módulo com ventoinhas integradas ao equipamento e que não é permitido a sua substituição sem o desligamento e desmontagem do equipamento (o que afetaria o MTTR). Outros modelos de equipamentos incluem até ventoinhas independentes, mas mantidas por uma única controladora (ou seja, este bloco fica em “série”). Outros modelos de equipamentos possuem bandejas independentes com múltiplas ventoinhas cada, mas que há um mínimo de exigência em termos de número de ventoinhas em pleno funcionamento e com ''thresholds'' nos RPM, os quais tem que operar corretamente conforme demandado pelos sensores de temperatura.
+
'''Módulo de ventilação:''' alguns fabricantes de equipamentos mais simples usam módulos com ventoinhas integradas que não podem ser substituídas sem desligar e desmontar o equipamento (afetando o MTTR). Outros modelos têm ventoinhas independentes controladas por uma única placa (ficando em "série"). Há ainda modelos com bandejas independentes com múltiplas ventoinhas, mas exigem um número mínimo delas funcionando com ''thresholds'' de RPM específicos, conforme demandado pelos sensores de temperatura.
  
'''Módulo de portas/interfaces físicas (line cards):''' imagine que você possui dois uplinks críticos na sua rede, e ambos conectados a duas portas independentes, mas ambas do mesmo módulo line card. uma relação em “série” entre estes uplinks e o referido módulo, e isto significa que se o módulo falhar os dois uplinks ficarão indisponíveis. Aí eu pergunto: de que adiantou um chassi com 02 controladoras, 04 fontes de alimentação, 02 módulos de ventilação, 01 ou mais módulos de portas, se os uplinks conectam-se para um único módulo de portas? O problema aqui foi o design da sua conectividade. Ao espalhar as conexões físicas redundantes em módulos de portas independentes, você estará aumentando o MTBF do bloco de conectividade entre o equipamento e os uplinks.  
+
'''Módulo de portas/interfaces físicas (line cards):''' considere um cenário com dois uplinks críticos conectados a portas independentes do mesmo módulo line card. Existe uma relação em "série" entre estes uplinks e o módulo - se ele falhar, ambos os uplinks ficam indisponíveis. De que adianta ter um chassi com duas controladoras, quatro fontes de alimentação e dois módulos de ventilação se os uplinks dependem de um único módulo de portas? O problema está no design da conectividade. Ao distribuir as conexões físicas redundantes em módulos diferentes, você aumenta o MTBF do bloco de conectividade entre o equipamento e os uplinks.
  
Espero que você tenha compreendido isso.  
+
Espero que você tenha compreendido isso.
  
 
==== Compreendendo o Mean Time to Repair (MTTR) ====
 
==== Compreendendo o Mean Time to Repair (MTTR) ====
Ao contrário do MTBF, onde os valores são praticamente estáticos (variam apenas no projeto da redundância), o MTTR tem natureza absolutamente variável e dinâmica em muitos casos. O MTTR indica quanto tempo levará para reparar a falha ou o incidente, restabelecendo o funcionamento dos serviços afetados.  
+
Diferentemente do MTBF, cujos valores são praticamente estáticos (variando apenas no projeto da redundância), o MTTR possui natureza altamente variável e dinâmica. O MTTR indica o tempo necessário para reparar uma falha ou incidente e restabelecer o funcionamento dos serviços afetados.  
  
Outra diferença entre MTBF e MTTR está na interpretação dos valores: para o MTBF, o ideal é que os valores sejam numericamente grandes, o que indicaria uma menor frequência de falhas. Já o MTTR, quanto menor for o valor, melhor, pois, afinal de contas, você quer realmente encurtar o máximo possível o tempo gasto para sanear o problema e reestabelecer o serviço. Certo?
+
A interpretação desses valores também difere: para o MTBF, quanto maior o valor, melhor, pois indica menor frequência de falhas. Já para o MTTR, quanto menor o valor, melhor, pois o objetivo é minimizar o tempo necessário para resolver o problema e restaurar o serviço.
  
 
===== Fatores que Afetam o MTTR de um Dispositivo e/ou da Rede =====
 
===== Fatores que Afetam o MTTR de um Dispositivo e/ou da Rede =====
 
O MTTR é severamente afetado e em uma variedade de situações que fica até difícil sintetiza-lo aqui. Citarei algumas destas situações:
 
O MTTR é severamente afetado e em uma variedade de situações que fica até difícil sintetiza-lo aqui. Citarei algumas destas situações:
  
<u>Falha de componente físico (módulo, fonte...):</u> se um módulo de um equipamento presente no seu datacenter vier a falhar e afetar serviços na sua rede, quanto tempo levaria para você restaurar o serviço?
+
O MTTR é significativamente afetado por diversas situações, das quais destacaremos as principais:
 +
 
 +
<u>Falha de componente físico (módulo, fonte...):</u> se um módulo em seu datacenter falhar e afetar serviços na rede, qual seria o tempo necessário para restaurar o serviço?
 
* '''Notificação e detecção do problema'''
 
* '''Notificação e detecção do problema'''
** Quanto tempo levou entre o surgimento do problema e a sua efetiva detecção?
+
** Qual foi o intervalo entre o surgimento do problema e sua detecção efetiva?
** Quanto tempo levou para você diagnosticar o problema, compreende-lo e isolar a causa-raiz, possibilitando determinar a ação corretiva apropriada.
+
** Quanto tempo foi necessário para diagnosticar o problema, compreendê-lo e isolar a causa-raiz, permitindo determinar a ação corretiva adequada? <u>O MTTR aqui é afetado pela qualidade dos seus processos e ferramentas de gerenciamento de incidentes, além do conhecimento e habilidades de seus funcionários e colaboradores.</u>
** <u>O MTTR aqui é afetado pela qualidade dos seus processos e ferramentas de gerenciamento de incidentes, e também pelo conhecimento/skill/habilidades de seus funcionários e colaboradores.</u>
 
 
* '''Material sobressalente para reposição'''
 
* '''Material sobressalente para reposição'''
** Você possui um módulo a título de peça de reposição em estoque local?  
+
** Você possui peça de reposição em estoque local?
** Você precisa se deslocar até algum lugar para obter a peça de reposição, e retornar ao local de instalação para fazer a substituição?
+
** Precisa se deslocar para obter a peça de reposição e retornar ao local de instalação?
** Você não possui qualquer peça de reposição disponível.
+
** Você não possui peça de reposição disponível.
*** Possui ao menos um contrato de assistência técnica estendida com o fabricante?
+
*** Possui contrato de assistência técnica estendida com o fabricante?
**** Caso afirmativo, qual seria o SLA deste RMA (próximo dia útil, 4 horas, 2 horas?)?
+
**** Caso afirmativo, qual é o SLA deste RMA (próximo dia útil, 4 horas, 2 horas)?
** Você não possui qualquer peça de reposição disponível e não possui acesso/direito ao RMA, pois não possui um contrato de assistência técnica estendida. O que você faz?
+
** Na ausência de peças de reposição e sem acesso ao RMA por falta de contrato de assistência técnica estendida, quais são suas opções?
*** Consegue comprar um módulo imediatamente e o melhor prazo possível para o seu recebimento (o que pode levar horas ou dias)?
+
*** É possível comprar um módulo imediatamente, considerando o melhor prazo de entrega (que pode variar de horas a dias)?
*** Consegue obter emprestado com algum parceiro ou fornecedor, enquanto compra este módulo no mercado?
+
*** Existe a possibilidade de empréstimo com algum parceiro ou fornecedor enquanto aguarda a compra do módulo? <u>O MTTR é diretamente impactado pelos seus processos de logística, plano de contingenciamento e recuperação de desastres. Sem essas medidas preventivas, prepare-se para um downtime prolongado e prejudicial ao negócio.</u>
** <u>O MTTR aqui é afetado pelos seus processos de logística, pelo plano de contigenciamento e de recuperação de desastres. Se você não fez nada disso, espere um downtime bem prolongado e destrutível para o negócio.</u>
 
 
* '''Execução de manobras corretivas'''
 
* '''Execução de manobras corretivas'''
 
** A reposição do módulo exigirá esforços com configurações/reconfigurações?
 
** A reposição do módulo exigirá esforços com configurações/reconfigurações?
Linha 151: Linha 170:
  
 
==== O Cálculo Efetivo da Disponibilidade de uma Rede ====
 
==== O Cálculo Efetivo da Disponibilidade de uma Rede ====
A partir do momento em que você compreendeu melhor o MTBF e o MTTR, além dos modelos de redundância em série e em paralelo, consolidemos estes entendimentos através de um modelo didático:
+
Agora que você compreendeu melhor o MTBF e o MTTR, bem como os modelos de redundância em série e em paralelo, vamos consolidar estes conceitos através de um modelo didático:
  
 
===== Disponibilidade Calculada =====
 
===== Disponibilidade Calculada =====
A disponibilidade calculada pode ser derivada com certa facilidade observando-se critérios tais como:
+
A disponibilidade calculada pode ser determinada observando-se os seguintes critérios:
* '''Projeto da rede:''' classe dos equipamentos da rede, componentes tais como módulos e afins em configuração redundante, hierarquia da rede (ex: modelo hierárquico + estruturado + modular; as "camadas de função"), etc.
+
* '''Projeto da rede:''' classe dos equipamentos, componentes em configuração redundante, hierarquia da rede (como o modelo hierárquico + estruturado + modular e as "camadas de função"), entre outros.
* '''MTBF e MTTR dos componentes:''' é importante salientar aqui que diversos modelos e simulações, incluindo ''[[wikipedia:Markov_model|Markov’s Modeling]]'' , ''Reliability Block Diagram'' (RBD), e "''sensitivity analysis - Telcordia SR-1171 Methods and Procedures for System Reliability Analysis''", sobre especificações de requerimentos de produtos e ''targets'' de confiabilidade motivas pelo mercado e clientes.
+
* '''MTBF e MTTR dos componentes:''' é importante destacar que existem diversos modelos e simulações, incluindo [[wikipedia:Markov_model|''Markov’s Modeling'']], ''Reliability Block Diagram'' (RBD) e "''sensitivity analysis - Telcordia SR-1171 Methods and Procedures for System Reliability Analysis''", relacionados às especificações de requisitos de produtos e metas de confiabilidade estabelecidas pelo mercado e clientes.
O cálculo básico da disponibilidade poderá ser representado da seguinte forma:
+
O cálculo básico da disponibilidade pode ser representado da seguinte forma:
 
[[Arquivo:Bpf-ha-8.png|centro|miniaturadaimagem|640x640px|Fórmula do cálculo de disponibilidade em Série e em Paralelo]]
 
[[Arquivo:Bpf-ha-8.png|centro|miniaturadaimagem|640x640px|Fórmula do cálculo de disponibilidade em Série e em Paralelo]]
  
 
===== Disponibilidade Mensurada =====
 
===== Disponibilidade Mensurada =====
A disponibilidade mensurada requer o emprego de elementos externos ou complementares para a sua aproximação. Alguns exemplos:
+
A disponibilidade mensurada requer o emprego de elementos externos ou complementares para sua medição. Alguns exemplos:
* Testes de conectividade com ferramentas padrão tais como o protocolo ICMP (''ping'', ''traceroute'' e afins).
+
* Testes de conectividade com ferramentas padrão como o protocolo ICMP (''ping'', ''traceroute'' e similares).
* Testes de conectividade com ferramentas específicas tais como ''Cisco Service Level Agreement'' (IP SLA), ''Cisco Service Assurance Agent'' (SAA), e ferramentas equivalentes disponíveis em outros fabricantes.
+
* Testes de conectividade com ferramentas específicas como ''Cisco Service Level Agreement'' (IP SLA), ''Cisco Service Assurance Agent'' (SAA) e ferramentas equivalentes de outros fabricantes.
* Testes de disponibilidade com consultas a objetos gerenciados (OID) via procedimento SNMP.
+
* Testes de disponibilidade com consultas a objetos gerenciados (OID) via SNMP.
* Testes com probes externas, capazes de conduzir teste de performance conforme determinados RFC (ex: JDSU).
+
* Testes com sondas externas para medição de desempenho conforme RFCs específicos (exemplo: JDSU).
* Análise e interpretação de troubletickets e tratamentos de logs de indisponibilidades/downtime.
+
* Análise e interpretação de registros de chamados técnicos e logs de indisponibilidade.
* Métodos observáveis tais como o rastreamento de RMA de componentes faltosos.
+
* Métodos observáveis como o acompanhamento de RMA de componentes defeituosos.
  
 
===== Disponibilidade Planejada =====
 
===== Disponibilidade Planejada =====
 
Em especial com foco na redução do MTTR:
 
Em especial com foco na redução do MTTR:
* Auditoria para condução da análise qualitativa de riscos e demais áreas de gerenciamento de riscos para qualificar e quantificar os riscos de indisponibilidades e como estes afetam os indicadores de performance da organização.
+
* Realização de auditoria para análise qualitativa de riscos e gerenciamento de riscos, visando identificar e mensurar os riscos de indisponibilidade e seus impactos nos indicadores de performance da organização.
* Elaboração de um plano de contingência e de recuperação de desastres, capaz de atender/sanear os riscos críticos para o negócio e, consequentemente, promover a redução do MTTR e o devido aprimoramento do SLA.
+
* Desenvolvimento de plano de contingência e recuperação de desastres para mitigar riscos críticos do negócio, reduzindo o MTTR e aprimorando o SLA.
* Elaboração de processos operacionais consistentes e seguros, seguindo à risca os consagrados modelos de indústria para gerenciamento de mudanças, gerenciamento de configurações, gerenciamento de incidentes e afins.
+
* Implementação de processos operacionais robustos e seguros, alinhados aos modelos consagrados da indústria para gerenciamento de mudanças, configurações e incidentes.
* Realização dos investimentos necessários em treinamento e capacitação dos funcionários e colaboradores para a atuação em eventos de falhas, tanto preventiva quanto corretiva.
+
* Investimento em treinamento e capacitação da equipe para atuação eficiente em falhas, tanto em ações preventivas quanto corretivas.
  
 
=== Elevando o SLA da sua Rede para o Próximo Nível ===
 
=== Elevando o SLA da sua Rede para o Próximo Nível ===
O ''Service Level Agreement'' (SLA) é ultimamente o indicador que você fornecerá para o mercado e para os seus clientes, e ele é ditado pela sua Disponibilidade Calculada + Disponibilidade Mensurada + Disponibilidade Planejada. Ou seja, o SLA é governado pela torre funcional de "Disponibilidade" de seu projeto técnico, o que, por sua vez, é alimentado pela Confiabilidade e pela Resiliência. No entanto, torna-se necessário separar as áreas-foco da resiliência de uma rede para que fique mais fácil você tratar as áreas de disponibilidade:
+
O Service Level Agreement (SLA) é o principal indicador que você fornece ao mercado e aos seus clientes. Ele é determinado pela combinação da Disponibilidade Calculada, Mensurada e Planejada. Em outras palavras, o SLA é governado pela torre funcional de "Disponibilidade" do seu projeto técnico, que se baseia na Confiabilidade e na Resiliência. Para facilitar o tratamento das áreas de disponibilidade, é importante separar as áreas-foco da resiliência de uma rede:
  
 
==== Resiliência Nível Sistêmico ====
 
==== Resiliência Nível Sistêmico ====
São considerados aqui questões tais como a confiabilidade do hardware e do software e ações de redução do MTTR quanto a falhas de componentes físicos e lógicos (RP/RSP/RE, line cards, módulos software, etc.). A arquitetura de software também desempenha uma missão muito importante na questão da resiliência do equipamento. Nos exemplos a seguir, um roteador Cisco ASR 1000, e o software Cisco IOS XE e Cisco IOS XR.
+
São considerados aqui aspectos como a confiabilidade do hardware e software, bem como ações para redução do MTTR em falhas de componentes físicos e lógicos (RP/RSP/RE, line cards, módulos de software etc.). A arquitetura de software tem papel fundamental na resiliência do equipamento. Veremos isso nos exemplos a seguir, utilizando um roteador Cisco ASR 1000 e os softwares Cisco IOS XE e Cisco IOS XR.
 
[[Arquivo:Bpf-ha-10.png|centro|miniaturadaimagem|500x500px|Exemplo de recursos de disponibilidade de um equipamento (Fonte: Cisco)]]
 
[[Arquivo:Bpf-ha-10.png|centro|miniaturadaimagem|500x500px|Exemplo de recursos de disponibilidade de um equipamento (Fonte: Cisco)]]
 
[[Arquivo:Bpf-ha-11.png|centro|miniaturadaimagem|500x500px|Exemplo de arquitetura de disponibilidade de software (Fonte: Cisco)]]
 
[[Arquivo:Bpf-ha-11.png|centro|miniaturadaimagem|500x500px|Exemplo de arquitetura de disponibilidade de software (Fonte: Cisco)]]
 
[[Arquivo:Bpf-ha-12.png|centro|miniaturadaimagem|500x500px|Exemplo de arquitetura de disponibilidade de software (Fonte: Cisco)]]
 
[[Arquivo:Bpf-ha-12.png|centro|miniaturadaimagem|500x500px|Exemplo de arquitetura de disponibilidade de software (Fonte: Cisco)]]
OBS: consulte o seu fabricante de escolha para conhecer as características de disponibilidade sistêmicas da arquitetura do equipamento pretendido.  
+
Observação: consulte o fabricante de sua escolha para conhecer as características de disponibilidade sistêmicas da arquitetura do equipamento pretendido.  
  
 
==== Resiliência Nível Rede ====
 
==== Resiliência Nível Rede ====
São considerados aqui questões tais como as propriedades do projeto técnico, hierarquia e camadas de função da rede, e a adoção de mecanismos que forneçam uma convergência e recuperação de falhas mais rápido, ágil. Ou seja, tecnologias suplementares, protocolos de resiliência, mecanismos de proteção, etc.
+
São considerados aqui aspectos como as propriedades do projeto técnico, a hierarquia e as camadas de função da rede, além da adoção de mecanismos que forneçam uma convergência e recuperação de falhas mais rápida e ágil. Isso inclui tecnologias suplementares, protocolos de resiliência e mecanismos de proteção.
  
 
[[Arquivo:Bpf-ha-9.png|centro|miniaturadaimagem|900x900px|Exemplos de tecnologias para o aumento da disponibilidade na rede (Fonte: Cisco)]]
 
[[Arquivo:Bpf-ha-9.png|centro|miniaturadaimagem|900x900px|Exemplos de tecnologias para o aumento da disponibilidade na rede (Fonte: Cisco)]]
Linha 195: Linha 214:
  
 
==== Resiliência Nível Operacional ====
 
==== Resiliência Nível Operacional ====
São considerados aqui todas as questões associadas a parte operacional do provedor, incluindo processos, métodos, boas práticas, capacitação de pessoal, além das ferramentas necessárias para ações de diagnósticos, correções e reparos. Futuros artigos no BPF tratarão bem deste tema.
+
São consideradas aqui todas as questões associadas à parte operacional do provedor, incluindo processos, métodos, boas práticas, capacitação de pessoal e ferramentas necessárias para ações de diagnóstico, correção e reparo. Futuros artigos no BPF abordarão este tema em detalhes.
  
 
=== Exemplos de Procedimentos, Tecnologias, Protocolos e Serviços de Confiabilidade da Infraestrutura ===
 
=== Exemplos de Procedimentos, Tecnologias, Protocolos e Serviços de Confiabilidade da Infraestrutura ===
Consulte a ilustração a seguir para ter todo o entendimento consolidado acerca dos principais elementos de confiabilidade em uma infraestrutura. A lista <u>obviamente</u> não inclui tudo! Muita coisa teve que ficar de fora.
+
Consulte a ilustração a seguir para compreender os principais elementos de confiabilidade em uma infraestrutura de forma consolidada. A lista não é exaustiva; diversos outros elementos importantes não puderam ser incluídos.
 
[[Arquivo:Bpf-ha-13.png|centro|miniaturadaimagem|1231x1231px]]
 
[[Arquivo:Bpf-ha-13.png|centro|miniaturadaimagem|1231x1231px]]
  
=== "Receita Secreta" para Elevar a sua Disponibilidade e SLA ===
+
=== Dicas para Elevar a sua Disponibilidade e SLA ===
Honesta e ironicamente, não há nada de secreto. Apenas siga estas dicas para elevar o padrão de disponibilidade + SLA para o próximo nível:
+
Na verdade, não há nada de secreto. Siga estas dicas comprovadas para elevar o padrão de disponibilidade e SLA ao próximo nível:
# '''Documente toda a sua rede'''. Produza artefatos detalhando todo o L1, L2 e L3 de sua rede, assim como cada elemento ativo na rede. Utilize planilhas, bases de conhecimento internas, diagramas, etc. A propósito, aproveite a oportunidade para conferir o artigo [[Boas Praticas para a Documentacao de Infraestruturas de Redes e Servicos do Provedor|Boas Práticas para a Documentação de Infraestruturas de Redes e Serviços do Provedor]], que trata desse tema, em nossa Wiki!
+
# '''Documente toda a sua rede'''. Produza artefatos detalhando as camadas L1, L2 e L3, assim como cada elemento ativo. Utilize planilhas, bases de conhecimento internas e diagramas. A propósito, confira o artigo [[Boas Praticas para a Documentacao de Infraestruturas de Redes e Servicos do Provedor|Boas Práticas para a Documentação de Infraestruturas de Redes e Serviços do Provedor]] em nossa Wiki!
# '''Produza o Diagrama de Blocos de Confiabilidade (RBD)'''. Inicialmente, de cada dispositivo. Depois, de toda a rede. Procure derivar corretamente o MTBF, MTTR e o '''MTD''' (''Mean Down Time'').
+
# '''Produza o Diagrama de Blocos de Confiabilidade (RBD)'''. Comece com cada dispositivo individual e depois expanda para toda a rede. Determine com precisão o '''MTBF''', '''MTTR''' e o '''MTD''' (''Mean Down Time'').
# '''Localize os Single Points of Failure (SPOF) de sua rede.''' Cada ponto único de falha deve ser identificado e assinalado para posterior resolução e mitigação.
+
# '''Localize os Single Points of Failure (SPOF) de sua rede'''. Identifique e marque cada ponto único de falha para posterior resolução e mitigação.
# '''Exercite e documente o Mapa de Indisponibilidades.''' Saiba descrever como cada tipo de incidente poderá ocorrer, quais áreas de serviços serão impactadas, quais clientes e usuários ficarão indisponíveis, e por quanto tempo. Represente e confronte estes dados em noções de Categorias, Escopo, Perímetro, Volume, Temporal, etc.  
+
# '''Elabore e documente o Mapa de Indisponibilidades'''. Detalhe como cada tipo de incidente pode ocorrer, áreas de serviços impactadas, usuários afetados e duração prevista. Classifique esses dados por categoria, escopo, perímetro, volume e aspectos temporais.
# '''Exercite a Análise (Qualitativa, Quantitativa) de Riscos.''' Até mesmo para poder ajudá-lo na aprovação do projeto que ditará as correções e investimentos necessários. Você precisará conhecer com detalhes todos o riscos que corre e como cada falha pode ocorrer, assim como cada distúrbio que isto provocará para o seu negócio (multas, reparação, reputação, fuga de clientes, etc.). Procure qualificar isto e quantificar financeiramente estes danos. É aqui que você poderá ser bem razoável na equação "''<u>quanto eu vou perder se a minha rede parar</u>''" vs. "''<u>quando vou gastar para a minha rede não parar e eu não ter estas perdas</u>''". Vale a pena investir ou vale a pena correr o risco?
+
# '''Realize a Análise de Riscos Qualitativa e Quantitativa'''. Isto auxiliará na aprovação do projeto e seus investimentos necessários. Conheça detalhadamente seus riscos, possíveis falhas e impactos no negócio (multas, reparações, reputação e perda de clientes). Quantifique financeiramente estes danos. Compare "''quanto eu vou perder se a minha rede parar''" versus "''quando vou gastar para a minha rede não parar e eu não ter estas perdas''". Vale mais investir ou correr o risco?
# '''Elabore um Projeto Executivo.''' Este artefato será muito útil para, de uma forma bem objetiva ("executiva"!), documentar as iniciativas que resolverão os riscos identificados. Procure acertar nem a mão aqui para buscar a aprovação do projeto no que diz respeito à sua viabilidade técnica.
+
# '''Elabore um Projeto Executivo'''. Este documento objetivo documentará as iniciativas para resolver os riscos identificados. Foque na viabilidade técnica para garantir a aprovação do projeto.
# '''Elabore um Projeto Técnico Detalhado.''' Se necessário. O PTD aborda miúdos do conceito de solução que podem ser exigidos para processos de integrações mais complexas.
+
# '''Elabore um Projeto Técnico Detalhado'''. Quando necessário, o PTD abordará especificações técnicas essenciais para integrações complexas.
# '''Elabore um Plano Diretor de Investimentos.''' Não tenha vergonha em pedir a ajuda de fabricantes e de parceiros estratégicos. Evite apenas os consultores "achômetros" e pouco criteriosos. E evite também comprar soluções com vendedores de equipamentos que não possuem competência em lidar, eles mesmos, com as questões técnicas associadas ao projeto (implantação, suporte, etc.). Aqui você tentará viabilizar os investimentos contando com o apoio do fabricante (times de vendas, especialistas técnicos e times de serviços), canal de distribuição do fabricante, parceiro estratégico (VAR/revenda), instituições financeiras, etc.
+
# '''Elabore um Plano Diretor de Investimentos'''. Busque apoio de fabricantes e parceiros estratégicos competentes. Evite consultores superficiais e vendedores sem expertise técnica em implantação e suporte. Procure viabilizar investimentos com apoio do fabricante, canais de distribuição, parceiros estratégicos (VAR/revenda) e instituições financeiras.
# '''Conte com uma empresa prestadora de serviços com as devidas credenciais e qualificações.''' Não tente fazer tudo sozinho. Saiba reconhecer que você precisa evoluir, e deixe na mão de quem conhece de fato este tipo de trabalho. Aproveite a oportunidade para fazer duas coisas: '''a) procure acompanhar tudo bem de perto e a aprender.''' '''b) foque em fornecer resultados para o seu negócio/empresa, e não distrações'''.
+
# '''Contrate uma empresa de serviços qualificada'''. Reconheça suas limitações e confie em especialistas. Aproveite para: '''a) acompanhar de perto e aprender'''; '''b) concentrar-se nos resultados do negócio, não em distrações'''.
# '''Mantenha a documentação da rede em dia.''' Isto inclui todo o tipo de artefato que mantém a documentação da rede bem consistente e vigente.
+
# '''Mantenha a documentação atualizada'''. Garanta que todos os artefatos da rede permaneçam consistentes e vigentes.
# '''Revalide o seu plano de contingência e de recuperação de desastres'''.
+
# '''Revalide o plano de contingência e recuperação de desastres'''.
 
'''Assista ao Vídeo "BPF: compreendendo os fundamentos de Disponibilidade da rede de um ISP"'''
 
'''Assista ao Vídeo "BPF: compreendendo os fundamentos de Disponibilidade da rede de um ISP"'''
  
 
Este vídeo com 41 minutos de duração explora os temas discutidos aqui através de uma linguagem bem fácil e objetiva. Assista aqui: https://youtu.be/egrNHwwoaOY  
 
Este vídeo com 41 minutos de duração explora os temas discutidos aqui através de uma linguagem bem fácil e objetiva. Assista aqui: https://youtu.be/egrNHwwoaOY  
 
[[Arquivo:Bpf-ha-14.png|centro|miniaturadaimagem|640x640px|BPF: compreendendo os fundamentos de Disponibilidade da rede de um ISP]]
 
[[Arquivo:Bpf-ha-14.png|centro|miniaturadaimagem|640x640px|BPF: compreendendo os fundamentos de Disponibilidade da rede de um ISP]]
 +
 +
=== Inovações recentes ===
 +
Para elevar estas ideias ao próximo nível:
 +
 +
'''1. Redes Autocorretivas (Self-Healing Networks)'''
 +
 +
As redes autocorretivas representam um avanço significativo na automação. Elas permitem que a infraestrutura detecte, diagnostique e resolva problemas autonomamente, sem intervenção humana. Essa abordagem reduz o tempo de inatividade e melhora a resiliência operacional.
 +
 +
'''2. Operações de Rede Baseadas em IA (AIOps)'''
 +
 +
A integração de Inteligência Artificial nas operações de rede permite análises preditivas e automação de tarefas complexas.
 +
 +
'''3. Arquitetura de Automação Sem Limites (Boundless Automation)'''
 +
 +
A Emerson desenvolveu a arquitetura Boundless Automation™, integrando dados de dispositivos de campo, edge computing e nuvem em uma infraestrutura adaptável. Essa abordagem permite otimização em tempo real e resposta rápida a falhas, aumentando a disponibilidade da rede.
 +
 +
'''4. Plataformas de Automação Agnósticas a Fornecedores'''
 +
 +
Com redes cada vez mais complexas, cresce a adoção de plataformas de automação independentes de fornecedor único. Essas soluções integram diversos dispositivos e sistemas, simplificando a gestão e aumentando a flexibilidade operacional.
 +
 +
'''5. Redes Zero-Touch com AutoML'''
 +
 +
As redes Zero-Touch automatizam completamente a gestão de rede, usando aprendizado de máquina automatizado para adaptação dinâmica e otimização de desempenho. Essa abordagem é crucial para redes 5G e tecnologias futuras.
 +
 +
'''6. Redundância Transparente de Alta Disponibilidade (HSR)'''
 +
 +
O protocolo High-availability Seamless Redundancy oferece failover sem interrupções, garantindo continuidade mesmo durante falhas de componentes. É especialmente valioso em ambientes industriais que exigem alta disponibilidade.
  
 
=== Considerações Finais ===
 
=== Considerações Finais ===
Linha 224: Linha 270:
 
Espero que este artigo tenha sido útil. Até o próximo!
 
Espero que este artigo tenha sido útil. Até o próximo!
  
'''Autor: [[Usuário:Leonardo.Furtado|Leonardo Furtado]]'''
+
'''Autor: [https://wiki.brasilpeeringforum.org/w/Usu%C3%A1rio:Leonardo.furtado Leonardo Furtado]'''
 
[[Categoria:Capacitação]]
 
[[Categoria:Capacitação]]

Edição atual tal como às 13h05min de 30 de abril de 2025

Aprimorando a Disponibilidade da Rede do ISP

Nota sobre direitos autorais, termo de uso e isenção de responsabilidade

Consulte os direitos autorais e licença de uso antes de usar este material em seu blog, ou incorporá-lo a qualquer trabalho de natureza acadêmica ou de destinação profissional.

Autor: Leonardo Furtado

Introdução

Neste artigo abordaremos informações essenciais para o correto dimensionamento de uma das torres funcionais mais básicas da infraestrutura de redes do ISP. Entre os principais indicadores-chave de desempenho do negócio (KPI) do provedor, destacam-se dois como primários: Performance (ou "Desempenho") e Disponibilidade. As razões são simples, como podemos ver na seguinte reflexão:

  • De que adianta uma Internet rápida ou muito rápida se o serviço fica indisponível para o cliente com frequência?
  • De que adianta uma Internet com alta disponibilidade se seu desempenho é ruim?

Estes dois indicadores são considerados primários justamente porque o assinante consegue percebê-los facilmente durante a utilização dos serviços de comunicação de dados ou de Internet.

Este artigo focará na torre funcional de Disponibilidade, enquanto o tema Desempenho será abordado em outro artigo.

Definição do Conceito de Disponibilidade e das Torres Funcionais Periféricas

Eu trato a Disponibilidade como uma "torre funcional", pois é possível identificar, categorizar e agrupar especificações técnicas que contribuem para o aumento (ou diminuição) deste indicador. Isso inclui características físicas e eletromecânicas (como hardware em configuração redundante), além de abordagens sistêmicas que englobam serviços, recursos e facilidades, como protocolos e outros elementos de software, que maximizam a Disponibilidade.

A Disponibilidade tem um objetivo simples: garantir que o serviço ou produto esteja pronto para uso sempre que o cliente (ou assinante) precisar. Quando o usuário não consegue acessar o serviço, caracterizamos uma indisponibilidade, que pode ocorrer com diferentes frequências.

O indicador de Disponibilidade é influenciado por duas outras torres funcionais essenciais para a satisfação do usuário: Confiabilidade e Resiliência.

A Confiabilidade, embora seja um indicador independente, contribui diretamente para aumentar a disponibilidade da rede. Ela engloba aspectos como qualidade de manufatura dos componentes, presença de redundância sistêmica (física e lógica) e recursos complementares que fortalecem o conjunto confiabilidade + disponibilidade.

A Resiliência se refere à capacidade do dispositivo ou da rede de reagir a falhas na infraestrutura, sejam elas físicas (em componentes) ou lógicas.

É importante frisar que resiliência não é redundância. Resiliência é a capacidade de cada componente, individualmente, responder a diversas situações que afetem sua disponibilidade, considerando seu papel em uma comunicação fim-a-fim e sua posição em um diagrama de bloco de confiabilidade, seja em série ou em paralelo.

Em síntese: a Disponibilidade é nosso indicador principal, que pode ser calculado e aprimorado através de especificações tecnológicas baseadas nos princípios de Confiabilidade e Resiliência.

Os Desafios dos Provedores na Questão da Disponibilidade

Os provedores de acesso à Internet precisam compreender com absoluta clareza os fundamentos de disponibilidade + confiabilidade + resiliência para que as suas infraestruturas sejam modificadas com o objetivo de atender ou exceder as expectativas de seus clientes. Dentre os tantos desafios, podemos elencar algumas situações ou verdades sobre o tema:

  1. A disponibilidade do dispositivo não tem relação direta com a disponibilidade de uma rede. São coisas distintas!
  2. A disponibilidade de um dispositivo e a sua devida redundância são frequentemente conflitantes, pois alguns dispositivos mais simples podem ser mais confiáveis enquanto alguns dispositivos mais confiáveis tendem a não ser simples!
  3. Os altos Custos são uma eterna dúvida, e precisam ser bem equacionados.

O quanto de Disponibilidade a sua infraestrutura de redes precisa e o quanto você está disposto a pagar por isto?

Uma coisa que pode não parecer óbvia: excesso de redundância é prejudicial. Além de aumentar significativamente os custos do projeto e da infraestrutura, torna as funções lógicas da rede demasiadamente complexas - podendo até se tornar contraproducente.

A escolha da quantidade ou qualidade da redundância em uma rede não pode ser tratada como uma simples questão de preferência pessoal, como escolher o ponto da carne no churrasco (cru, mal passado, ao ponto, bem passado…).

Os projetos de infraestrutura que visam melhor disponibilidade precisam estabelecer um padrão ideal de redundância física e lógica, evitando tanto a escassez quanto o excesso. Um dos maiores desafios está em projetar uma infraestrutura redundante, confiável e resiliente para atingir o indicador de Disponibilidade desejado, garantindo que os Custos sejam compatíveis com a missão do negócio e a realidade financeira do operador de redes.

Nesta questão, segue a minha primeira dica:

Determine os custos de DOWNTIME primeiro, para depois determinar e balancear os custos de Disponibilidade. Será mais fácil aceitar a realidade do investimento necessário quando se compreende claramente os impactos de uma falha no negócio, seja ela simples ou uma catástrofe na rede do seu provedor.

  • O quanto você está disposto a perder financeiramente com uma falha na sua rede?
  • O quanto você está disposto a perder em termos de base de clientes, participação de mercado / market share, reputação e afins, como consequências de desastres na sua rede?
  • O quanto você está disposto a investir para mitigar corretamente os tantos riscos que podem provocar desde pequenas, mas inconvenientes, indisponibilidades, até grandes dores de cabeça com falhas e impactos massivos?

Exercite precisamente as três questões acima antes mesmo de tentar elaborar o seu próximo projeto de infraestrutura!

Compatibilizando os Custos de Downtime versus os Custos de Disponibilidade

Procure identificar e quantificar os seguintes impactos para o negócio do seu provedor:

  • Impactos de natureza imediata
    • Perda de receitas
    • Custos com reparos e manutenção corretiva
    • Penalidades contratuais de SLA
    • Insatisfação dos clientes
    • Atrasos em projetos internos e externos
    • Impactos negativos na operação do negócio
  • Impactos de natureza de longo prazo
    • Danos à imagem da empresa/ISP
    • Churn e evasão de assinantes
    • Fortalecimento indevido da concorrência
    • Processos e reparações judiciais
    • Perda de confiança dos funcionários, colaboradores, mercado e clientes

Compreendendo a Derivação do Indicador de Disponibilidade

Nesta seção do artigo, apresentarei os fundamentos dos cálculos de disponibilidade de uma rede.

O principal objetivo é permitir que o ISP estabeleça um nível de disponibilidade matematicamente quantificável. Isso significa que a rede terá um índice de disponibilidade mensurável, que será comunicado aos clientes nos acordos de SLA. Este índice é expresso através de um valor percentual, como demonstrado a seguir:

Quantificação da confiabilidade e disponibilidade de uma rede

Para calcular a disponibilidade, precisamos primeiro medir a confiabilidade de uma rede, pois a Confiabilidade é um conceito mensurável. Para este cálculo, utilizamos dois indicadores primários:

Mean Time Between Failures (MTBF)

É o tempo total de operação do dispositivo e/ou da rede dividido pela quantidade de falhas. Para simplificar, começamos analisando um dispositivo individual antes de considerar o ambiente completo.

Em outras palavras: "quando o componente falha?"

Mean Time to Repair (MTTR)

É o tempo total necessário para resolver uma falha, incluindo: detecção do incidente, diagnóstico do problema e reparo efetivo. O reparo pode envolver configuração, reinicialização do equipamento, substituição de módulos ou conserto de enlaces de comunicação.

Em outras palavras: "quanto tempo leva para consertá-lo?"

A confiabilidade de uma rede e, por consequência, sua disponibilidade, podem ser calculadas através de uma fórmula simples:

Cálculo da disponibilidade de uma rede

Confeccionando o seu Diagrama de Blocos de Confiabilidade

Do inglês Reliability Block Diagram (RBD), este diagrama é uma ferramenta essencial para iniciar os cálculos de confiabilidade e disponibilidade de uma rede. O RBD utiliza um método diagramático para demonstrar como a confiabilidade dos componentes contribui para o sucesso ou falha de um sistema complexo. No nosso caso, o equipamento da rede.

Os fabricantes de equipamentos de redes, especialmente os de primeira linha, são extremamente criteriosos na gestão de qualidade de manufatura de seus produtos. Embora muitos dos conceitos que abordarei estejam na esfera do fabricante e não do provedor, vale a pena entender um pouco desse processo. Vamos lá?

No desenvolvimento de um novo equipamento, e deixando de lado os processos iniciais, a confiabilidade dos componentes é rigorosamente avaliada.

São mais de 150 requisitos técnicos distribuídos em mais de 15 disciplinas de confiabilidade, incluindo Integridade de Sinais, Diagnósticos, Mecânica, Térmica, Elétrica, CAD, Engenharia de Hardware, Silício (ASIC, FPGA e afins), Ópticos, Manufatura e Engenharia de Componentes.

Todos esses requisitos passam por uma extensa esteira de Qualidade e Confiabilidade (PQE), onde o produto e seus componentes são testados em diversas condições: temperatura de operação e armazenamento, altitude, umidade condensada, vibração, choque, interferência EMI e RFI, entre outros. Só após esses testes o fabricante determina os valores de MTBF dos componentes.

É com esses valores de MTBF que você, profissional de redes de um ISP, poderá trabalhar. O primeiro passo é solicitar ao fabricante as figuras de confiabilidade (MTBF) do seu equipamento. O fabricante não fornecerá o MTBF de cada componente individual, já que isso seria desnecessário. Em vez disso, você receberá valores agrupados por conjuntos funcionais do equipamento. Por exemplo:

  • MTBF da fonte de alimentação elétrica
  • MTBF do módulo de ventilação
  • MTBF do módulo de supervisão e controle (ex: RSP, RP, RE, Supervisor, etc.)
  • MTBF do módulo de portas (line card)
  • Etc.

Com essas informações em mãos, você deve desenhar o RBD (mesmo que simplificado) do equipamento e calcular sua confiabilidade e disponibilidade. Vamos usar um exemplo simples para demonstrar um RBD com as figuras de escalabilidade fornecidas pelo fabricante:

OBS: durante este procedimento, é essencial validar tanto os componentes com redundância em série quanto em paralelo. Por exemplo: mesmo que um roteador possua duas fontes de alimentação instaladas (redundância em paralelo para a parte elétrica), a falha de um único módulo de supervisão e controle interromperia completamente seu funcionamento. Isso ocorre porque existe uma disposição em "série" entre os blocos funcionais "alimentação elétrica" e "supervisão e controle", onde um depende do outro para manter o equipamento operacional.

Calculando a disponibilidade de um dispositivo (Fonte: Cisco)

O exemplo acima mostra que o equipamento possui uma disponibilidade ligeiramente superior a 99,99% (conhecida como "4-Nines"), o que representa matematicamente cerca de 50 minutos de downtime por ano.

Após validar o índice de confiabilidade e disponibilidade de cada equipamento da sua rede, incluindo também os enlaces/links, seu próximo passo será determinar a confiabilidade e disponibilidade completa de toda a rede. Veja um exemplo de como isto pode ser feito:

Disponibilidade de um cenário de rede (Fonte: Cisco)
Disponibilidade de um cenário de rede com componentes em SÉRIE (Fonte: Juniper Networks)
Disponibilidade de um cenário de rede com componentes em PARALELO (Fonte: Juniper Networks)

Ao final desse processo, você terá uma compreensão clara dos níveis de disponibilidade de cada dispositivo, enlace e toda a infraestrutura de rede. Como resultado, poderá definir o Service Level Agreement (SLA) de sua rede, mesmo que inicialmente apenas em relação ao MTBF.

Uma Observação Importante quanto ao MTBF

Há um aspecto interessante sobre as figuras de confiabilidade (MTBF) fornecidas pelos fabricantes: elas são valores estáticos.

Os componentes são submetidos a testes rigorosos de estresse eletrônico e mecânico sob diversas condições (temperatura, altitude, pressão, umidade, vibração, choque/impacto, etc.). Como resultado, os níveis de confiabilidade dos componentes são validados matematicamente e disponibilizados ao usuário do equipamento.

Na maioria dos casos, esses valores não são publicamente disponíveis, sendo necessário solicitá-los diretamente ao fabricante. É importante notar que, por serem estáticos, não há como aprimorá-los.

Os únicos "ajustes" possíveis nestes casos são a seleção criteriosa da composição do equipamento quanto à sua redundância física e ações relacionadas.

Fatores que Afetam o MTBF de um Dispositivo e/ou da Rede

Chassi: é um elemento primariamente passivo, assim como seu backplane.

Módulo de Supervisão e Controle (ex: RP, RSP, RE, Supervisor): pode ser único ou redundante. Ao inserir dois módulos no chassi, você melhora substancialmente o MTBF deste bloco através da redundância em "paralelo".

Fontes de alimentação elétrica: um equipamento com fonte única depende totalmente da disponibilidade desta fonte. Alguns equipamentos aceitam duas ou mais fontes. Porém, equipamentos mais robustos têm requisitos elétricos mais exigentes e podem necessitar de um número mínimo de fontes instaladas para manter todos os módulos funcionando. Nesses casos, a redundância não seria 1 + 1, mas sim N + 1 ou N + N.

Módulo de ventilação: alguns fabricantes de equipamentos mais simples usam módulos com ventoinhas integradas que não podem ser substituídas sem desligar e desmontar o equipamento (afetando o MTTR). Outros modelos têm ventoinhas independentes controladas por uma única placa (ficando em "série"). Há ainda modelos com bandejas independentes com múltiplas ventoinhas, mas exigem um número mínimo delas funcionando com thresholds de RPM específicos, conforme demandado pelos sensores de temperatura.

Módulo de portas/interfaces físicas (line cards): considere um cenário com dois uplinks críticos conectados a portas independentes do mesmo módulo line card. Existe uma relação em "série" entre estes uplinks e o módulo - se ele falhar, ambos os uplinks ficam indisponíveis. De que adianta ter um chassi com duas controladoras, quatro fontes de alimentação e dois módulos de ventilação se os uplinks dependem de um único módulo de portas? O problema está no design da conectividade. Ao distribuir as conexões físicas redundantes em módulos diferentes, você aumenta o MTBF do bloco de conectividade entre o equipamento e os uplinks.

Espero que você tenha compreendido isso.

Compreendendo o Mean Time to Repair (MTTR)

Diferentemente do MTBF, cujos valores são praticamente estáticos (variando apenas no projeto da redundância), o MTTR possui natureza altamente variável e dinâmica. O MTTR indica o tempo necessário para reparar uma falha ou incidente e restabelecer o funcionamento dos serviços afetados.

A interpretação desses valores também difere: para o MTBF, quanto maior o valor, melhor, pois indica menor frequência de falhas. Já para o MTTR, quanto menor o valor, melhor, pois o objetivo é minimizar o tempo necessário para resolver o problema e restaurar o serviço.

Fatores que Afetam o MTTR de um Dispositivo e/ou da Rede

O MTTR é severamente afetado e em uma variedade de situações que fica até difícil sintetiza-lo aqui. Citarei algumas destas situações:

O MTTR é significativamente afetado por diversas situações, das quais destacaremos as principais:

Falha de componente físico (módulo, fonte...): se um módulo em seu datacenter falhar e afetar serviços na rede, qual seria o tempo necessário para restaurar o serviço?

  • Notificação e detecção do problema
    • Qual foi o intervalo entre o surgimento do problema e sua detecção efetiva?
    • Quanto tempo foi necessário para diagnosticar o problema, compreendê-lo e isolar a causa-raiz, permitindo determinar a ação corretiva adequada? O MTTR aqui é afetado pela qualidade dos seus processos e ferramentas de gerenciamento de incidentes, além do conhecimento e habilidades de seus funcionários e colaboradores.
  • Material sobressalente para reposição
    • Você possui peça de reposição em estoque local?
    • Precisa se deslocar para obter a peça de reposição e retornar ao local de instalação?
    • Você não possui peça de reposição disponível.
      • Possui contrato de assistência técnica estendida com o fabricante?
        • Caso afirmativo, qual é o SLA deste RMA (próximo dia útil, 4 horas, 2 horas)?
    • Na ausência de peças de reposição e sem acesso ao RMA por falta de contrato de assistência técnica estendida, quais são suas opções?
      • É possível comprar um módulo imediatamente, considerando o melhor prazo de entrega (que pode variar de horas a dias)?
      • Existe a possibilidade de empréstimo com algum parceiro ou fornecedor enquanto aguarda a compra do módulo? O MTTR é diretamente impactado pelos seus processos de logística, plano de contingenciamento e recuperação de desastres. Sem essas medidas preventivas, prepare-se para um downtime prolongado e prejudicial ao negócio.
  • Execução de manobras corretivas
    • A reposição do módulo exigirá esforços com configurações/reconfigurações?
      • Você por acaso possui cópias de segurança (backup) vigentes/recentes do equipamento referentes ao módulo que falhou e de seus serviços dependentes.
    • Você não possui backup das configurações ou o backup é relativamente antigo.
      • Caso tenha que reconfigurar, quanto tempo levaria para você refazer toda a configuração, testá-la e isentá-la de erros, e restaurar o serviço.
    • O MTTR aqui é afetado pela qualidade de seus processos operacionais, em especial as questões de antecipação de problemas, gerenciamento de riscos, gerenciamento de incidentes, gerenciamento de configurações, e skill de seus profissionais e colaboradores.
  • Acionamento da convergência da infraestrutura
    • O MTTR é afetado aqui conforme a abordagem tecnológica de seu projeto técnico sobre a rede. Ou seja, o padrão de seu projeto, a hierarquia da sua rede, os protocolos de resiliência empregados, e os recursos adicionais que promovem maior confiabilidade para o projeto da rede.

Como podemos perceber, o MTTR é bastante modificado em função de uma série de contextos e situações, dentre os quais elenquei apenas alguns! A questão "operacional" é um dos mais importantes, e focaremos nisto em outro artigo aqui no BPF, assim como conceitos de gerenciamento FCAPS, TMN e afins., além da parte de skills/habilidades/competências, processos e outros temas.

O Cálculo Efetivo da Disponibilidade de uma Rede

Agora que você compreendeu melhor o MTBF e o MTTR, bem como os modelos de redundância em série e em paralelo, vamos consolidar estes conceitos através de um modelo didático:

Disponibilidade Calculada

A disponibilidade calculada pode ser determinada observando-se os seguintes critérios:

  • Projeto da rede: classe dos equipamentos, componentes em configuração redundante, hierarquia da rede (como o modelo hierárquico + estruturado + modular e as "camadas de função"), entre outros.
  • MTBF e MTTR dos componentes: é importante destacar que existem diversos modelos e simulações, incluindo Markov’s Modeling, Reliability Block Diagram (RBD) e "sensitivity analysis - Telcordia SR-1171 Methods and Procedures for System Reliability Analysis", relacionados às especificações de requisitos de produtos e metas de confiabilidade estabelecidas pelo mercado e clientes.

O cálculo básico da disponibilidade pode ser representado da seguinte forma:

Fórmula do cálculo de disponibilidade em Série e em Paralelo
Disponibilidade Mensurada

A disponibilidade mensurada requer o emprego de elementos externos ou complementares para sua medição. Alguns exemplos:

  • Testes de conectividade com ferramentas padrão como o protocolo ICMP (ping, traceroute e similares).
  • Testes de conectividade com ferramentas específicas como Cisco Service Level Agreement (IP SLA), Cisco Service Assurance Agent (SAA) e ferramentas equivalentes de outros fabricantes.
  • Testes de disponibilidade com consultas a objetos gerenciados (OID) via SNMP.
  • Testes com sondas externas para medição de desempenho conforme RFCs específicos (exemplo: JDSU).
  • Análise e interpretação de registros de chamados técnicos e logs de indisponibilidade.
  • Métodos observáveis como o acompanhamento de RMA de componentes defeituosos.
Disponibilidade Planejada

Em especial com foco na redução do MTTR:

  • Realização de auditoria para análise qualitativa de riscos e gerenciamento de riscos, visando identificar e mensurar os riscos de indisponibilidade e seus impactos nos indicadores de performance da organização.
  • Desenvolvimento de plano de contingência e recuperação de desastres para mitigar riscos críticos do negócio, reduzindo o MTTR e aprimorando o SLA.
  • Implementação de processos operacionais robustos e seguros, alinhados aos modelos consagrados da indústria para gerenciamento de mudanças, configurações e incidentes.
  • Investimento em treinamento e capacitação da equipe para atuação eficiente em falhas, tanto em ações preventivas quanto corretivas.

Elevando o SLA da sua Rede para o Próximo Nível

O Service Level Agreement (SLA) é o principal indicador que você fornece ao mercado e aos seus clientes. Ele é determinado pela combinação da Disponibilidade Calculada, Mensurada e Planejada. Em outras palavras, o SLA é governado pela torre funcional de "Disponibilidade" do seu projeto técnico, que se baseia na Confiabilidade e na Resiliência. Para facilitar o tratamento das áreas de disponibilidade, é importante separar as áreas-foco da resiliência de uma rede:

Resiliência Nível Sistêmico

São considerados aqui aspectos como a confiabilidade do hardware e software, bem como ações para redução do MTTR em falhas de componentes físicos e lógicos (RP/RSP/RE, line cards, módulos de software etc.). A arquitetura de software tem papel fundamental na resiliência do equipamento. Veremos isso nos exemplos a seguir, utilizando um roteador Cisco ASR 1000 e os softwares Cisco IOS XE e Cisco IOS XR.

Exemplo de recursos de disponibilidade de um equipamento (Fonte: Cisco)
Exemplo de arquitetura de disponibilidade de software (Fonte: Cisco)
Exemplo de arquitetura de disponibilidade de software (Fonte: Cisco)

Observação: consulte o fabricante de sua escolha para conhecer as características de disponibilidade sistêmicas da arquitetura do equipamento pretendido.

Resiliência Nível Rede

São considerados aqui aspectos como as propriedades do projeto técnico, a hierarquia e as camadas de função da rede, além da adoção de mecanismos que forneçam uma convergência e recuperação de falhas mais rápida e ágil. Isso inclui tecnologias suplementares, protocolos de resiliência e mecanismos de proteção.

Exemplos de tecnologias para o aumento da disponibilidade na rede (Fonte: Cisco)
Exemplos de tecnologias para o aumento da disponibilidade de serviços L3VPN MPLS (Fonte: Cisco)
Exemplos de tecnologias de alta disponibilidade para os planos de controle e de serviços (Fonte: Cisco)
Exemplos de tecnologias para a rápida detecção de falhas de enlaces (Fonte: Cisco)

Resiliência Nível Operacional

São consideradas aqui todas as questões associadas à parte operacional do provedor, incluindo processos, métodos, boas práticas, capacitação de pessoal e ferramentas necessárias para ações de diagnóstico, correção e reparo. Futuros artigos no BPF abordarão este tema em detalhes.

Exemplos de Procedimentos, Tecnologias, Protocolos e Serviços de Confiabilidade da Infraestrutura

Consulte a ilustração a seguir para compreender os principais elementos de confiabilidade em uma infraestrutura de forma consolidada. A lista não é exaustiva; diversos outros elementos importantes não puderam ser incluídos.

Bpf-ha-13.png

Dicas para Elevar a sua Disponibilidade e SLA

Na verdade, não há nada de secreto. Siga estas dicas comprovadas para elevar o padrão de disponibilidade e SLA ao próximo nível:

  1. Documente toda a sua rede. Produza artefatos detalhando as camadas L1, L2 e L3, assim como cada elemento ativo. Utilize planilhas, bases de conhecimento internas e diagramas. A propósito, confira o artigo Boas Práticas para a Documentação de Infraestruturas de Redes e Serviços do Provedor em nossa Wiki!
  2. Produza o Diagrama de Blocos de Confiabilidade (RBD). Comece com cada dispositivo individual e depois expanda para toda a rede. Determine com precisão o MTBF, MTTR e o MTD (Mean Down Time).
  3. Localize os Single Points of Failure (SPOF) de sua rede. Identifique e marque cada ponto único de falha para posterior resolução e mitigação.
  4. Elabore e documente o Mapa de Indisponibilidades. Detalhe como cada tipo de incidente pode ocorrer, áreas de serviços impactadas, usuários afetados e duração prevista. Classifique esses dados por categoria, escopo, perímetro, volume e aspectos temporais.
  5. Realize a Análise de Riscos Qualitativa e Quantitativa. Isto auxiliará na aprovação do projeto e seus investimentos necessários. Conheça detalhadamente seus riscos, possíveis falhas e impactos no negócio (multas, reparações, reputação e perda de clientes). Quantifique financeiramente estes danos. Compare "quanto eu vou perder se a minha rede parar" versus "quando vou gastar para a minha rede não parar e eu não ter estas perdas". Vale mais investir ou correr o risco?
  6. Elabore um Projeto Executivo. Este documento objetivo documentará as iniciativas para resolver os riscos identificados. Foque na viabilidade técnica para garantir a aprovação do projeto.
  7. Elabore um Projeto Técnico Detalhado. Quando necessário, o PTD abordará especificações técnicas essenciais para integrações complexas.
  8. Elabore um Plano Diretor de Investimentos. Busque apoio de fabricantes e parceiros estratégicos competentes. Evite consultores superficiais e vendedores sem expertise técnica em implantação e suporte. Procure viabilizar investimentos com apoio do fabricante, canais de distribuição, parceiros estratégicos (VAR/revenda) e instituições financeiras.
  9. Contrate uma empresa de serviços qualificada. Reconheça suas limitações e confie em especialistas. Aproveite para: a) acompanhar de perto e aprender; b) concentrar-se nos resultados do negócio, não em distrações.
  10. Mantenha a documentação atualizada. Garanta que todos os artefatos da rede permaneçam consistentes e vigentes.
  11. Revalide o plano de contingência e recuperação de desastres.

Assista ao Vídeo "BPF: compreendendo os fundamentos de Disponibilidade da rede de um ISP"

Este vídeo com 41 minutos de duração explora os temas discutidos aqui através de uma linguagem bem fácil e objetiva. Assista aqui: https://youtu.be/egrNHwwoaOY

BPF: compreendendo os fundamentos de Disponibilidade da rede de um ISP

Inovações recentes

Para elevar estas ideias ao próximo nível:

1. Redes Autocorretivas (Self-Healing Networks)

As redes autocorretivas representam um avanço significativo na automação. Elas permitem que a infraestrutura detecte, diagnostique e resolva problemas autonomamente, sem intervenção humana. Essa abordagem reduz o tempo de inatividade e melhora a resiliência operacional.

2. Operações de Rede Baseadas em IA (AIOps)

A integração de Inteligência Artificial nas operações de rede permite análises preditivas e automação de tarefas complexas.

3. Arquitetura de Automação Sem Limites (Boundless Automation)

A Emerson desenvolveu a arquitetura Boundless Automation™, integrando dados de dispositivos de campo, edge computing e nuvem em uma infraestrutura adaptável. Essa abordagem permite otimização em tempo real e resposta rápida a falhas, aumentando a disponibilidade da rede.

4. Plataformas de Automação Agnósticas a Fornecedores

Com redes cada vez mais complexas, cresce a adoção de plataformas de automação independentes de fornecedor único. Essas soluções integram diversos dispositivos e sistemas, simplificando a gestão e aumentando a flexibilidade operacional.

5. Redes Zero-Touch com AutoML

As redes Zero-Touch automatizam completamente a gestão de rede, usando aprendizado de máquina automatizado para adaptação dinâmica e otimização de desempenho. Essa abordagem é crucial para redes 5G e tecnologias futuras.

6. Redundância Transparente de Alta Disponibilidade (HSR)

O protocolo High-availability Seamless Redundancy oferece failover sem interrupções, garantindo continuidade mesmo durante falhas de componentes. É especialmente valioso em ambientes industriais que exigem alta disponibilidade.

Considerações Finais

Você sabia que a maior parte dos incidentes que provocam indisponibilidades em uma rede são decorrentes de falha humana? Ausência de processos seguros para gestão de mudanças, por exemplo? O artigo focou em comentar primariamente a parte da infraestrutura e menos na parte de "pessoal", mas, não se preocupe, o BPF em breve publicará artigos sobre o tema de processos e boas práticas operacionais para ambientes de provedores.

Espero que este artigo tenha sido útil. Até o próximo!

Autor: Leonardo Furtado