Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1

Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1

Aujourd'hui, je vais vous raconter comment est née et mise en œuvre l'idée de créer un nouveau réseau interne pour notre entreprise. La position de la direction est que vous devez réaliser le même projet à part entière pour vous-même et pour le client. Si nous le faisons bien nous-mêmes, nous pouvons inviter le client et lui montrer à quel point ce que nous lui proposons fonctionne et fonctionne. Par conséquent, nous avons abordé le développement du concept d'un nouveau réseau pour le bureau de Moscou de manière très approfondie, en utilisant le cycle de production complet : analyse des besoins du département → sélection d'une solution technique → conception → mise en œuvre → tests. Alors commençons.

Sélection d'une solution technique : Mutant Sanctuary

La procédure pour travailler sur un système automatisé complexe est actuellement mieux décrite dans GOST 34.601-90 « Systèmes automatisés ». Étapes de la Création », nous avons donc travaillé selon cela. Et déjà aux étapes de formation des exigences et de développement du concept, nous avons rencontré les premières difficultés. Des organisations de profils variés - banques, compagnies d'assurance, développeurs de logiciels, etc. - pour leurs missions et normes, elles ont besoin de certains types de réseaux dont les spécificités sont claires et standardisées. Cependant, cela ne fonctionnera pas avec nous.

Pourquoi?

Jet Infosystems est une grande société informatique diversifiée. Dans le même temps, notre service de support interne est petit (mais fier), il assure la fonctionnalité des services et systèmes de base. L'entreprise comprend de nombreuses divisions qui remplissent différentes fonctions : il s'agit de plusieurs équipes d'externalisation puissantes, de développeurs internes de systèmes d'entreprise et de sécurité de l'information, et d'architectes de systèmes informatiques - en général, quels qu'ils soient. En conséquence, leurs tâches, systèmes et politiques de sécurité sont également différents. Ce qui, comme prévu, a créé des difficultés dans le processus d’analyse des besoins et de normalisation.

Voici par exemple le service de développement : ses employés écrivent et testent du code pour un grand nombre de clients. Il est souvent nécessaire d'organiser rapidement des environnements de test et, franchement, il n'est pas toujours possible de formuler des exigences pour chaque projet, de demander des ressources et de créer un environnement de test distinct conformément à toutes les réglementations internes. Cela donne lieu à des situations curieuses : un jour, votre humble serviteur a regardé dans la salle des développeurs et a trouvé sous la table un cluster Hadoop de 20 postes de travail fonctionnant correctement, qui était inexplicablement connecté à un réseau commun. Je ne pense pas qu’il soit utile de préciser que le service informatique de l’entreprise n’était pas au courant de son existence. Cette circonstance, comme bien d'autres, est à l'origine du fait qu'au cours du développement du projet, le terme « réserve de mutants » est né, décrivant l'état de l'infrastructure de bureau qui souffre depuis longtemps.

Ou voici un autre exemple. Périodiquement, un banc d'essais est mis en place au sein d'un département. Ce fut le cas de Jira et Confluence, qui ont été utilisés de manière limitée par le Software Development Center dans certains projets. Au bout d’un certain temps, d’autres départements ont pris connaissance de ces ressources utiles, les ont évaluées, et fin 2018, Jira et Confluence sont passés du statut de « jouet des programmeurs locaux » à celui de « ressources d’entreprise ». Il faut désormais attribuer un propriétaire à ces systèmes, définir des SLA, des politiques de sécurité des accès/informations, des politiques de sauvegarde, de surveillance, des règles de routage des requêtes pour résoudre les problèmes - en général, tous les attributs d'un système d'information à part entière doivent être présents. .
Chacune de nos divisions est également un incubateur qui cultive ses propres produits. Certains d'entre eux meurent au stade du développement, d'autres que nous utilisons lorsque nous travaillons sur des projets, tandis que d'autres prennent racine et deviennent des solutions répliquées que nous commençons à utiliser nous-mêmes et à vendre aux clients. Pour chacun de ces systèmes, il est souhaitable de disposer de son propre environnement réseau, où il se développera sans interférer avec les autres systèmes et pourra, à un moment donné, être intégré à l'infrastructure de l'entreprise.

En plus du développement, nous avons un très grand Centre de service avec plus de 500 collaborateurs, constitués en équipes pour chaque client. Ils participent à la maintenance des réseaux et autres systèmes, à la surveillance à distance, à la résolution des réclamations, etc. Autrement dit, l'infrastructure du SC est en fait l'infrastructure du client avec lequel ils travaillent actuellement. La particularité de travailler avec cette partie du réseau est que leurs postes de travail pour notre entreprise sont en partie externes et en partie internes. Par conséquent, pour le SC, nous avons mis en œuvre l'approche suivante : l'entreprise fournit au service correspondant un réseau et d'autres ressources, en considérant les postes de travail de ces services comme des connexions externes (par analogie avec les succursales et les utilisateurs distants).

Conception d'autoroutes : nous sommes l'opérateur (surprise)

Après avoir évalué tous les pièges, nous avons réalisé que nous avions le réseau d’un opérateur de télécommunications dans un seul bureau et nous avons commencé à agir en conséquence.

Nous avons créé un réseau central à l'aide duquel tout consommateur interne, et à l'avenir également externe, bénéficie du service requis : VPN L2, VPN L3 ou routage L3 régulier. Certains départements ont besoin d'un accès Internet sécurisé, tandis que d'autres ont besoin d'un accès propre sans pare-feu, tout en protégeant nos ressources d'entreprise et notre réseau central de leur trafic.

Nous avons « conclu un SLA » de manière informelle avec chaque division. Conformément à celui-ci, tous les incidents qui surviennent doivent être éliminés dans un certain délai convenu à l'avance. Les exigences de l'entreprise concernant son réseau se sont révélées strictes. Le délai maximum de réponse à un incident en cas de panne téléphonique et email était de 5 minutes. Le temps nécessaire pour restaurer la fonctionnalité du réseau lors de pannes typiques ne dépasse pas une minute.

Puisque nous disposons d’un réseau de niveau opérateur, vous ne pouvez vous y connecter que dans le strict respect des règles. Les unités de service définissent les politiques et fournissent des services. Ils n'ont même pas besoin d'informations sur les connexions de serveurs, de machines virtuelles et de postes de travail spécifiques. Mais en même temps, des mécanismes de protection sont nécessaires, car aucune connexion ne doit désactiver le réseau. Si une boucle est créée accidentellement, les autres utilisateurs ne devraient pas le remarquer, c'est-à-dire qu'une réponse adéquate du réseau est nécessaire. Tout opérateur de télécommunications résout constamment des problèmes similaires apparemment complexes au sein de son réseau central. Il fournit des services à de nombreux clients ayant des besoins et un trafic différents. Dans le même temps, les différents abonnés ne devraient pas subir d'inconvénients liés au trafic des autres.
Chez nous, nous avons résolu ce problème de la manière suivante : nous avons construit un réseau backbone L3 avec une redondance complète, en utilisant le protocole IS-IS. Un réseau superposé a été construit au-dessus du noyau basé sur la technologie EVPN/VXLAN, en utilisant un protocole de routage MP-BGP. Pour accélérer la convergence des protocoles de routage, la technologie BFD a été utilisée.

Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1
Structure du réseau

Lors des tests, ce schéma s'est révélé excellent - lorsqu'un canal ou un commutateur est déconnecté, le temps de convergence ne dépasse pas 0.1-0.2 s, un minimum de paquets est perdu (souvent aucun), les sessions TCP ne sont pas rompues, les conversations téléphoniques ne sont pas interrompus.

Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1
Couche de sous-couche - Routage

Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1
Couche de superposition - Routage

Des commutateurs Huawei CE6870 avec licences VXLAN ont été utilisés comme commutateurs de distribution. Cet appareil a un rapport qualité/prix optimal, vous permettant de connecter les abonnés à une vitesse de 10 Gbit/s et de vous connecter au backbone à des vitesses de 40 à 100 Gbit/s, selon les émetteurs-récepteurs utilisés.

Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1
Commutateurs Huawei CE6870

Les commutateurs Huawei CE8850 ont été utilisés comme commutateurs principaux. L’objectif est de transmettre le trafic de manière rapide et fiable. Aucun appareil n'y est connecté à l'exception des commutateurs de distribution, ils ne connaissent rien au VXLAN, c'est pourquoi un modèle avec 32 ports 40/100 Gbps a été choisi, avec une licence de base qui assure le routage L3 et le support de l'IS-IS et du MP-BGP. protocoles.

Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1
Celui du bas est le commutateur principal Huawei CE8850

Au stade de la conception, une discussion a éclaté au sein de l'équipe sur les technologies qui pourraient être utilisées pour mettre en œuvre une connexion tolérante aux pannes aux nœuds du réseau central. Notre bureau de Moscou est situé dans trois bâtiments, nous disposons de 7 salles de distribution, dans chacune desquelles deux commutateurs de distribution Huawei CE6870 ont été installés (seuls des commutateurs d'accès ont été installés dans plusieurs salles de distribution). Lors du développement du concept de réseau, deux options de redondance ont été envisagées :

  • Consolidation des commutateurs de distribution dans une pile tolérante aux pannes dans chaque salle de brassage. Avantages : simplicité et facilité d'installation. Inconvénients : il existe une probabilité plus élevée de défaillance de l'ensemble de la pile lorsque des erreurs se produisent dans le firmware des périphériques réseau (« fuites de mémoire », etc.).
  • Appliquez les technologies de passerelle M-LAG et Anycast pour connecter les appareils aux commutateurs de distribution.

Finalement, nous avons opté pour la deuxième option. Il est un peu plus difficile à configurer, mais a montré dans la pratique ses performances et sa grande fiabilité.
Considérons d'abord la connexion des appareils finaux aux commutateurs de distribution :
Comment nous avons conçu et mis en œuvre un nouveau réseau sur Huawei dans le bureau de Moscou, partie 1
Croix

Un commutateur d'accès, un serveur ou tout autre périphérique nécessitant une connexion tolérante aux pannes est inclus dans deux commutateurs de distribution. La technologie M-LAG offre une redondance au niveau de la liaison de données. On suppose que deux commutateurs de distribution apparaissent à l'équipement connecté comme un seul appareil. La redondance et l'équilibrage de charge sont effectués à l'aide du protocole LACP.

La technologie de passerelle Anycast offre une redondance au niveau du réseau. Un assez grand nombre de VRF sont configurés sur chacun des commutateurs de distribution (chaque VRF est destiné à ses propres objectifs - séparément pour les utilisateurs « réguliers », séparément pour la téléphonie, séparément pour divers environnements de test et de développement, etc.), et dans chaque VRF a plusieurs VLAN configurés. Dans notre réseau, les commutateurs de distribution sont les passerelles par défaut pour tous les appareils qui y sont connectés. Les adresses IP correspondant aux interfaces VLAN sont les mêmes pour les deux commutateurs de distribution. Le trafic est acheminé via le commutateur le plus proche.

Voyons maintenant comment connecter les commutateurs de distribution au noyau :
La tolérance aux pannes est assurée au niveau du réseau à l'aide du protocole IS-IS. Veuillez noter qu'une ligne de communication L3 séparée est prévue entre les commutateurs, à une vitesse de 100G. Physiquement, cette ligne de communication est un câble Direct Access ; on le voit à droite sur la photo des commutateurs Huawei CE6870.

Une alternative serait d’organiser une topologie « honnête » à double étoile entièrement connectée, mais, comme mentionné ci-dessus, nous disposons de 7 salles interconnectées dans trois bâtiments. Ainsi, si nous avions choisi la topologie « double étoile », nous aurions besoin d’exactement deux fois plus d’émetteurs-récepteurs 40G « longue portée ». Les économies ici sont très importantes.

Quelques mots doivent être dits sur la manière dont les technologies de passerelle VXLAN et Anycast fonctionnent ensemble. VXLAN, sans entrer dans les détails, est un tunnel permettant de transporter des trames Ethernet à l'intérieur de paquets UDP. Les interfaces de bouclage des commutateurs de distribution sont utilisées comme adresse IP de destination du tunnel VXLAN. Chaque crossover possède deux commutateurs avec les mêmes adresses d'interface de bouclage, de sorte qu'un paquet peut arriver sur n'importe lequel d'entre eux et qu'une trame Ethernet peut en être extraite.

Si le commutateur connaît l'adresse MAC de destination de la trame récupérée, la trame sera correctement livrée à sa destination. Pour garantir que les deux commutateurs de distribution installés dans le même répartiteur disposent d'informations à jour sur toutes les adresses MAC « arrivant » des commutateurs d'accès, le mécanisme M-LAG est responsable de la synchronisation des tables d'adresses MAC (ainsi que des adresses ARP tableaux) sur les deux paires de commutateurs M-LAG.

L'équilibrage du trafic est obtenu grâce à la présence dans le réseau sous-jacent de plusieurs routes vers les interfaces de bouclage des commutateurs de distribution.

Au lieu d'une conclusion

Comme mentionné ci-dessus, lors des tests et de l'exploitation, le réseau a montré une grande fiabilité (le temps de récupération en cas de pannes typiques ne dépasse pas des centaines de millisecondes) et de bonnes performances - chaque interconnexion est connectée au cœur par deux canaux de 40 Gbit/s. Les commutateurs d'accès de notre réseau sont empilés et connectés aux commutateurs de distribution via LACP/M-LAG avec deux canaux 10 Gbit/s. Une pile contient généralement 5 commutateurs avec 48 ports chacun, et jusqu'à 10 piles d'accès sont connectées à la distribution dans chaque connexion croisée. Ainsi, le backbone fournit environ 30 Mbit/s par utilisateur même à la charge théorique maximale, ce qui au moment de la rédaction est suffisant pour toutes nos applications pratiques.

Le réseau vous permet d'organiser de manière transparente le couplage de tous les appareils connectés arbitrairement via L2 et L3, offrant une isolation complète du trafic (ce que le service de sécurité de l'information aime) et des domaines de pannes (ce que l'équipe des opérations aime).

Dans la partie suivante, nous vous expliquerons comment nous avons migré vers le nouveau réseau. Restez à l'écoute!

Maxime Klochkov
Consultant senior du groupe audit réseau et projets complexes
Centre de solutions réseau
"Systèmes d'information Jet"


Source: habr.com

Ajouter un commentaire