Ce flux de travail ComfyUI s'appuie sur une approche modulaire, task-oriented architecture to generate highly cohesive and detailed prompts for CLIP-L and t5xxl models. Le flux de travail utilise trois modèles de langage naturel de grande taille spécialisés () modules, orchestrés de manière séquentielle et interdépendante, pour rationaliser et optimiser la création de requêtes.Aperçu du flux de travailModule d'analyse des entrées:The workflow begins with a general-purPose responsible for parsing the input description.Il extrait le sens sémantique, identifie les éléments visuels et contextuels clés, et sépare l'intention de haut niveau en deux voies distinctes: CLIP-L Prompt and t5xxl Prompt generation.Générateur de requête CLIP-L:A second module processes the structured input from the analysis phase to generate a concise, requête CLIP-L basée sur les mots-clés.Ce module privilégie la concision et la pertinence, assurant une compatibilité optimale avec le modèle CLIP-L.La sortie comprend des composants clés tels que les sujets principaux, Style artistique, Paramètre, Éclairage, et une palette de couleurs dans un format séparé par des virgules (e.g., portrait, photorealistique, coucher de soleil, tons chauds, ombres détaillées).t5xxl Prompt Generator:Parallèlement au processus CLIP-L, a third module produces a richly detailed, natural language description tailored for t5xxl.Ce module se concentre sur la génération de jusqu'à 512 jetons de contenu descriptif, couvrant des aspects tels que:Détails du sujet (apparence, Pose, expression, vêtements).Environmental Paramètres (Moment de la journée, spécificités architecturales, accessoires).Dynamique de l'éclairage et des couleurs (intensité, contraste, harmonie).Composition de la scène (premier plan, Terrain d'entente, éléments d'arrière-plan).Ambiance et humeur (nuances émotives et symboliques).Validation et synchronisation:Both outputs are validated for semantic and stylistic alignment to ensure consistency between the CLIP-L and t5xxl prompts.Cette étape garantit que les requêtes générées se complètent mutuellement et produisent un résultat cohérent dans les tâches de génération d'images en aval.Caractéristiques principalesIngénierie hiérarchique des requêtes: Utilise une approche multi-étapes, conception spécifique au rôle pour la modularité et la précision.Flux de travail orienté tâche: Sépare l'extraction des mots-clés (CLIP-L) à partir d'une description détaillée de la scène (t5xxl) pour optimiser les forces spécifiques du modèle.Alignement inter-modèles: Assure que les deux requêtes sont synchronisées sémantiquement et thématiquement pour une fidélité accrue de la génération d'images.Évolutivité: L'architecture est adaptable pour des tâches supplémentaires, comme l'affinage des sorties pour des styles artistiques ou des domaines spécifiques.