mod_proxy_html - Serveur Apache HTTP Version 2.4

Apache Server 2.4

<-

Module Apache mod_proxy_html

Description:Réécrit les liens HTML afin de s'assurer qu'ils soient bien adressables depuis les réseaux des clients dans un contexte de mandataire.
Statut:Base
Identificateur de Module:proxy_html_module
Fichier Source:mod_proxy_html.c
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures

Sommaire

Ce module fournit un filtre en sortie permettant de réécrire les liens HTML dans un contexte de mandataire, afin de s'assurer que ces liens fonctionnent pour les utilisateurs en dehors du mandataire. Il accomplit la même tâche que la directive ProxyPassReverse d'Apache accomplit pour les en-têtes HTTP, et fait partie des composants essentiels d'un mandataire inverse.

Par exemple, si une entreprise possède un serveur d'applications nommé appserver.example.com qui n'est visible que depuis son réseau interne, et un serveur web public www.example.com, il peut être souhaitable de fournir une passerelle vers le serveur d'application à l'adresse http://www.example.com/appserver/. Lorsque le serveur d'applications présente un lien vers lui-même, ce lien doit être réécrit pour fonctionner à travers la passerelle. A cet effet, mod_proxy_html permet de réécrire <a href="http://appserver.example.com/foo/bar.html">foobar</a> en <a href="http://www.example.com/appserver/foo/bar.html">foobar</a>, ce qui permet de rendre le serveur d'applications accessible depuis l'extérieur.

mod_proxy_html a été développé à l'origine à WebÞing, dont la documentation détaillée pourra s'avérer utile aux utilisateurs.

top

Directive ProxyHTMLBufSize

Description:Définit l'incrément de la taille du tampon, ainsi que sa taille initiale, pour la mise en tampon des scripts en ligne et des feuilles de style.
Syntaxe:ProxyHTMLBufSize nb-octets
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Pour pouvoir interpréter du contenu non HTML (feuilles de style et scripts) embarqué dans des documents HTML, mod_proxy_html doit le lire et le mémoriser en entier dans un tampon. Ce tampon devra être étendu autant que nécessaire afin de pouvoir accueillir le plus grand script ou la plus grande feuille de style de la page, selon un incrément de nb-octets que cette directive permet de définir.

La valeur par défaut est 8192 et sera suffisante pour la plupart des pages. Cependant, si vous savez que vous allez mandater des pages contenant des feuilles de style et/ou scripts plus grands que 8k (cette taille s'entend pour chaque script ou feuilles de style, non pour leur ensemble), il sera plus efficace de définir une taille de tampon initiale plus grande afin d'éviter d'avoir à le redimensionner dynamiquement au cours du traitement d'une requête.

top

Directive ProxyHTMLCharsetOut

Description:Spécifie un jeu de caractères pour la sortie de mod_proxy_html.
Syntaxe:ProxyHTMLCharsetOut jeu-de-caractères | *
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Cette directive permet de spécifier un jeu de caractères pour la sortie de mod_proxy_html. Elle ne devrait jamais être utilisée, car tout changement par rapport à la valeur par défaut UTF-8 (Unicode - utilisé en interne par libxml2) induit une charge supplémentaire de traitement. La définition spéciale ProxyHTMLCharsetOut * permet de générer une sortie qui utilisera le même encodage que l'entrée.

Notez que tout ceci ne fonctionne que si le module mod_xml2enc est chargé.

top

Directive ProxyHTMLDocType

Description:Définit une déclaration de type de document HTML ou XHTML.
Syntaxe:ProxyHTMLDocType HTML|XHTML [Legacy]
OU
ProxyHTMLDocType fpi [SGML|XML]
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Avec la première syntaxe, les documents seront déclarés de type HTML 4.01 ou XHTML 1.0 selon l'option spécifiée. Cette option détermine aussi si la syntaxe utilisée en sortie est HTML ou XHTML. Notez que le format des documents en provenance du serveur d'arrière-plan n'est pas important, car l'interpréteur le détectera automatiquement. Si le second argument optionnel est défini à "Legacy", les documents seront déclarés de type "Transitional" ; cette option peut être nécessaire si vous mandatez du contenu datant d'avant 1998, ou si vous travaillez avec des outils de création/publication déficients.

Avec la deuxième syntaxe, cette directive vous permet d'insérer votre propre FPI (Formal Public Identifier). Le second argument optionnel détermine si la syntaxe utilisée sera SGML/HTML ou XML/XHTML.

Par défaut, aucun FPI n'est inséré, étant donné qu'il vaut mieux pas de FPI du tout qu'un FPI bogué. Si par contre votre serveur d'arrière-plan génère du contenu HTML ou XHTML correct, vous pouvez définir cette directive en conséquence.

Avec la première syntaxe, mod_proxy_html va aussi mettre le code HTML en conformité avec le standard spécifié. Il ne pourra pas corriger toutes les erreurs, mais il va supprimer les éléments et attributs non conformes. Il peut aussi journaliser les autres erreurs si la directive LogLevel est définie à Debug.

top

Directive ProxyHTMLEnable

Description:Permet d'activer/désactiver le filtre proxy_html.
Syntaxe:ProxyHTMLEnable On|Off
Défaut:ProxyHTMLEnable Off
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Cette directive est un simple commutateur permettant d'activer/désactiver le filtre proxy_html. Si mod_xml2enc est chargé, elle va aussi activer automatiquement le support de l'internationalisation.

Notez que le filtre proxy_html s'agira que si les données sont de type HTML (Content-Type text/html ou application/xhtml+xml), et si elles passent par un mandataire. Vous pouvez passer outre ces contraintes (à vos risques et périls) en définissant la variable d'environnement PROXY_HTML_FORCE.

top

Directive ProxyHTMLEvents

Description:Spécifie les attributs à traiter comme des évènements de type scripting.
Syntaxe:ProxyHTMLEvents attribut [attribut ...]
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Cette directive permet de spécifier un ou plusieurs attributs à traiter comme des évènements de type scripting et de leur appliquer les règles ProxyHTMLURLMap lorsqu'elles ont été définies. Vous pouvez spécifier un nombre quelconque d'attributs dans une ou plusieurs directives ProxyHTMLEvents.

Normalement, cette directive est définie globalement. Si vous définissez ProxyHTMLEvents à plusieurs niveaux, certains niveaux l'emportant sur d'autres, vous devrez spécifier un jeu complet d'évènements pour chaque niveau.

Le fichier proxy-html.conf fournit une configuration par défaut et définit les évènements selon les standards HTML 4 et XHTML 1.

top

Directive ProxyHTMLExtended

Description:Détermine si l'on doit corriger les liens dans les scripts en ligne, les feuilles de style et les évènements de type scripting.
Syntaxe:ProxyHTMLExtended On|Off
Défaut:ProxyHTMLExtended Off
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Si cette directive est définie à Off, les liens HTML sont réécrits en fonction des directives ProxyHTMLURLMap, mais les liens qui apparaissent dans le code Javascript et les feuilles de style restent inchangés.

Si elle est définie à On, tous les évènements de type scripting (définis par la directive ProxyHTMLEvents) et les scripts inclus ou les feuilles de style sont aussi traités par les règles ProxyHTMLURLMap, en fonction des drapeaux définis pour chacune d'entre elles. Ne définissez cette directive à On qu'en cas de nécessité absolue, car la charge supplémentaire induite impacte les performances.

Vous devez aussi prêter attention aux modèles de comparaison, car l'interpréteur n'a aucune notion de la forme que pourrait prendre une URL dans un script embarqué ou une feuille de style. En particulier, la comparaison étendus du caractère / a de fortes chances d'induire des correspondances erronées.

top

Directive ProxyHTMLFixups

Description:Corrige les erreurs HTML simples.
Syntaxe:ProxyHTMLFixups [lowercase] [dospath] [reset]
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Cette directive accepte un à trois arguments parmi les suivants :

  • lowercaseLes Urls sont réécrites en minuscules
  • dospathLes slashes inversés dans les URLs sont remplacés par des slashes directs.
  • resetAnnule toute option définie à un niveau supérieur dans la configuration

Cette directive doit être utilisée avec prudence. Elle peut corriger certaines erreurs de création, mais risque aussi de modifier par erreur des liens corrects. Ne l'utilisez que si vous êtes sûr que le serveur d'arrière-plan est déficient.

top

Directive ProxyHTMLInterp

Description:Active la réinterprétation des règles ProxyHTMLURLMap pour chaque requête.
Syntaxe:ProxyHTMLInterp On|Off
Défaut:ProxyHTMLInterp Off
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Cette directive permet d'activer le réinterprétation pour chaque requête des modèles source et cible de la directive ProxyHTMLURLMap.

Si la réinterprétation n'est pas activée, toutes les règles sont précompilées au démarrage du serveur. Si elle est activée, les règles doivent être recompilées pour chaque requête, ce qui induit une charge de traitement supplémentaire. Elle ne doit donc être activée que si cela s'avère nécessaire.

top

Directive ProxyHTMLLinks

Description:Spécifie les éléments HTML dont les attributs d'URL doivent être réécrits.
Syntaxe:ProxyHTMLLinks élément attribut [attribut2 ...]
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Cette directive permet de spécifier les éléments dont les attributs d'URL doivent être réécrits en utilisant les règles standards ProxyHTMLURLMap. Vous devez définir une directive ProxyHTMLLinks pour chaque élément, mais chacune d'entre elles peut spécifier un nombre quelconque d'attributs

Normalement, cette directive est définie globalement. Si vous définissez ProxyHTMLLinks à plusieurs niveaux, certains niveaux l'emportant sur d'autres, vous devrez spécifier un jeu complet de liens pour chaque niveau.

Le fichier proxy-html.conf fournit une configuration par défaut et définit les liens HTML selon les standards HTML 4 et XHTML 1.

Exemples issus de proxy-html.conf

ProxyHTMLLinks  a          href
ProxyHTMLLinks  area       href
ProxyHTMLLinks  link       href
ProxyHTMLLinks  img        src longdesc usemap
ProxyHTMLLinks  object     classid codebase data usemap
ProxyHTMLLinks  q          cite
ProxyHTMLLinks  blockquote cite
ProxyHTMLLinks  ins        cite
ProxyHTMLLinks  del        cite
ProxyHTMLLinks  form       action
ProxyHTMLLinks  input      src usemap
ProxyHTMLLinks  head       profile
ProxyHTMLLinks  base       href
ProxyHTMLLinks  script     src for
top

Directive ProxyHTMLMeta

Description:Active ou désactive une préinterprétation supplémentaire des métadonnées dans les sections HTML <head>.
Syntaxe:ProxyHTMLMeta On|Off
Défaut:ProxyHTMLMeta Off
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible à partir de la version 2.4 du serveur HTTP Apache ; proposé en tant que module tiers dans les versions 2.x précédentes.

Cette directive permet d'activer ou désactiver une préinterprétation supplémentaire des métadonnées dans les sections HTML <head>. Si cette préinterprétation n'est pas requise, définissez ProxyHTMLMeta à Off et les performances seront légèrement améliorées. Cependant, elle s'avère parfois nécessaire pour assurer un fonctionnement correct de l'internationalisation.

La directive ProxyHTMLMeta a deux effets. Le premier et le plus important est la détection des codages de caractères déclarés sous la forme

<meta http-equiv="Content-Type" content="text/html;charset=foo">

ou, dans le cas d'un document XHTML, sous la forme d'une déclaration XML. Elle n'est pas nécessaire si le jeu de caractères est déclaré explicitement dans un en-tête HTTP (ce qui est préférable) en provenance du serveur d'arrière-plan, ou si le document est en utf-8 (unicode) ou un de ses sous-ensembles comme ASCII. Vous pourrez aussi vous en passer lorsque le document utilise une valeur par défaut déclarée via la directive xml2EncDefault, avec le risque de propager une déclaration incorrecte. Une directive ProxyHTMLCharsetOut permettra d'annuler ce risque, mais pourra induire une surcharge de traitement supérieure à celle de ProxyHTMLMeta.

Le deuxième effet est l'interprétation de toutes les déclarations <meta http-equiv=...> et leur conversion en en-têtes HTTP, afin de conserver le but original de cette forme de métaélément HTML.

Avertissement

Compte tenu du fait que la directive ProxyHTMLMeta promeut tous les éléments http-equiv au rang d'en-têtes HTTP, il est conseillé de ne l'activer que si vous faites autant confiance au contenu HTML qu'à votre serveur mandataire. Avec cette directive en effet, si ce contenu est géré par des gens malintentionnés, ces derniers seront en mesure d'injecter des en-têtes HTTP arbitraires et peut-être malveillants dans les réponses de votre serveur.
top

Directive ProxyHTMLStripComments

Description:Détermine si les commentaires HTML doivent être supprimés.
Syntaxe:ProxyHTMLStripComments On|Off
Défaut:ProxyHTMLStripComments Off
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Si cette directive est définie à On, mod_proxy_html supprimera les commentaires HTML. Notez que cela supprimera aussi tout script ou style inclus dans les commentaires (une monstruosité introduite en 1995/1996 avec Netscape 2 pour les navigateurs plus anciens, et encore utilisée de nos jours). Cette directive peut aussi interférer avec des processeurs basés sur les commentaires comme SSI ou ESI : assurez-vous d'exécuter ces derniers avant mod_proxy_html dans la chaîne de filtrage si vous supprimez les commentaires !

top

Directive ProxyHTMLURLMap

Description:Définit une règle de réécriture des liens HTML
Syntaxe:ProxyHTMLURLMap modèle-source modèle-cible [drapeaux] [cond]
Contexte:configuration du serveur, serveur virtuel, répertoire
Statut:Base
Module:mod_proxy_html
Compatibilité:Disponible depuis la version 2.4 du serveur HTTP Apache. Disponible en tant que module tiers dans les versions 2.x antérieures.

Il s'agit de la directive la plus importante pour la réécriture des liens HTML. Lors de l'interprétation d'un document, chaque fois qu'un lien correspond à modèle-source, la partie du lien concernée sera réécrite en modèle-cible, en tenant compte des modifications induites par les drapeaux éventuellement spécifiés et par la directive ProxyHTMLExtended. Ne seront considérés comme des liens HTML que les éléments spécifiés via la directive ProxyHTMLLinks.

Le troisième argument optionnel permet de féfinir un des drapeaux suivants (les drapeaux sont sensibles à la casse) :

h

Ignore les liens HTML (les traverse sans les modifier)

e

Ignore les évènements de scripting (les traverse sans les modifier)

c

Traverse les sections de type style ou script sans les modifier.

L

Last-match. Si cette règle s'applique, aucune autre règle ne sera prise en compte (notez qu'il s'agit du comportement automatique pour les liens HTML).

l

L'opposé de L. Passe outre le comportement par défaut du changement unique pour les liens HTML.

R

Utilise des expressions rationnelles pour les modèles. modèle-source est une expression rationnelle, et modèle-cible une chaîne de remplacement qui peut être basée elle aussi sur une expression rationnelle. La mémorisation dans les expressions rationnelles est supportée : vous pouvez utiliser des parenthèses () dans le modèle-source, et récupérer la correspondance de leur contenu via les variables $1 à $9 dans le modèle-cible.

Si le drapeau R n'est pas fourni, la directive utilisera des chaînes littérales pour les différents modèles de recherche/remplacement. La logique de recherche est "commence par" dans les liens HTML, et "contient" dans les évènements de scripting et les sections de type style ou script.

x

Utilise les expressions rationnelles étendues POSIX. Ne s'applique qu'avec R.

i

Recherche de correspondance sensible à la casse. Ne s'applique qu'avec R.

n

Désactive la mémorisation dans les expressions rationnelles (pour améliorer les performances). Ne s'applique qu'avec R.

s

Recherche de correspondance dans les expressions rationnelles basée sur la ligne. Ne s'applique qu'avec R.

^

Recherche de correspondance au début seulement. Ne concerne que les recherches de correspondance par rapport à des chaînes, et ne s'applique pas aux liens HTML.

$

Recherche de correspondance à la fin seulement. Ne concerne que les recherches de correspondance par rapport à des chaînes, et ne s'applique pas aux liens HTML.

V

Insère des variables d'environnement dans le modèle-cible. Un modèle-cible de la forme ${varname|default} sera remplacé par la valeur de la variable d'environnement varname. Si cette dernière n'est pas définie, modèle-cible sera remplacé par default. La spécification de |default est facultative.

NOTE: l'insertion de variables d'environnement n'est possible que si la directive ProxyHTMLInterp a été définie à On.

v

Insère des variables d'environnement dans le modèle-source. La syntaxe du modèle est identique à la syntaxe précédente.

NOTE: l'insertion de variables d'environnement n'est possible que si la directive ProxyHTMLInterp a été définie à On.

Le quatrième argument optionnel cond définit une condition qui sera évaluée pour chaque requête, sous réserve que la directive ProxyHTMLInterp ait été définie à On. Si la condition est évaluée à FALSE, la règle ne sera pas appliquée à la requête. Si elle est évaluée à TRUE, ou si aucune condition n'est définie, la règle s'applique.

La condition est évaluée par l'interpréteur d'expression. La syntaxe simple des conditions dans mod_proxy_html 3.x pour HTTPD 2.0 et 2.2 est aussi supportée.