web-dev-qa-db-ja.com

XML、HTML、およびXHTMLドキュメントの有効なコンテンツタイプ

XML、HTML、およびXHTMLドキュメントの正しいコンテンツタイプは何ですか?

これらの種類のファイルのみを取得する単純なクローラーを作成する必要があります。

最近では http://example.net/index.html はmod_rewriteにより、たとえばJPEGファイルを提供できるため、応答ヘッダーからcontent-typeを確認し、許可されたリストと比較する必要がありますコンテンツタイプ。

そのようなリストはどこから入手できますか?

107
astropanic

HTML:text/html、フルストップ。

XHTML:application/xhtml+xml、またはHTML互換性ガイドラインtext/htmlに従う場合のみ。 W3 Media Types Note を参照してください。

XML:text/xmlapplication/xmlRFC 2376 )。

また、application/rss+xmlimage/svg+xmlなど、XMLに基づいた他の多くのメディアタイプもあります。 +xmlで終わる、認識されないが登録されているものはすべてXMLベースであることは間違いありません。 +xmlで終わる登録済みメディアタイプについては、 IANAリスト を参照してください。

(未登録のx-タイプの場合、すべてのベットはオフになりますが、+xmlが尊重されることを望みます。)

181
bobince