HTML/XHTMLの基本データ形式

SGML/XMLの基本形式

#PCDATA
構文解析の対称となる文字列。タグ(<html>など)や実体参照(&amp;など)が認識されるデータのことです。任意の文字を使用できます。インライン要素を子要素とする要素の内容は、普通のテキストとタグが混在しています(混合内容)。#PCDATAはこのような混合内容を意味します。
CDATA
任意の文字を使用できます。実体参照は有効で、改行文字LFは無視され、改行文字CRやTab文字は空白文字として扱われます。また、属性値がCDATAの場合は、値の前後の空白文字を無視します(" value "は"value"として処理されます)。
ID, NAME
使える文字は半角英数字(A-Z, a-z, 0-9)、ハイフン(-)、アンダースコア(_)、コロン(:)、ピリオド(.)だけです。また、最初の文字はアルファベットでなければなりません。
IDREF, IDREFS
IDREFは参照するID、IDREFSは参照する複数のIDを空白で区切って記述します。
NMTOKEN, NMTOKENS
使える文字は半角英数字(A-Z, a-z, 0-9)、ハイフン(-)、アンダースコア(_)、コロン(:)、ピリオド(.)だけです。NMTOKENSの場合は空白で区切って複数のNMTOKENを記述できます。
Number
0以上の数字を記述できます。HTMLではNUMBER、XHTMLではCDATAなので、このリファレンスではNumberと表記しています。

HTML/XHTMLで定義される基本形式

SGMLやXMLの基本形式は種類が少なく、HTML/XHTMLのデータ形式とするには不十分です。そこで、HTML/XHTMLではCDATAなどにさらなる制約を設けてデータ形式を定義しています。

Text

Textは人間が読んでわかる普通のテキストです。

URI

URIとは、インターネット上に存在する資源を指し示す識別子です。URLを拡張した概念で、URLの他にURNなどが含まれます。

絶対URIと相対URIの両方を指定することができます。

Color

色は十六進数値か色名で指定します。

十六進数値は#の後に赤、緑、青の順に00からFFまでの範囲で指定します。例えば、#0000FFならば青色になります。

色名は次の16種類が定義されています(括弧内の数値は該当する十六進数値)。他にもブラウザが独自にサポートしている色名がありますが、そのようなブラウザに依存した色名の使用は避けるべきです。

  • Black(#000000)
  • Silver(#C0C0C0)
  • Gray(#808080)
  • White(#FFFFF)
  • Maroon(#800000)
  • Red(#FF0000)
  • Purple(#800080)
  • Fuchsia(#FF00FF)
  • Green(#008000)
  • Lime(#00FF00)
  • Olive(#808000)
  • Yellow(#FFFF00)
  • Navy(#000080)
  • Blue(#0000FF)
  • Teal(#008080)
  • Aqua(#00FFFF)

色名は大文字小文字を区別しません。

Pixels

長さをピクセル数で指定します。整数値で単位は付けません。

Length

長さをPixelsまたは利用可能な空間に対するパーセンテージを指定します。パーセンテージを指定する場合は単位として%(パーセント)を付けます。

MultiLength

長さをLengthまたは割合で指定します。割合は整数値に*(アスタリスク)を付けて表現します(数字を省略した"*"は"1*"と解釈されます)。例えば1*、2*、3*と指定すると、1:2:3の割合で利用可能な空間を分割することになります。

ContentType

MIMEタイプを指定します。例えば、HTMLファイルは"text/html"、CSSファイルは"text/css"、JPEGファイルは"image/jpeg"、PNGファイルは"image/png"です。

MIMEタイプは大文字小文字を区別しません。

LanguageCode

言語コードを指定します。例えば、日本語の場合は"ja"、英語の場合は"en"です。また、"ja-JP"や"en-US"のように指定することもできます。

言語コードは大文字小文字を区別しません。

Charset

文字コード(文字符号化方法)を指定します。日本で一般的に使われているのは"Shift_JIS"、"EUC-JP"、"ISO-2022-JP"、"UTF-8"などです。

文字コードの名称は大文字小文字を区別しません。

Character

任意の一文字を指定します。実体参照("&amp;"など)を用いることもできます。

Datetime

日時を指定します。日時はYYYY-MM-DDThh:mm:ssTZDという形式で記述します。

YYYY-MM-DD
年(4桁)-月(2桁)-日(2桁)の順に記述します。
T
日にちと時間の間に大文字のTを記述します。
hh:mm:ss
時(2桁で00から23まで):分(2桁で00から59まで):秒(2桁で00から59まで)の順に記述します。
TZD
タイムゾーンをUTC(協定標準時)からの時差で指定します。日本の場合"+09:00"です。標準時の場合は大文字のZを記述します。

例えば、日本時間2005年2月26日午後3時5分53秒の場合、"2005-02-26T15:05:53+09:00"と書きます。

LinkTypes

リンク形式を指定します。複数のリンク形式を空白で区切って指定することもできます。HTML4.01では次のリンク形式が定義されています。

alternate
代替文書。lang属性と組み合わせて翻訳版であることを示す。また、media属性と併用することで別メディア版であることを示す。
stylesheet
外部スタイルシート。"alternate stylesheet"とすることで代替スタイルシートを示す。
start
文章群の中の最初の文書。
next
次の文書。
prev
前の文書。
contents
目次。
index
索引。
glossary
用語集。
copyright
著作権表示。
chapter
章。
section
節。
subsection
小節。
appendix
付属文書。
help
ヘルプ。
bookmark
ブックマーク(鍵となる部分へのリンク)。

大文字小文字は区別されません。

MediaDesc

メディア形式を指定します。複数のメディア形式を","(コンマ)で区切って指定することもできます。HTML4では次のメディア形式が定義されています。

screen
コンピュータの画面。
tty
固定文字幅での出力。テレタイプなどの表示能力に制限のあるもの。
tv
テレビ。低解像度で色やスクロール能力に制限があるもの。
projection
プロジェクタ。
handheld
携帯端末。
print
印刷。
braille
点字出力。
aural
音声出力。
all
すべてのメディア。

Script

スクリプトを記述します。スクリプト言語はJavaScriptを用いるのが一般的です。

StyleSheet

スタイルシートを記述します。スタイルシート言語はCSSを用いるのが一般的です。

FrameTarget

フレーム名か次の値を記述できます。

_blank
新規ウインドウに読み込む。
_self
そのフレーム自身に読み込む。
_parent
そのフレームの親フレームに読み込む。親フレームが無い場合は_selfと同じ。
_top
フレームによる分割を解除して読み込む。親フレームが無い場合は_selfと同じ。

参考文献