首都の一覧

国連加盟国の一覧 の続きです。

wikipedia に下記の記事がある。

wikipedia: 首都の一覧

首都の一覧 (265カ国) がHTMLの表形式で記述されている。

ここから情報を抽出してJSON形式のファイルにする。

PythonBeautifulSoup を使用した。

首都の位置座標を追加する。

首都のページから手作業で集める。

wikipedia: 東京都

JSONファイルからHTMLの表形式を生成する。

PythonプログラムとJSONファイルは Github に公開した。

https://github.com/ohwada/World_Countries/tree/main/national_capitals_coordinates

首都の数

オランダのように首都が2つ(アムステルダムデン・ハーグ)ある国や

南アフリカ共和国のように首都が3つ(ケープタウンプレトリアブルームフォンテン)ある国もあるが、

独断で1つに絞った。

カンマの処理

直接 JSONファイルを生成するのではなく、 手修正しやすいように 一旦 CSVファイルを生成してから JSONファイルに変換している。

そのため項目の値にカンマ(,)を入れられない。

テキスト内はHTMLエンティティ(,)に置換し

URL内はURLエンコードした文字(%2c)に置換する

カンマのある例として 「Washington, D.C.」 (https://en.wikipedia.org/wiki/Washington,_D.C.)