国連加盟国の一覧 の続きです。
wikipedia に下記の記事がある。
首都の一覧 (265カ国) がHTMLの表形式で記述されている。
ここから情報を抽出してJSON形式のファイルにする。
Python の BeautifulSoup を使用した。
首都の位置座標を追加する。
首都のページから手作業で集める。
JSONファイルからHTMLの表形式を生成する。
PythonプログラムとJSONファイルは Github に公開した。
https://github.com/ohwada/World_Countries/tree/main/national_capitals_coordinates
首都の数
オランダのように首都が2つ(アムステルダム、デン・ハーグ)ある国や
南アフリカ共和国のように首都が3つ(ケープタウン、プレトリア、ブルームフォンテン)ある国もあるが、
独断で1つに絞った。
カンマの処理
直接 JSONファイルを生成するのではなく、 手修正しやすいように 一旦 CSVファイルを生成してから JSONファイルに変換している。
そのため項目の値にカンマ(,)を入れられない。
テキスト内はHTMLエンティティ(,)に置換し
URL内はURLエンコードした文字(%2c)に置換する
カンマのある例として 「Washington, D.C.」 (https://en.wikipedia.org/wiki/Washington,_D.C.)