ウェブページの取得について

投稿者:KNIGHT <knight1112jp あっとまーくgmail.com> 投稿日:2019/02/23(Sat) 17:52:31 No.2401

御世話になります。
自分のブログページのソースをを取得しようと、以下のスクリプトを実行しました。
ウェブページは、
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS" />
となっているので、「ShiftJIS」を指定してみました。
文字コードをいろいろと変えてみましたががうまく行きません。
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
内容は、HTTPで「https://knight1112jp.at.webry.info/201404/article_102.html」を「ShiftJIS」として取得したもの
内容を「[デスクトップ]test.html」へ「ShiftJIS」で保存する
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
test.html をエディタで開いてみると、日本語に相当する部分がすべて化けてしまって読めません。ブラウザで開いても同じです。
ブラウザで保存するときちんと日本語も読める形式で保存されます。
ブラウザで保存した時と同じように保存するにはどうすればよいのでしょうか?
ご教授下さいませ。よろしくお願いいたします。

Re: ウェブページの取得について

投稿者:とおりすがりや 投稿日:2019/02/23(Sat) 23:04:00 No.2402

こんばんは、初心者ですがなんとか解決できそうなので助言させていただきます。

私も似たような現象でこちらに質問させていただいています。
https://rdr.utopiat.net/cgi/bbs/wforum-rdr.cgi?mode=read&no=2389&reno=no&oya=2389&page=0#2389

ただ、KNIGHTさんの場合はログイン処理などが必要無いようなので
HTTP形式でダウンロードを行えば問題ないかと思います。(私は成功しました)
サンプルをご用意したのでお試しください。


https://knight1112jp.at.webry.info/201404/article_102.html」を「[デスクトップ]produire-title.html」へHTTPでダウンロードする
「ダウンロードしました」を情報アイコンで表示する


「取得」と「ダウンロード」の差が正確にわかっていないのですが、恐らく取得はプログラム内で一時的に保存されて文字化けが発生するのに対して
プログラム内に保存せず直接ダウンロードを行って保存されるので文字化けしない、のではないかと考えています。

Re^2: ウェブページの取得について

投稿者:KNIGHT <knight1112jp あっとまーくgmail.com> 投稿日:2019/02/24(Sun) 08:28:10 No.2403

> こんばんは、初心者ですがなんとか解決できそうなので助言させていただきます。
>
> 私も似たような現象でこちらに質問させていただいています。
> https://rdr.utopiat.net/cgi/bbs/wforum-rdr.cgi?mode=read&no=2389&reno=no&oya=2389&page=0#2389
>
> ただ、KNIGHTさんの場合はログイン処理などが必要無いようなので
> HTTP形式でダウンロードを行えば問題ないかと思います。(私は成功しました)
> サンプルをご用意したのでお試しください。
>
>
> 「https://knight1112jp.at.webry.info/201404/article_102.html」を「[デスクトップ]produire-title.html」へHTTPでダウンロードする
> 「ダウンロードしました」を情報アイコンで表示する
>
>
> 「取得」と「ダウンロード」の差が正確にわかっていないのですが、恐らく取得はプログラム内で一時的に保存されて文字化けが発生するのに対して
> プログラム内に保存せず直接ダウンロードを行って保存されるので文字化けしない、のではないかと考えています。

とおりすがりや様、素早いお返事をありがとうございました。
素晴らしいです、そのような発想を持ち合わせませんでした。おっしゃるとおり、直接ダウンロードでうまく行きますね。
ブラウザオブジェクトを配置して、そのソースをファイルに保存しても結果は同じでした。
ありがとうございました。
今後ともよろしくお願いいたします。

▲ページの先頭へ

- WebForum -