<body> <script type="text/javascript" src="https://ad.netowl.jp/js/webcrow-php.js"></script>
私立メロン高校パソコン部
9731436

WEB画像収集bot


2018年10月05日 04:09:16

WEBを自動巡回して画像を収集するbotです。
特定のサイトの画像ダウンローダではなく、
ほとんどのサイトで使える画像ダウンローダです。
画像だけでなくページをhtmlやスクリーンショットで保存できます。
巡集のようなソフトです。

Javaなのでマルチプラットフォームソフトです。
MacOSX、Windows、Linuxで動きます。

1.WEBを自動巡回して画像を収集するbot。
特定のサイトの画像ダウンローダではなく、ほとんどのサイトで使える画像ダウンローダです。
2. urlをsqliteのDBに入れるので、重複取得が無く無駄が無い。
3.複数のキーワードを設定できる正規表現のブラックリストやホワイトリストにより、
外部サイトを取得せずにターゲットのサイトのみをダウンロードできる。
4. ログを保存する機能。
5. htmlを保存する機能。htmlをpdfで保存。htmlのスクリーンショットをpngで保存する機能。htmlをmhtで保存する機能。
6. 指定したサイズ以下のファイルは落とさない機能。
7.画像のexifタグにタイトルを書き込む機能。
8.Firefoxのクッキーを送信してログイン必要なサイトでログインする機能。
9. データベースにテキストを全文登録して検索できる機能。
10. サイト別に設定は変わると思うので、
名前を付けて設定を保存して設定を選択して読み込ませれる機能。
11.サイト上のyoutubeの動画を落とす機能。

落とせるサイトは
静的なhtmlサイト。
ブログサイトなど。
livedoorブログ、fc2ブログ、wordpress、Movable Typeなど。
ほとんどのブログが落とせる。

2019/3/15
ダウンロード
ver1.0.6

https://mega.nz/#!mn50jSAZ!xP2gvEaeL5UgRhXKVWur0A-NCCRPCGpf9QWTSknLmIA

posted by 管理人
カテゴリー 画像ダウンローダ
view(3307)
コメント(11)


1.名前:名無し 2018年10月24日 02:52:16ID:c08248

これページにある画像だけだね
konachanみたいにリンク先に有るものは一切落とさない
サムネ表示のサイトは壊滅


2.名前:管理人 2018年10月26日 01:26:16ID:

>>1

ver1.0.4でリンク先も落とせるようにしました。


3.名前:名無し 2018年11月22日 02:45:16ID:835998

ttps://myhentaicomics.com/index.php/VR-The-Comic-2
ここでつかったらjavax.net.ssl.SSLException: Tag mismatch!
と2回出て終わった、保存は何もされてない
調べるとJavaとサイトの設定がよくないらしい、古いVrの戻すと起こらないらしいがたぶん他のサイトで同じエラーが出るらしい
マルチ系とJavaの相性ってよくないんじゃないかな


4.名前:管理人 2018年11月22日 04:18:16ID:

>>3

私のPCで試しましたが、
そのエラーは出ないですし、そのサイトは落とせます。
サムネイルのみで大きい画像が落ちるのは確認できませんが。


5.名前:名無し 2018年11月23日 02:00:16ID:835998

>4
javaはなに使ってます?
8のUD191でこれ起きてます


6.名前:管理人 2018年11月23日 02:27:16ID:

>>5

1.8.0_151です。


7.名前:wayway 2018年12月15日 02:39:16ID:09f6d7

ソフトのリクエストです。
サイトを見ためそのままでローカル保存できるソフトを作っていただけませんか?
用途はwayback machineに保存されているサイトをダウンロードしてオフラインでも見れるようにしたいんです。


8.名前:管理人 2019年06月01日 03:17:16ID:

>>7
>サイトを見ためそのままでローカル保存できるソフトを作っていただけませんか?
用途はwayback machineに保存されているサイトをダウンロードしてオフラインでも見れるようにしたいんです。

ここのgallery-dl-guiでvanilla-clipperを使えばできます。
http://shimarisu.webcrow.jp/gallery_dl_gui.html

Node.jsをインストールして、
vanilla-clipperをインストールして、
「ダウンローダ」の設定で「vanilla-clipper」をチェックして
wayback machineのurlをD&Dすれば保存できます。(確認済み)



9.名前:名無し 2019年06月05日 08:41:16ID:5c4227

livedoorブログの画像を落としているとRSSを拾いその後w3.orgまで飛ばされ今度はそこの画像を落とすようになりますが、
blog.livedoor.jp
livedoor.blogimg.jp
上記のドメイン以外をはじくことは不可能なのでしょうか。
ブラックリスト、ホワイトリストに入れても何も落ちなかったり、外部ドメインへ行ってしまいます。


10.名前:管理人 2019年06月05日 08:54:16ID:

>>9

このソフトは通常は「取得ホワイトリスト」をチェックして、
ホワイトリストを入れて使います。
そうしないとインターネットの他のサイトを取得しちゃうので、
一つのサイトだけを落とせなくなります。

ホワイトリストに入れるのは基本的にトップのurlと画像サーバーのurlを入れれば良いです。
例えば痛いニュースなら、
http://blog.livedoor.jp/dqnplus/
https://livedoor.blogimg.jp/dqnplus/
を入れれば良いです。

ブラックリストの方はチェックしないで良いです。
「取得urlブラックリスト」のチェックは外してください。
設定5タブの「入力したホスト以外を取得しない」チェックも外してください。
設定5タブの「入力したurl以外を取得しない」チェックも外してください。
設定タブの「画像をダウンロードする」にチェック。


11.名前:名無し 2019年07月05日 05:11:16ID:602c9c

起動するけどエラー吐きまくって一切DLしない
保存先のパスが無いとかSSLがどうのこうのというエラーの連続が続くだけ
どうもjavaが問題なんだろうけどお手上げ

ttps://myhentaicomics.com/index.php/Smash-Bros-Xxxtreme
ttps://comics.asmhentai.com
ここで使いたいけどpython系で同様なの作って貰えませんか



名前   
本文


削除キー
戻る