<body> <script type="text/javascript" src="https://ad.netowl.jp/js/webcrow-php.js"></script>
私立メロン高校パソコン部
13161007

クイック魚拓Java


2017年12月28日 04:37:14

魚拓サイト(アーカイブサイト)archive.is、はてなブックマーク
Internet Archive、tweetsave、WebCiteに一括でurlを登録できるソフトです。

1.D&Dでarchive.is、はてなブックマーク、
Internet Archive、tweetsaveに登録できる。
クリップボードのurl貼り付けやクリップボードの監視からも登録できる。
2.リストファイルから複数urlを一括でウェブ魚拓、archive.is、はてなブックマーク、
Internet Archive、tweetsaveに登録できる。
3. 複数urlの一括登録で404エラーなどのurlを登録するのを回避する為に、
urlのエラーチェックしてから登録する機能。
4.urlがUP済みかチェックしてからUPする機能。
5.はてなブックマークの登録はapiを使ってないです。

Javaで作りました。
MacOSX、Windows、Linuxなどで動作します。


2021/9/14
ダウンロード
ver1.4.5

https://mega.nz/file/jiJFVC6L#4SPBqG2hcW0nrDr0ZFt23ZxNFt6zMPZfGIljpp9EmXs

■2021年4月現在のアーカイブサイトの状況について

●ウェブ魚拓、
ウェブ魚拓の仕様変更により、
reCAPTCHAのチェックが要るようになったので登録できなくなりました。

●archive.is

問題なく利用可能です。
登録後、登録が反映されるのに少し時間がかかります。

連続登録する場合は、
ある程度のwaitを入れないと、アクセス規制されます。
適切なwaitを入れれば問題なく一括登録できます。
アクセス規制された場合は人間なのか確認するCAPTCHAを入力するか、
IPを切り替えれば良いです。


●tweetsave

利用可能ですが、
時間によってかなり重かったり
登録できなかったりもします。
サーバーが落ちていて利用できないことも多いです。


●Internet Archive

利用可能ですが、
時間によってはかなり重くなります。

xpとvistaの人はここのディレクトリから
古いバージョンのchromedriver.exeを落として、
このソフトのchromedriver.exeに上書きしてください。
https://chromedriver.storage.googleapis.com/index.html
xpとvistaの人はここのディレクトリから
古いバージョンのffmpeg.exeを落として、
このソフトのffmpeg.exeに上書きしてください。
https://ffmpeg.zeranoe.com/builds/win32/static/

posted by 管理人
カテゴリー ユーティリティ
view(2938)
コメント(23)


1.名前:ゆず 2018年04月01日 09:54:14ID:12a130

Internet Archiveだけ「HTTP/1.1 403 Forbidden」になってしまいます


2.名前:管理人 2018年04月01日 04:30:14ID:

>>ゆずさんへ

私のPCで試しましたが問題ないです。


3.名前:ゆず 2018年04月02日 04:59:14ID:28cc66

小説家になろうの個別サイトでURLの最後の部分を連番にしてリストで一括登録したのですが出来ませんでした。
他のサイトで連番をやってみた所うまくいきましたので、小説家になろうのサイトの仕様変更されたのかなと思っています。

お手数かけて申し訳ありません。


4.名前:管理人 2019年02月03日 05:05:14ID:

クイック魚拓JavaがWebCiteへの登録に対応しました。
http://shimarisu.webcrow.jp/quick_gyotaku.html


5.名前:管理人 2019年03月01日 05:56:14ID:

クイック魚拓Javaがtor経由で投稿できるようになったので落としてください。
ウェブ魚拓は同一IPで1日60件までの規制がありますが、
tor経由により定期的にランダムにIPを切り替えることで
規制を回避して無制限に登録できます。
(ver1.2.7)
http://shimarisu.webcrow.jp/quick_gyotaku.html


6.名前:名無し 2019年06月01日 11:10:14ID:fe911a

使い方を教えて欲しいです

7.名前:管理人 2019年06月02日 01:57:14ID:

>>6

設定タブ「登録後に登録チェックして失敗ならIP切り替えて繰り返す」のチェックを外す。
proxyタブ「proxyを経由する」のチェックを外す。
設定3タブ「seleniumでpostする」 のチェックを外す。

メインタブの「機能の選択」で登録したサイトをチェックする。
「WebCite」は登録にかなり時間がかかります。
「ウェブ魚拓」は同一IPで1日でUPできるのは60回までの制限があります。
「ウェブ魚拓」はrobots.txtがあるサイトは取得できません。
「tweetsave」はtwitterのツイートurlのみ登録する。

登録方法はいくつかあります。
1.メインタブにurlをD&Dする
2. メインタブのurlに入力して「開始ボタン」を押す。
3.クリップボードにurlをコピーして「貼る」ボタンを押して貼り付ける。
3. 「clipboad監視」ボタンを押してクリップボードを監視する。
クリップボードにurlをコピーすると登録開始する。
もう一度「clipboad監視」を押すと監視解除される。

複数のurlリストを登録するには「リスト」タブにurlリストを入れて、
メインタブの「バッチ処理」ボタンを押す。
「経過表示」タブで「プログレスバーを有効にする」をチェックすると、
バッチ処理の経過が表示される。

設定タブの「wait有効」チェックで、
登録後にwaitが入る。
「archive.is」は短い時間で連続で登録すると
アク禁になることがあるので、そういう場合に有効にする。

設定タブの「UPするurlをエラーチェックしてからUPする」は
urlをUPする前に404エラーがあるかなどをチェックしてからupする。

設定タブの「urlがUP済みかチェックしてからUPする」は、
urlが登録済みかチェックしてUPする。
登録されてる場合はUPしない。

メインタブの「log」をチェックすると、
input.txtに入力されたurlのログが書き出され、output.txtにアーカイブのurlのログが書き出されます。

メインタブの「web.archive」「魚拓」
「tweetsave」「archive.is」「WebCite」ボタンはクリックすると、
直後に登録したアーカイブのurlがブラウザで開きます。



8.名前:管理人 2019年09月05日 05:54:14ID:

クイック魚拓Javaですが、
ver1.3.3でseleniumでウェブ魚拓に投稿できなかった問題を修正しました。
(Javaでpostでなくseleniumを使ってウェブ魚拓に投稿する場合、既に一回以上魚拓化されたページの重複投稿が可能)

2019/9/5現在、WebCiteは新規にアーカイブの投稿ができません。
ですのでWebCiteは無効にしてください。


9.名前:管理人 2020年02月21日 10:03:14ID:

仕様変更によりクイック魚拓Javaでウェブ魚拓の投稿ができなくなりました。


11.名前:管理人 2020年02月27日 04:40:14ID:

クイック魚拓Javaを修正しました。
ウェブ魚拓を落とせるようになりました。
(ver1.3.5)

2020/2/20にウェブ魚拓で導入されたreCAPTCHAにbot対策ですが、
ver1.3.5でウェブ魚拓に投稿できるように修正しました。
reCAPTCHAはseleniumならwait入れるだけでブロックされないみたいなので、waitを入れて対策しました。
 設定3タブの「魚拓のreCAPTCHAのwait」に入れます。
単位はミリ秒です。5000なら5秒。
最大で15秒までです。
動作確認したのは「seleniumで使うブラウザ」のchromeのみです。
 ウェブ魚拓はseleniumしかできないので、
ウェブ魚拓のみ設定3タブの「seleniumでpostする」の設定に関係なく
強制的にseleniumになります。
「seleniumをheadlessモードで使う」にすれば気にならないと思います。

あまりやりすぎると、
さらに厳しく規制される可能性もあるので、
サーバーに負担かけないように節度をもって使ってください。



13.名前:名無し 2020年03月07日 01:31:14ID:8601d2

いつもありがたくクイック魚拓を使わせてもらってます。
使っていて感じたのですがコマンドライン等から魚拓を作成する機能の実装は難しいでしょうか?
イメージとしてはこんな感じです。
午前2~3時等のアクセスが少ない時間帯にゆっくりとサーバーに負担がかからないよう魚拓が作成できればなと考えています。

quick_gyotaku.jar --help
魚拓を作成します。
使用法: quick_gyotaku.jar [-l url_list][-u url][-s path][-v][-h]

オプション:
-l URL_LIST, --list=URL_LIST URL_LISTで指定されたURLリストのテキストを読み込み魚拓を作成します。
-u URL, --url=URL URLで指定されたURLで魚拓を作成します。
-s PATH, --setting=PATH PATHで指定された設定ファイルの設定で魚拓を作成します。
-v, --version ヘルプを表示します。
-h, --help ヘルプを表示します。


14.名前:管理人 2020年03月10日 11:22:14ID:

>>13

Java+swingだとGUI前提だし重いから
コマンドラインには向かない。
もし作るなら、C#になると思います。

登録してるのはウェブ魚拓、archive.is、Internet Archiveの中でどれですか?

>午前2~3時等のアクセスが少ない時間帯にゆっくりとサーバーに負担がかからないよう魚拓が作成できればなと考えています。

時間帯で違いは無いと思います。
archive.isとInternet Archiveはwait入れないとエラーで連続登録できないし。reCAPTCHAを待つ必要あるウェブ魚拓はゆっくりしか登録できない。
現在のこのソフトでもサーバーに負担はかからないと思います。


15.名前:名無し 2020年03月11日 08:41:14ID:8601d2

>>14
登録してるのは基本的にarchive.is、Internet Archiveの2つです
ウェブ魚拓は最近はあまり上手くいかず登録しようとすると時間がかかってしまいますので…

確かにwait入ってるしそこまで負担はかからないですね
一時的にそこまでアクセスが集中するとことも少なさそうですし
C#ってクロスコンパイル出来たんですか知らなかった


16.名前:名無し 2020年05月09日 02:23:14ID:c98012

archive is のみチェックを入れて魚拓を取ろうとしてもうまく取得できないようです。(画面上では取得されたことになっている)
Internet Archiveにもチェックをどちらもうまく魚拓が取れるのですが、
2つチェックれないとarchive isの魚拓をが取得できないのは仕様でしょうか?


18.名前:管理人 2020年05月12日 04:34:14ID:

>>16

最新版ですか?

ver1.3.8で試しましたが、
archiveis単独チェックで問題なく登録できてます。

「seleniumでpostする」 をチェックしてseleniumで登録したほうが確実かも。






19.名前:管理人 2020年07月31日 02:46:14ID:

クイック魚拓Javaを更新しました。
(ver1.3.9)

archive.isはseleniumしか登録できないので、
「seleniumでpostする」の設定に関係なく
強制的にseleniumになるようにした。


20.名前:名無し 2020年09月12日 01:21:14ID:230625

Firefoxでリストで魚拓を取るとウィンドウが閉じられないようです
68.12.0esrで確認


21.名前:管理人 2021年01月12日 03:11:14ID:

クイック魚拓Javaを更新しました。
(ver1.4.0)

Internet Archiveの問題を修正。
archive.isで重複urlを確認できなかった問題を修正。
archive.isで重複登録できるようにする。
http://shimarisu.webcrow.jp/quick_gyotaku.html


22.名前:管理人 2021年01月13日 11:04:14ID:

クイック魚拓Javaを更新しました。
(ver1.4.1)

seleniumでchromeを閉じずに連続取得できる機能を付けた。
「設定」タブの「seleniumでchromeを閉じずに連続取得する」をチェックで有効。
有効にすると、
seleniumでchromeを閉じずに同じchrome上で連続取得する。

http://shimarisu.webcrow.jp/quick_gyotaku.html


23.名前:管理人 2021年04月05日 02:01:14ID:

クイック魚拓Javaを更新しました。
(ver1.4.3)


24.名前:管理人 2021年04月05日 02:21:14ID:

■2021年4月現在の「クイック魚拓Java」で登録できるアーカイブサイトの状況について

●ウェブ魚拓、
reCAPTCHAでbot対策してますが、
問題なくこのソフトで追加できます。
ある程度連続で追加してるとbot認定されて追加できなくなる。
(おそらく一定時間以内に同一IPで連投が続くと規制される。)
登録失敗した場合にが自動でルーターにアクセスして
IPアドレスを切り替える機能を使えば問題なく一括登録できます。
ただし、この機能は使用してるルーターによっては使えないです。

同一IPでは1日70件ほどがリミットなので、
それ以上の登録はIPアドレスを切り替える必要があります。

●archive.is

問題なく利用可能です。
登録後、登録が反映されるのに少し時間がかかります。

連続登録する場合は、
ある程度のwaitを入れないと、アクセス規制されます。
適切なwaitを入れれば問題なく一括登録できます。
アクセス規制された場合は人間なのか確認するCAPTCHAを入力するか、
IPを切り替えれば良いです。


●tweetsave

利用可能ですが、
時間によってかなり重かったり
登録できなかったりもします。
サーバーが落ちていて利用できないことも多いです。


●Internet Archive

利用可能ですが、
時間によってはかなり重くなります。
登録失敗することもあります。


25.名前:管理人 2021年04月06日 03:32:14ID:

クイック魚拓Javaを更新しました。
(ver1.4.4)

Internet Archiveに登録失敗した場合に登録繰り返す機能。
登録失敗した場合に登録を繰り返す機能にリミット回数を設定できるようにした。


26.名前:管理人 2021年04月27日 10:48:14ID:

「クイック魚拓Java」のウェブ魚拓の登録ですが、
ウェブ魚拓の仕様変更により、
reCAPTCHAのチェックが要るようになったので登録できなくなりました。



名前   
本文


削除キー
戻る