[ d ] [ b / cu / dev ] [ r ] [ a / ts ] [ ci ] [ gnx / int ] [ misc ] [ dev / stat ]
[Burichan] [Futaba] [Gurochan] [Tomorrow] [Архив-Каталог] [Главная]

Файл: 1278588219004.jpg -(57 KB, 250x250, 1278588219004.jpg)
57 No.24999  
Потому что я занимаюсь этим уже почти пять лет.

Не путать с картинкопомойко-грабберами.
>> No.25001  
>>24999
https://sourceforge.jp/projects/futaget/
Но ведь есть уже готовый граббер.

А вот, что ответил аффтар много лет назад

About auto grab
I am doing it with a simple script
It is not included in the distribution.

1.Read the catalog page

http://хххххх/b/futaba.php?mode=cat&sort=2

2.Thread url to ftbucket (./scrapshot.php?rooturl=xxxxx)
3.Do this every 3 minutes

Скриптом не поделился.
>> No.25002  
>>25001
Да, но
>php
Если вам его на винду ставить одним архивом, то это отдельный слой мороки. Если нет, то скрипт на ЖС делается за пять минут, если надо только на локалке когда компьбтер включен и не жалко всё время браузер включенным держать. А иначе начинается уже чудесная магия.

Ну и можно обсуждать и другие граберы, может кого заинтересует Fooka например.
>> No.25003  
>>25002
Когда-то давно ставил его по инструкции с вики на обычную винду, все работало. Самое сложное было настроить крон для винды на 30 сек, тк меньше минуты нетривиально. Но только добавлением треда вручную. Увы, в скрипт не смог.

>браузер включенным держать
Зачем? Ведь эта штука сама треды качает и браузер уже нужен только для просмотра.

А так комп работает с 2003, для футабы не эпизодически с весны 2008, 6 браузеров фаерфокс разных годов всегда в работе, с https://toshiakisp.github.io/akahuku-firefox-sp/ вот этим плагином. Автообновление, наблюдение за кейвордами, автооткрытие треда итд все дела. Но с увеличением колва тредов уже справляются с трудом.
>> No.25004  
>>25003
>Зачем?
Потому что я не посмотрел содержание /util.

...то есть, проблема только под виндой раз в 30 секунд запускать
allupdate.php
?

Если версия винды - Виста и выше, то можно наверное

:loop
php allupdate.php
timeout /T 30
goto :loop

>> No.25006  
Файл: Безымянный.jpg -(67 KB, 527x284, Безымянный.jpg)
67
>>25004
Нет, проблемы с автообновлениями нет. Проблема передать номер треда из каталога футабы в граббер автоматически.
На картинке
Красным ручное добавление треда в список отслеживания.
Зеленым раздел где это происходит автоматически.
Добиться этого программа минимум.
>> No.25008  
>>25006
Картинка мне мало поможет, потому что автоматизировать-то не веб-морду...
Я вижу
>$targetUrl = "/http:\/\/...\.2chan\.net\/(.*)\/res/i"; //全板対象
В cron_get.php, что подсказывает мне, что локальная копия и так должна уметь автоматически это делать. Я сейчас попробую запустить и проверить, конечно...
>> No.25009  
>>25006
...а, публичная версия вообще не трогает каталог автоматом. О-хо-хо... Я наконец-то понял.

Ммм, дайте мне некоторое время.
>> No.25010  
>>25001
Итак:
1. Есть ли у вас Апач или аналог, на котором этот FTBucket локально крутится? Я подозреваю, что да, но кто ж знает.
2. Есть ли в системе curl/wget, grep или аналог, и какой шелл - виндовый/баш? Я подозреваю (>>25003), что может быть и винда.

Если на эти вопросы ответ "да", то скрипт делается просто, и я скину его позже. Если "нет", то черновик http://yakuji.moe/cron_fetch.ftbucket , но он скорее всего не работает.
>> No.25018  
>>25010
1. да
2. нет, но предпочтительнее wget, его как-то знаю.
виндовый. да, винда.

Копия не умеет, тк японец боялся, что все поднимут себе локально и положат футабу по трафиику. Поэтому не дал, 2 пост темы.

Каталог раздела http://may.2chan.net/b/futaba.php?mode=cat
>> No.25028  
Файл: 1169648139489.gif -(21 KB, 300x300, 1169648139489.gif)
21
>>25018
Окей, я обновил >>25010-ссылку. (да, там cron_fetch.php, я просто сменил расширение)
Елси у вас wget в PATH (то есть чтобы его запустить не надо указывать полный путь), то надо раскомментировать строку 35 и удалить строки 37-87. Иначе ничего делать не надо. Можно разве покрутить аргументы у sleep на строках 92 и 96.
Если их не крутить, то одна доска архивируется минимум 3 минуты, значит полный цикл займёт 4+ часа.

Наверное есть желание настроить для разных досок разную частоту? Строка 23 ожидает переменную $boardBook, которую берёт из autotag.php. Можно скопировать её оттуда в этот cron_fetch.php, переименовать в какой cron_fetch_may.php, оставить в нём толко may и поставить в cron обновляться раз в ~секунду. Если вам надо так часто, то sleep на 92 и 96 точно стоит убрать, но readUrlInfo на 43 в любом случае не даст обновить тред чаще чем прописано в конфиге... если не выставлен MANUALUPDATE там же? Уже не помню. Вот, тогда только в другом cron_fetch_xyz.php для других досок надо будет may из списка убрать.

Как-то так? Отпишитесь, если вам непонятно или наоборот всё заработало. Я бы про ваш личный архив послушал.
>> No.25032  
>>25028
>4+
Ха-ха.
Там, наверное, задержка между даунлоадом картинок ещё есть. В общем, я запустил где-то до написания этого поста. Выкачало 21 гиг и всё ещё идёт. Иногда жалуется на ошибку, правда...
>> No.25033  
>>25032
Жалуется на линии 83 и 85, там, видимо $info == false. Хм. Не критично, но докачает - поправлю.
>> No.25034  
>>25032
Нащёлкало 29 гб. Посмотрим, как быстро будет во второй раз идти, если убрать все добавочные sleep.
>> No.25035  
>>25034
Почти два часа. Общий объём теперь 32 гб.
Ошибка была когда $info переприсваивалось в строке 59. Значит, строки 81-84 должны быть под if от стр. 76.

Запустил в третий раз, без дебаггера. Возможно это сделает работать чуть быстрее. Ещё бы убрать весь вывод, но это перелопачивать довольно много кода... когда я могу, в принципе, просто переписать свою грабилку. И не факт, что это кому-то нужно или сделает код быстрее.
>> No.25036  
>>25035
Где-то час. В общем, писать всё в одном потоке не вариант.
>> No.25132  
>>25028
Всё ещё надеюсь, что вы отпишетесь, иначе пойду в /a/



[ d ] [ b / cu / dev ] [ r ] [ a / ts ] [ ci ] [ gnx / int ] [ misc ] [ dev / stat ]
[Burichan] [Futaba] [Gurochan] [Tomorrow] [Архив-Каталог] [Главная]