よすぽの日記

トヨタ自動車プログラミングコンテスト2024#6（AtCoder Heuristic Contest 034) 解法

2024-06-17T22:10:03+09:00

解法

最小費用流 (7.9G)

実はこの問題、トラックの移動経路を固定すると、最適解を求めることが出来ます。最適解というのは、$h_{ij} < 0$なのに更に掘り出すケース、あるいはトラックが複数回同じ頂点を通るケース等も対応した上での厳密な最適解です。

うまくグラフを作って最小費用流を流すのですが、きりさんのこのtweetの図がわかりやすいです。

#AHC034

経路を決めたときの最小費用流は、経路の各点に対応する頂点からその位置に対応する頂点への双方向の道を作る感じでやったhttps://t.co/Y3yTpp7uCr pic.twitter.com/UjAUbe2hcD
— きり (@kiri8128) 2024年6月16日

文章で書くと、トラックの移動経路の頂点数を $M$ として、

移動経路に対応した頂点が $M$ 個
グリッドのマス目に対応した頂点が $N^{2}$ 個
始点 $S$, 終点 $T$

で計 $M + N^{2} + 2$ 頂点のグラフを作ります。そして、次のように辺を張ります。

各グリッドのマス目$(i, j)$ の頂点について、$h_{ij} > 0$ ならば $S$ から (cap, cost) = $(h_{ij}, 0)$ の辺を張る
各グリッドのマス目$(i, j)$ の頂点について、$h_{ij} < 0$ ならば $T$ へ $(-h_{ij}, 0)$ の辺を張る
各移動経路の頂点について、対応するグリッドのマス目の頂点との間に、$(\infty, 1)$ の辺を双方向に張る
各 $i = 1, 2, \cdots, M - 1$について、 $i$ 番目の移動経路の頂点から $i + 1$ 番目の移動経路の頂点へ $(\infty, 1)$ の辺を張る

実際に、このグラフで $S$ から $T$ に最小費用最大流を流すと、

移動経路の頂点とグリッドのマス目の頂点の間の辺の流量が積み込み/積み下ろしの量に対応し、
移動経路の頂点間の辺の流量がトラックの運ぶ量に対応する

ことがわかります。

トラックの移動経路としてなにを取るかですが、次の図のように(ジグザグ + 向きを変えたジグザグ)で盤面を二回ずつ通るようなwalkを採用すると7.9G程度のスコアを取ることが出来ます。

実装例: Submission #54667347 - Toyota Programming Contest 2024#6（AtCoder Heuristic Contest 034）

ちなみにこの最小費用流の嬉しいポイントとして、あらゆる解法に対して最後にやって損しない後処理として機能します。つまり実装しても絶対無駄にならないです。

山登り(9.4G)

さらなる改善のためには、よりよい移動経路を探す必要があります。現状だとそもそも完全に経路を決め打ってしまっているので、改善の余地はありそうです。

先述の解法を動かしてみると、運搬コストについてはかなりよさそうで、トラックの移動コスト $100 \times (M - 1)$ の方に改善幅がありそうな気持ちになります。よって、トラックの移動距離を短くするような遷移で山登りをすることを考えます。

この思想を元に、「現在の移動経路について、$i$ 番目の頂点と $i + 3$ 番目の頂点が隣接していたならば、$i + 1$ 番目と $i + 2$ 番目の頂点を削除する」という遷移を考えます。これは上記のジグザグにおいて、曲がる部分をちょっとショートカットして短くする遷移です。

実際にこの遷移を書くと、とんでもなく強力なことがわかります。なんと時間いっぱい山登りするだけで9.4G程度のスコアが取れます。

実装例: Submission #54668251 - Toyota Programming Contest 2024#6（AtCoder Heuristic Contest 034）

なお、更なる改善として自然なのは焼きなましですが、ここで最小費用流(=スコア関数)の速度が問題になります。seed 0で、AC Libraryだと600 ~ 700回程度、後述の強力最小費用流ライブラリを使っても1500回程度しか最小費用流が流せなかったので、焼きなましは厳しかったです。うまくやればこの程度の遷移回数でもなんとかなるんでしょうか？

さらなる改善(9.5G)

コンテスト中に9.48G, 後に9.53Gまで伸ばしましたが、正直もう本質的な改善は行っておらず、泥臭いことをしました。

より高速な最小費用流を使う
- AC LibraryはPrimal-Dual法の実装としてそれなりに速いものになっていると思いますが、そもそも最小費用流に対してはNetwork Simplex / Cost Scalingなど高速なアルゴリズムが色々あります。LEMON (C++ library) - Wikipedia がC++の実装として有名で、実際にNetwork Simplexを使うと3倍程度は速くなるようです。
多点スタート
- 高速な最小費用流を使うと実行時間に余裕が出来るので多点スタートをするとスコアが上がります。9.53Gの提出ではジグザグの向きが2通り * 2回ずつ 375ms(=計1500ms)山登り -> 一番良かったやつを更に400ms山登り
雰囲気で適当に山登りの遷移を足して、仕上げの山登りで使用

競プロ　乱数　速度調査

2024-06-14T06:49:13+09:00

疑似乱数の生成速度について軽く調べた。まず結果から紹介する。それぞれ $10^8$ 回乱数を生成してかかった時間をAtCoderのコードテストで計測した。実験コードはここ

Name	Output bit	Time
LCG32	32bit	114ms
mt19937	32bit	325ms
mt19937_64	64bit	389ms
xorshift32	32bit	192ms
xorshift64	64bit	193ms
xoshiro128++	32bit	249ms
xoshiro128**	32bit	238ms
xoshiro256++	64bit	249ms
xoshiro256**	64bit	238ms
pcg32	32bit	134ms
pcg32_fast	32bit	105ms
pcg64	64bit	202ms
pcg64_fast	64bit	157ms
Mwc128XXA32	32bit	92ms
Mwc256XXA64	64bit	108ms

Output bitで分類すると次のようになる。

Name	Output bit	Time
LCG32	32bit	114ms
mt19937	32bit	325ms
xorshift32	32bit	192ms
xoshiro128++	32bit	249ms
xoshiro128**	32bit	238ms
pcg32	32bit	134ms
pcg32_fast	32bit	105ms
Mwc128XXA32	32bit	92ms

Name	Output bit	Time
mt19937_64	64bit	389ms
xorshift64	64bit	193ms
xoshiro256++	64bit	249ms
xoshiro256**	64bit	238ms
pcg64	64bit	202ms
pcg64_fast	64bit	157ms
Mwc256XXA64	64bit	108ms

LCG (線形合同法)

$X = (A \times X + B) \bmod M$ という形で表されるやつ。パラメーターはwikipediaから(あまりよくないパラメーターらしい)

// Reference:
// https://ja.wikipedia.org/wiki/%E7%B7%9A%E5%BD%A2%E5%90%88%E5%90%8C%E6%B3%95
namespace lcg32 {

inline static u32 state = 12345;

u32 next() { return state = 1'103'515'245 * state + 12'345; }

}  // namespace lcg32

mt19937 (メルセンヌ・ツイスター)

C++のSTLのmt19937 / mt19937_64をそのまま

// Reference:
// https://cpprefjp.github.io/reference/random/mt19937.html
namespace mt19937 {

inline static std::mt19937 engine(12345);

u32 next() { return (u32)engine(); }

}  // namespace mt19937

// Reference:
// https://cpprefjp.github.io/reference/random/mt19937_64.html
namespace mt19937_64 {

inline static std::mt19937_64 engine(12345);

u64 next() { return (u64)engine(); }

}  // namespace mt19937_64

xorshift

主観だと競プロで一番使われていそうなやつ。実装はwikipediaから殆どそのまま

// Reference:
// https://ja.wikipedia.org/wiki/Xorshift
namespace xorshift32 {

inline static u32 a = 12345;

u32 next() {
    u32 x = a;
    x ^= x << 13;
    x ^= x >> 17;
    x ^= x << 5;
    return a = x;
}

}  // namespace xorshift32

// Reference:
// https://ja.wikipedia.org/wiki/Xorshift
namespace xorshift64 {

inline static u64 a = 12345;

u64 next() {
    u64 x = a;
    x ^= x << 13;
    x ^= x >> 7;
    x ^= x << 17;
    return a = x;
}

}  // namespace xorshift64

xoshiro++ / xoshiro**

https://prng.di.unimi.it/ に詳しい紹介がある。速くて質もいいらしい。実装はこのサイトから殆どそのまま

// Reference:
// https://prng.di.unimi.it/
namespace xoshiro128plusplus {

inline static u32 s[4] = {123, 234, 345, 567};

u32 next() {
    const u32 result_starstar = std::rotl(s[0] + s[3], 7) + s[0];

    const u32 t = s[1] << 9;

    s[2] ^= s[0];
    s[3] ^= s[1];
    s[1] ^= s[2];
    s[0] ^= s[3];

    s[2] ^= t;

    s[3] = std::rotl(s[3], 11);

    return result_starstar;
}

}  // namespace xoshiro128plusplus

// Reference:
// https://prng.di.unimi.it/
namespace xoshiro128starstar {

inline static u32 s[4] = {123, 234, 345, 567};

u32 next() {
    const u32 result_starstar = std::rotl(s[1] * 5, 7) * 9;

    const u32 t = s[1] << 9;

    s[2] ^= s[0];
    s[3] ^= s[1];
    s[1] ^= s[2];
    s[0] ^= s[3];

    s[2] ^= t;

    s[3] = std::rotl(s[3], 11);

    return result_starstar;
}

}  // namespace xoshiro128starstar

// Reference:
// https://prng.di.unimi.it/
namespace xoshiro256plusplus {

inline static u64 s[4] = {123, 234, 345, 567};

u64 next() {
    const u64 result_starstar = std::rotl(s[0] + s[3], 23) + s[0];

    const u64 t = s[1] << 17;

    s[2] ^= s[0];
    s[3] ^= s[1];
    s[1] ^= s[2];
    s[0] ^= s[3];

    s[2] ^= t;

    s[3] = std::rotl(s[3], 45);

    return result_starstar;
}

}  // namespace xoshiro256plusplus

// Reference:
// https://prng.di.unimi.it/
namespace xoshiro256starstar {

inline static u64 s[4] = {123, 234, 345, 567};

u64 next() {
    const u64 result_starstar = std::rotl(s[1] * 5, 7) * 9;

    const u64 t = s[1] << 17;

    s[2] ^= s[0];
    s[3] ^= s[1];
    s[1] ^= s[2];
    s[0] ^= s[3];

    s[2] ^= t;

    s[3] = std::rotl(s[3], 45);

    return result_starstar;
}

}  // namespace xoshiro256starstar

PGC

https://www.pcg-random.org/index.html に詳しい紹介がある。速くて質もいいらしい。

標準のpcg32 / pcg64と、ストリーム機能(とちょっと短い周期)の代わりに速度に特化したpcg32_fast / pcg64_fastがある。

pcg32 / pgc32_fast は wikipedia の実装を参考に、 pcg64 / pcg64_fast はrustの rand_pcg crateの実装を参考にした。

// Reference:
// https://www.pcg-random.org/download.html
// https://en.wikipedia.org/wiki/Permuted_congruential_generator
namespace pcg32 {

const u64 MULT = 6364136223846793005;
const u64 INC = 1442695040888963407;

inline static u64 state = 123;

u32 next() {
    u64 x = state;
    state = state * MULT + INC;

    u32 count = x >> 59;
    x ^= x >> 18;

    return std::rotr(u32(x >> 27), count);
}

}  // namespace pcg32

// Reference:
// https://www.pcg-random.org/download.html
// https://en.wikipedia.org/wiki/Permuted_congruential_generator
namespace pcg32_fast {

const u64 MULT = 6364136223846793005;

inline static u64 state = 123;

u32 next() {
    u64 x = state;
    state = state * MULT;

    u32 count = x >> 61;
    x ^= x >> 22;

    return (u32)(x >> (22 + count));
}

}  // namespace pcg32_fast

// Reference:
// https://www.pcg-random.org/download.html
// https://crates.io/crates/rand_pcg
namespace pcg64 {

const u128 MULT = u128(2549297995355413924) << 64 | u128(4865540595714422341);
const u128 INC = u128(6364136223846793005) << 64 | u128(1442695040888963407);

inline static u128 state = 123;

u64 next() {
    u128 x = state;
    state = state * MULT + INC;

    u32 rot = x >> 122;
    return std::rotr((u64)(x >> 64) ^ (u64)x, rot);
}

}  // namespace pcg64

// Reference:
// https://www.pcg-random.org/download.html
// https://crates.io/crates/rand_pcg
namespace pcg64_fast {

const u128 MULT = u128(2549297995355413924) << 64 | u128(4865540595714422341);

inline static u128 state = 123;

u64 next() {
    u128 x = state;
    state = state * MULT;

    u32 rot = x >> 122;
    return std::rotr((u64)(x >> 64) ^ (u64)x, rot);
}

}  // namespace pcg64_fast

Mwc128xxa32 / Mwc256xxa64

このブログで紹介されている。質が良くてPCGより速いらしい。

実装は githubから殆どそのまま。変更点はx1とcをまとめている。

// Reference:
// https://tom-kaitchuck.medium.com/designing-a-new-prng-1c4ffd27124d
// https://github.com/tkaitchuck/Mwc256XXA64
namespace mwc128xxa32 {

const u32 MULT = 3487286589;

inline static u32 x2 = 12345;
inline static u32 x3 = 0xcafef00d;
inline static u64 c_x1 = u64(0xd15ea5e5) << 32 | 23456;

u32 next() {
    u64 x = (u64)(x3)*MULT;
    u32 result = (x3 ^ x2) + ((u32)(c_x1) ^ (u32)(x >> 32));
    x3 = x2;
    x2 = (u32)(c_x1);
    c_x1 = x + (c_x1 >> 32);
    return result;
}

}  // namespace mwc128xxa32

// Reference:
// https://tom-kaitchuck.medium.com/designing-a-new-prng-1c4ffd27124d
// https://github.com/tkaitchuck/Mwc256XXA64
namespace mwc256xxa64 {

const u64 MULT = 0xfeb3'4465'7c0a'f413;

inline static u64 x2 = 12345;
inline static u64 x3 = 0xcafef00dd15ea5e5;
inline static u128 c_x1 = u128(0x1405'7B7E'F767'814F) << 64 | 23456;

u64 next() {
    u128 x = (u128)(x3)*MULT;
    u64 result = (x3 ^ x2) + ((u64)(c_x1) ^ (u64)(x >> 64));
    x3 = x2;
    x2 = (u64)(c_x1);
    c_x1 = x + (c_x1 >> 64);
    return result;
}

}  // namespace mwc256xxa64

高速剰余算 div2by1 実装してみた

2024-03-26T01:02:51+09:00

div2by1というアルゴリズムがある -> https://gmplib.org/~tege/division-paper.pdf

これはBarrett reductionやMontgomery乗算と違い、

(k, k) -> 2k-bitの乗算器でk-bitの剰余算ができる(Barrett reductionは(2k, 2k) -> 4k-bitの乗算器を必要とする)
modが偶数でも動作する(Montgomery乗算はmodが奇数の必要がある)

という二つの性質を持つ。今回は次の6種類のプログラムを実装し、$(8 \times 10^{7})! \bmod 998244353$を計算して速度を比較した。

32-bit Montgomery
32-bit div2by1
mod < $2^{30}$という制約を仮定し32-bit div2by1をちょっと改造したもの
これら三種のアルゴリズムをAVX2で高速化したもの

ベンチマークのコード、およびdiv2by1改造版のpythonコードについては、div2by1 改造版 · GitHub

手元(Ryzen 5 5600X)、およびAtCoderのコードテストでの実行時間は次の通り。

	Local	AtCoder
naive	285ms	482ms
naive(const mod)	227ms	298ms
montgomery	202ms	257ms
montgomery AVX	28ms	51ms
div2by1	316ms	458ms
div2by1 AVX	42ms	107ms
my div2by1	292ms	383ms
my div2by1 AVX	52ms	83ms

次のようなことがわかる

そもそもnaive(=除算命令を使っているはず)が直観よりかなり速い。おそらくIce Lakeから除算が速くなったというやつ(Intel Ice Lakeのプロセッサは整数除算命令がアツい - chroot("/home/hibari"))。でもIce lakeの製造開始は2019年らしい、老人さん？笑
montgomery + AVX2が速すぎる。4倍速以上になるとは思ってなかった。
div2by1 あんまり速くない。montgomery速すぎ + AVXで高速化とかするならもうmod 998244353決め打ちで問題なさそう　であることを考えると正直出番がなさそうな

区間mul 区間積 O(log N)

2024-03-19T21:33:39+09:00

問題

長さNの整数列a_iが与えられます　$Q$個のクエリを処理してください

given l, r, x: $a_l \cdots a_r$を$x$倍
given l, r: $a_l \times a_{l+1} \times \cdots \times a_r \bmod 998244353$を出力

$O(\log N)$ per queryで解けるがおそらく$O( \log^{2} N)$と識別不可能。

ちなみに元ネタはこれ(解法は違う): 区間代入/区間積 Θ(logN)/query - noshi91のメモ

$O(\log^{2} N)$ 解法

普通に遅延伝搬segtreeに乗せる。ノードには区間の総積と区間の長さを乗せる。ACL風に書くとS = pair<modint, int>

作用(mapping)の中でpow_modを呼ばないといけないため$O(\log^{2} N)$になる

$O(\log N)$ 解法

作用が可換なので遅延伝搬しない遅延伝搬segtree(何て呼ばれてるんでしょうこれ)が使える。遅延伝搬しないverは次のようになる。もちろん素直に実装すると$O(\log^{2} N)$になるのだが、よく考えるとどちらも$O(\log N)$になる。

ノードごとに2つのmodint a, bを持つ。初期値はaが区間の総積でbが1

mul: [l, r]をsegtreeの区間に分割する。分割された区間、およびその区間を子孫に持つすべての区間についてb *= x^([l, r]と自分の区間の共通部分の面積)
prod: [l, r]をsegtreeの区間に分割する。分割された区間それぞれについて、自分と先祖のbのprodを求め、cとする。そしてa * c^(区間の長さ)を求める。これをすべての区間について掛け合わせる

mulについては次のように高速化する。

[l, r]を分割した区間: bにかかる係数はx^(2^i)の形になっているので、まとめて$O(\log N)$で前計算できる
それ以外の区間: 子のbにかかる係数の積を自分のbに掛ければよい

prodについては次のように高速化する。

cについてはdfsしながらまとめて計算できるので、結局ある数列$d_1, d_2, ..., d_k (k = \log N)$について $d_1 \times d_2^{2} \times d_3^{4} \cdots$ が求められれば良い。これは $d_1 \times square(d_2 \times square(d_3 \times ...)))$という形で計算すれば $O(\log N)$

AHC030 環境構築　振り返り

2024-02-21T04:40:22+09:00

AHC030に出て、11位でした。

自分は長期マラソンは殆どやったことがなく、2015年に3回topcoder MMに出たのが最初で最後(のはず)でした。なので今回のAHCで環境整備系も全て一からやることになりました。なのであえてそちらについての感想や振り返りを書きます。

コンテスト中に使ったもの、また時間があったら欲しかったもの、を個人的に重要だと感じた順番で書いています。

ローカルテスター

Psyhoさんも言っています(https://twitter.com/FakePsyho/status/1605639454600806401)が、ローカルテスターが一番重要な環境整備要素でした。自分は適当な100行程度のpythonコードを準備して、改変しながら使っていました。

絶対スコア / 相対スコアの一覧を(csv)出力する
実行時間の一覧を出力する
ケースをMでフィルターする

の3つの機能を含んでいて、今回の問題だとこれらは必須だと思います。

また、

テストケースの並列実行機能

は結局実装しなかったのですが(なんで？)、必須級だと思います。3秒 * 100ケース回すと5分待ちなので、効率がすごい落ちた自覚があります。

個人的には複数の問題に対応できる強力なものを整備するよりは、pythonコードやらなんやらを問題ごとに毎回改変していくのが楽そうだなぁと思っています

Jupyter notebook (IPython notebook)

ちょっとした実験をすぐ書けて、プロットも出来るので非常に便利なツールでした。自分は今回は

いろんなk, vで正規分布をプロットしてみる
テストケースのMの分布を調べる
その他細かい実験/計算

に使いました。インストールが簡単(vscodeならプラグイン入れるだけ)なので使い得だと思います。

でかつよCPU

先述の並列テストケース実行とも関係して、CPUは多ければ多いほどいいと思いました。先述のように自分の用意したローカルテスターは並列実行しないのですが、最終盤は結局そのローカルテスターをいろんなMに対して並列に走らせる、とかやっていてCPUが足りない状態になりました。

クラウドにデカいインスタンス借りてsshするのが"正解"なのは間違いないのですが、インスタンス立てたり落としたりするのがどうしても億劫な気持ちになってしまい…　手元のPCが強ければそれが一番良いのは間違いないと思います

でかつよクラウドインスタンス

上と同じ話です。最終盤は強いCPUか強いクラウドインスタンスのどちらかは欲しい

google spread sheet

先述のローカルテスターの出力を張ってスコアの比較に使っていました。最初のほうは快適だったのですが、画像のシート一覧を見るとわかるように終盤になるにつれて限界になっていきました。改善の余地がありそうです(がspread sheet職人はやりたくない　うーん)

順位表のスナップショット機能 (未実装)

今回の問題は相対スコアなので、順位表のスコアが常時変動します。特に「自分の提出で他の人の点数がどのぐらい変わったか」は、自分の提出がbestを含むかを含んでおり、重要な情報でした。

そのため、提出直前の順位表を保存しておく必要があったのですが、注意力が低く複数回失敗しました。

考えられる対策としては定期的に順位表のスナップショットを取るスクリプトを走らせればいいです。でもどのぐらいの頻度なら怒られないのか、とか、そもそも参加者がみんな個人で定期的にスナップショットを取るというのは変な話なので、公式でスナップショットを提供してくれたら嬉しいなぁと思っています。

マージテクの逆でよく出てくる"2個の木のうち小さいほうを探す"処理ってcoroutineと相性がいいよね

2024-01-13T08:03:50+09:00

背景

次のような問題を考えます

2個の木が与えられます。部分木の頂点数を$n, m$とした時に、$O(\min{(n, m)})$時間で小さいほうの部分木の頂点を列挙してください。

このような問題は「データ構造をマージする一般的なテクの逆」などと呼ばれるテクニックを使う問題で出てきます。具体例としては I - 盆栽が一番有名だと思います。

冒頭の問題ですが、解法自体は対して難しくなく、「2つの木に並列にBFS/DFSして、どちらかが終わったら打ち切ればいい」というだけの話です。ですがいざ実装をしようとするとなかなか面倒です。しかもウニグラフ等で計算量が壊れがちだったりして厄介です。

実はこの実装はcoroutineと呼ばれる概念と相性が良いです。coroutineはC++だとC++20で入った機能 + 主な用途が並列処理やI/O bottleneckの処理等なので、おそらく競プロでの知名度は低いと思いますが、大体の新しめの言語には実装されている機能です。

実際に冒頭の問題を実装することを考えます。まず、$O(\max{(n, m)})$時間かけていいときの実装例を示します。ただ愚直にdfsをしているだけです。

using Tree = vector<vector<int>>;

void list_vertex(const Tree& tree, int u, int p, vector<int>& result) {
    result.push_back(u);
    for (int v : tree[u]) {
        if (v == p) continue;
        list_vertex(tree, v, p, result);
    }
}

vector<int> small_tree_vertex(const Tree& tree1, const Tree& tree2) {
    vector<int> result1, result2;
    list_vertex(tree1, 0, -1, result1);
    list_vertex(tree2, 0, -1, result2);

    if (result1.size() < result2.size()) {
        return result1;
    } else {
        return result2;
    }
}

これをcoroutineを使って実装すると次のようになります。

using Tree = vector<vector<int>>;

// https://github.com/lewissbaker/cppcoro/blob/master/include/cppcoro/recursive_generator.hpp
cppcoro::recursive_generator<int> list_vertex(const Tree& tree, int u, int p) {
    co_yield u;
    for (int v : tree[u]) {
        if (v == p) continue;
        co_yield list_vertex(tree, v, p);
    }
}

vector<int> small_tree_vertex(const Tree& tree1, const Tree& tree2) {
    vector<int> result1, result2;
    auto co1 = list_vertex(tree1, 0, -1);
    auto co2 = list_vertex(tree2, 0, -1);
    for (auto it1 = co1.begin(), it2 = co2.begin();; it1++, it2++) {
        if (it1 == co1.end()) return result1;
        if (it2 == co2.end()) return result2;
        result1.push_back(*it1);
        result2.push_back(*it2);
    }
}

少しlist_small_tree_vertexがごちゃごちゃしましたが、これで $O(\min{(n, m)})$ 時間で動作します。並列BFSを実装したことがあればなかなか驚きの実装量だと思います。また、C++23ならばstd::views::zipを使えばより簡潔な実装になるはずです。

coroutineというのは、ざっくり言うと「途中で中断と再開」が可能な関数です。実際に、新しいlist_vertex関数は、「頂点を見つけたら(= co_yield uにたどり着いたら)その頂点を返して関数を中断、そしてit++が呼ばれたらdfsをそこから再開」という挙動をします。なので、list_vertexの帰り値を普通のイテレーターのように扱い、どちらかのイテレーターが末尾に到達したらそこまでの結果を返すだけでよいです。

なお、C++だと再帰関数をcoroutineにするにはcppcoro::recursive_generatorのような追加実装が必要なようですが、MITライセンスで公開されているので適切にやれば自分で実装しなくても大丈夫です。

実際に盆栽を解いたコードはこちらです: Submission #49240549 - 東京大学プログラミングコンテスト2014 。冒頭(286行目まで)にこのrecursive_generatorが張り付けられているのでウォっとなりますが、それ以降だけ見ると結構簡潔ではないでしょうか。

-march=native 諸々

2023-12-27T03:11:40+09:00

概要

-march=nativeについて色々調べた。

話題の発端

こちらのツイートであると思われる。

分からん
これ何かの未定義動作踏んでる？？ pic.twitter.com/ACV8fb8PjQ
— AllDirections (@AllDirections4) 2023年12月21日

シンプルなコードで、しかも-march=nativeを付けた場合のみ壊れる、ということで非常に力がある。自分もこれを機にmarchについて調べてしまった。

そもそもなぜ上記のコードは壊れているのか？

元のコードからC++要素を取り除くと次のようになる。もちろんこのコードも壊れていることがコードテストから確認できる。

#include <cstdio>
#include <cstring>
#include <cassert>

int main() {
    long long a[4] = {1, 1, 1, 0}, b[4];
    memmove(b, a, 4 * sizeof(long long));
    
    for (int i = 0; i < 4; i++) {
      printf("%lld ", b[i]);
    }
    printf("\n");
    return 0;
}

実際にアセンブリを確認すると (godbolt)、vpbroadcastq および vmovdqa で b を {1, 1, 1, 1}で上書きした後 b[3] に対して何もしていないことがわかる。

なお、-march=nativeが実際どう変換されているかはgcc -### -march=native /usr/include/stdlib.hで確認できる。AtCoderだと-march=icelake-server。

これと -march=native を付けた場合のみ壊れるという現象から、GCCのAVX512周りになにかバグがあるのだろうと検討が付く。実際にGCCのissue trackerを眺めると、どうやら今回のバグはこれっぽい 108599 – [12 Regression] Incorrect code generation newer intel architectures 。12.3で修正されているので、AtCoderのGCCがアップデートされればこの問題は解決されそう(いつだろう)。

-march=native -mtune=nativeってそもそも何？

とても雑に言うと

-march=native: コンパイルしたパソコン(のCPU)専用のa.outを作ってくれという命令。生成されたa.outを他のパソコンにコピーすると、動くかもしれないし動かないかもしれない。
-mtune=native: コンパイルしたパソコン(のCPU)向けのa.outを作ってくれという命令。生成されたa.outを他のパソコンにコピーすると、動くけどちょっと遅いかもしれない。

という認識。例えば上記のvpbroadcastq命令が動くパソコンは限られるため、-march=nativeを付けないと使用されない。

なお、x86 Options (Using the GNU Compiler Collection (GCC)) にあるように、-march=nativeは-mtune=nativeを含むため、両方指定する必要はない。

Specifying -march=cpu-type implies -mtune=cpu-type, except where noted otherwise.

-march=nativeって効果あるの？

GCC12からは次の理由で格段に効果が上がっている(GCC11までは-O3と組み合わせないと効果が薄い)。

-march=nativeで解禁される命令の大半は自動ベクトル化 (自動ベクトル化について: gcc での自動ベクトル化 Wiki - yukicoder )向けの命令である。
GCC11までは-O3を指定しないと自動ベクトル化がonにならなかったが、GCC12からは-O2でonになる。ただし-O3より自動ベクトル化のしきい値が高い(fvect-cost-model=cheap)。

おそらく最も効果があるものの一つはbitsetのand/or/xor/count/any/all等なので、 ABC 329 F で不正を試みる。自明な $O(NQ / w)$ 解をMLE対策に少し工夫して投げると、次のように

(C++20, -march=native): 1352ms / 4s AC https://atcoder.jp/contests/abc329/submissions/48871083
(C++17, -march=nativeなし): TLE(時々AC) https://atcoder.jp/contests/abc329/submissions/48871094

約3倍の高速化が確認できる。ただし、C++17でもpragmaをモリモリと付けるとACする

(C++17, pragmaモリモリ): 1767ms / 4s AC https://atcoder.jp/contests/abc329/submissions/48871873

さらに GCC optimize("Ofast")を付けると、C++20より速くなる。

(C++17, pragma, Ofast) 971ms https://atcoder.jp/contests/abc329/submissions/48871954

なんか実行時間がめちゃくちゃブレる(インスタンスガチャ？)ので、ブレの範疇な気もする　まったく同じコードを2回投げて 1359ms vs 1907ms とか出た ( https://atcoder.jp/contests/abc329/submissions/48871947, https://atcoder.jp/contests/abc329/submissions/48871969 )

(不正以外で)まともに効果がありそうなのは DP 系だろうか、modintをMontgomery乗算で実装するとSIMD(自動ベクトル化)と相性がいいという小ネタもあり、云々

-march=nativeでpragmaって代替きかないの？

大体聞きそうな気はする、懸念点は

こだわるとジャッジごとに異なるpragmaを用意する必要がありそうで、ダルい
-march=...とpragmaが本当に等価なのかわかってない(例えばyukicoderの記事には #pragma GCC optimize ("O3") は -O3 でのコンパイルとは異なるようです とある)
GCC13.2だとなんかpragma使えないかも？ https://twitter.com/yosupot/status/1730356100363645093

あたりだろうか

結局 -march=native って危険なの？

もちろんまともな根拠はなくただの直観になるが、「わずかに危険だけど、問題になることはほぼない」程度ではないかと思っている

Safe CFLAGS - Gentoo wiki Gentoo wiki曰く、-march=nativeはおススメである

A recommended default choice for CFLAGS or CXXFLAGS is to use -march=native

また、march=nativeのように"コンパイルしたパソコン専用に最適化"という概念自体もかなり使われているはず。確かrustだとcargo installでデフォルトで-march=native相当のオプションがonになったはず
そもそもGCCのバグに出会うのがレアイベント
- 自分は-march=nativeの有無でどうこうというのは初めて出会った気がする、記憶力がないだけか？
- AtCoderにGCC12と-march=nativeが導入される以前はノーカンという話もある。
一方で、pragmaで大体何とかなりそうだしわざわざ入れる必要がないのではという意見もありそう

皆さんの意見はどうでしょうか(ブン投げ)

FHC 2023 Final 反省会会場 / 並列化研究

2023-12-17T06:13:43+09:00

概要 / 言い訳タイム

FHC 2023 Finalの順位表を見ると、私がBをダウンロードだけして提出していないことがわかると思います。そもそもカクタス(F)をシバけないとどうしようもないセットではあったのですが、それでもBを出していれば一応5位で入賞であり、このムーブは奇妙です。

これ

実際何が起きたのかというと、普通にTLEしました。AC率からもわかるように最悪ケースを作るのが難しい問題ではないのですが、$N \times M \le 1{,}000{,}000$に対して $N = M = 300$がほぼ最悪ケースだと勘違いしました。このコンテストは世界top25のコンテストです。

反省

そもそもこのミスはリカバリー可能なはずでした。FHCは手元実行なので、適当にケースごとに並列化すれば容易に高速化できるはずです。この準備はしようしようと思っていたのですが、面倒でやらなかったらやられてしまいました。

というわけで、この記事はFHC用に並列化環境を整備する話になります。

成果物

成果物をFHC 2023 Qual A1問題に適応したのがこちらになります。

qual-A1.cpp · GitHub

非ライブラリ部分は次のようになります。

using namespace std;

void solve(auto input_end, auto output) {
    int s, d, k;
    cin >> s >> d >> k;
    input_end();

    int buns = 2 * (s + d);
    int patties = s + 2 * d;

    output([&] {
        if (buns < k + 1 || patties < k) {
            cout << "NO" << endl;
        } else {
            cout << "YES" << endl;
        }
        cout << flush;
    });
};

int main() {
    int t;
    cin >> t;
    fhc_solve([&](auto i, auto o){ solve(i, o); }, t);
    return 0;
}

可能な限り、「いつものように普通にsolve関数を書いたら、勝手に並列化される」に近いものを目指しました。

input_end()を入力が終わった後に呼ばないといけない
output()にラムダを渡して、そこですべての出力を行わないといけない
outputの最後で必ずflushしないといけない
multi-threadを使っているので、グローバル変数を書き換えたりすると、何が起きるかわからない
実行のたびに出力をファイルに全部保存して消してないので、出力が大きいとやばそう

などが残った制約です。代償としてライブラリ側はfreopenなどを乱用したコードになりました。

実行すると次のようになります

$ ./A1/main < A1/big.in > A1/big.out                    
Start FHC solver: tmp = "/tmp/output-14960984700273349145", parallel = 12
[#0] Start case: 1 / 79
[#0] End case: 1 (0 ms)
[#1] Start case: 2 / 79
[#1] End case: 2 (0 ms)
[#0] Start case: 3 / 79
[#0] End case: 3 (0 ms)
[#2] Start case: 4 / 79
[#2] End case: 4 (0 ms)
[#3] Start case: 5 / 79
[#10] Start case: 6 / 79
[#3] End case: 5 (0 ms)
[#1] Start case: 7 / 79
[#10] End case: 6 (0 ms)
[#5] Start case: 8 / 79
[#1] End case: 7 (0 ms)
:

私のPCは(論理)12コアなので、12並列でケースが実行されます。

Bに再挑戦

実際にBに再挑戦してみました、80s -> 28sなので、おおよそ3倍弱の高速化のようです。80sってそもそも間に合ってね？については、コンテスト中の6分間であわてて定数倍高速化した後のコードだからです(本当は一番最初のコードで試したかったのですが、上書きしていたため入手できませんでした…)。

旧
./B/main_single < B/test.in > B/test3.out  80.11s user 0.03s system 99% cpu 1:20.14 total

新
./B/main < B/test.in > B/test3.out  148.96s user 0.15s system 527% cpu 28.245 total

また、ログは次のような感じです。最大ケースのCase 31(N = M = 1000)に引っ張られていることがわかります。

:
[#4] End case: 98 (13 ms)
[#4] Start case: 99 / 100
[#4] End case: 99 (5 ms)
[#4] Start case: 100 / 100
[#4] End case: 100 (14 ms)
[#8] End case: 45 (1874 ms)
[#7] End case: 37 (11847 ms)
[#3] End case: 38 (11849 ms)
[#2] End case: 36 (11859 ms)
[#0] End case: 39 (11978 ms)
[#10] End case: 35 (12436 ms)
[#6] End case: 41 (12013 ms)
[#9] End case: 40 (12544 ms)
[#11] End case: 42 (12237 ms)
[#5] End case: 43 (11407 ms)
[#1] End case: 31 (28236 ms)
./B/main < B/test.in > B/test3.out  148.96s user 0.15s system 527% cpu 28.245 total

Eにも挑戦

また、結構実行時間がやばかったEに対してもやってみたところ…　MLEしました。

並列なしでメモリを4GBぐらい使うとんでもプログラムなので、12並列ならばさもありなんです。

3並列ならば、高速化が確認できました(155s -> 70s)。しかし、いざ本番でMLEで突然死、は困るので、この弱点の対応法は悩みどころです。~~48GB余裕なぐらいメモリ増設すればいいだけでは？~~ お安い対策としては、そもそもクラウドに巨大インタンスを借りてそこでやるなどが考えられます。ルール的にOKなのかは微妙ですが…

./E/main_single < ./E/big.in > ./E/big2.out  139.51s user 15.66s system 99% cpu 2:35.24 total
./E/main < ./E/big.in > ./E/big2.out  183.57s user 5.30s system 269% cpu 1:10.12 total

ログを確認したところ、一番時間のかかるケースは10s程度だったので、クラウド等にガチ強力インスタンス借りれば10s切れそうではある

[#0] End case: 15 (10019 ms)

遅延Segtree3

2023-12-09T01:06:58+09:00

大嘘昔話

実は「segtreeというのはモノイドを載せられて、lazysegtreeはそれにいい感じの作用が行えて…」のようにsegtreeが抽象化されたのは割と最近です。昔はなんかsegtreeって大体実装一緒だな…と思いながら、みな自分のstarryskytree.cppを毎回コピペして適当に書き直して使っていました。

もちろん適切にクラス等を使って最強のsegtreeを作れば勝ちまくりモテまくりであることには皆薄々気づいており、私もそのような夢を追い求める若者の一人でした。その名残がこちらです。

2023年

時は2023年、昔はC++11の機能は新しいといわれていましたが、今ではC++20がどこのジャッジでも使えます(正確には使えないジャッジは引退しました)。C++20と言えばconcept、今回は昔を思いながら、conceptの勉強がてら抽象化segtreeに挑戦してみました。

上の遅延SegTree / 遅延Segtree2にあるように、大体実装方法は

structを自分で定義してそれをsegtreeに渡す
lambda/関数を演算の個数だけ用意して一気にsegtreeに渡す

の2種類だと思うんですが、今回は両方できるようにしてみました。2018年ならいざ知らず同様の実装がそこら中にあると思う。

コード

こちらです。

#include <vector>
#include <iostream>
#include <numeric>

template <class T>
concept monoid = requires (T& x, typename T::S s) {
    { x.op(s, s) } -> std::same_as<typename T::S>;
    { x.e() } -> std::same_as<typename T::S>;
};

template <monoid M>
struct SegTree {
    using S = M::S;

    M m;
    std::vector<S> v;

    SegTree(M _m, std::vector<S> _v) : m(_m), v(_v) {
    }

    S all_prod() {
        // TODO optimize :)
        S val = m.e();
        for (auto x : v) {
            val = m.op(val, x);
        }
        return val;
    }
};

template <class T, class OP, class E>
struct LambdaMonoid {
    using S = T;
    S op(S a, S b) { return _op(a, b); }
    S e() { return _e(); }

    LambdaMonoid(OP op, E e) : _op(op), _e(e) {}
  private:
    OP _op;
    E _e;
};
template <class OP, class E>
LambdaMonoid(OP op2, E e2)->LambdaMonoid<decltype(e2()), OP, E>;

// --- ここまでライブラリ ---

struct AddInt {
    using S = int;
    S op(S a, S b) { return a + b; }
    S e() { return S(0); }
};

int main() {
    std::vector<int> v(10);
    std::iota(v.begin(), v.end(), 0);
    SegTree seg0(AddInt(), v);

    SegTree seg1(
        LambdaMonoid([&](int a, int b) { return a + b; }, [&]() { return 0; }),
        v);

    std::cout << "sum(1..10) = " << seg0.all_prod() << std::endl;
    std::cout << "sum(1..10) = " << seg1.all_prod() << std::endl;

    return 0;
}

タイトルに遅延segtreeとありますが、シンプルに詐欺です。普通のsegtreeしか試してみていません。

解説

まず、最初の数行がいきなり重要です

template <class T>
concept monoid = requires (T& x, typename T::S s) {
    { x.op(s, s) } -> std::same_as<typename T::S>;
    { x.e() } -> std::same_as<typename T::S>;
};

template <monoid M>
struct SegTree {
    using S = M::S;

    M m;
    :

これは、monoid conceptを定義し、struct SegTreeがこのmonoid conceptを満たすMしか受け取れないようにしています。Mがmonoid conceptを満たすとは、

using S = hoge として値の型が定義されている
op(S, S) -> Sをメンバとして持つ
e() -> Sをメンバとして持つ

という、大体atcoder libraryと同じ定義です。例えば下のほうにあるstruct AddIntがmonoid conceptを満たします。

struct AddInt {
    using S = int;
    S op(S a, S b) { return a + b; }
    S e() { return S(0); }
};

なので、こういうAddInt構造体を用意して、main関数の最初で行われているように

    std::vector<int> v(10);
    std::iota(v.begin(), v.end(), 0);
    SegTree seg0(AddInt(), v);

と書けば[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]の格納されたsegtreeが出来ます。

また、わざわざstruct AddIntのようにstructを定義しなくても、ラムダ式を書き並べるだけでsegtreeを使うこともできます。

    SegTree seg1(
        LambdaMonoid([&](int a, int b) { return a + b; }, [&]() { return 0; }),
        v);

これがどういう仕組みかというと、ラムダ式を受け取ってmonoid structのようにふるまうLambdaMonoidもライブラリ側に用意しておきました。

template <class T, class OP, class E>
struct LambdaMonoid {
    using S = T;
    S op(S a, S b) { return _op(a, b); }
    S e() { return _e(); }

    LambdaMonoid(OP op, E e) : _op(op), _e(e) {}
  private:
    OP _op;
    E _e;
};
template <class OP, class E>
LambdaMonoid(OP op2, E e2)->LambdaMonoid<decltype(e2()), OP, E>;

応用編として、「pair<S, S>を使うことで一般のモノイドをReverse可能なモノイドに変換するやつ」とかが実現できると思っています。なんのこっちゃという話ですが、平衡二分木でこういうのが欲しくなります。

template <monoid M> struct AttachReverse {
    using S = std::pair<M::S, M::S>;
    S op(S a, S b) { return {m.op(a, b), m.op(b, a)}; }
    S e() { return {m.e(), m.e()}; }

    S rev(S a) { return {a.second, a.first}; }

    AttachReverse(M _m) : m(_m) {}

  private:
    M m;
};

結論

全てが懐古

Weighted balanced binary tree の平衡条件をWolfram Engineで

2023-12-07T23:16:54+09:00

注: ガチ誰得記事

Weighted balanced binary treeという平衡二分探索木があります。詳細はwikipedia(Weight-balanced tree - Wikipedia)が詳しいのですが、ざっくり言うと

「子のサイズが親のサイズの少なくとも $\alpha$ 倍」
もしくは同値な表現として「左右の子のサイズが高々 $\frac{1}{\alpha} - 1$ 倍しか違わない」

という平衡条件の木です。ここで、サイズというのは葉にのみ値を載せる木ならば葉の個数、全部の頂点に値を載せる木ならば(頂点の個数) + 1とします。

$\alpha$ を大きくすればするほど回転が増える代わりに強く平衡(=木の高さが低くなる)し、$\alpha$ を小さくすればするほど回転が減る代わりに平衡が弱くなります。

このサイズ情報はまず間違いなく競技プログラミングだと管理する(K番目のアクセスに必要なため)ので、赤黒木等と違い追加メモリが実質0と言う利点があります。カロリー0!

この木は強そうなのですが、うまく動く証明が難しいです。葉にのみ値を載せる木の場合のmerge関数はたとえば次のようになります。

Node* merge(Node* l, Node* r) {
    if (is_balanced(l->size, r->size)) return make_node(l, r);
    if (l->size > r->size) {
        auto x = l->l;
        auto y = merge(l->r, r);
        if (is_balanced(x->size, y->size)) return make_node(x, y);
        if (is_balanced(x->size, y->l->size) && is_balanced(x->size + y->l->size, y->r->size)) return make_node(make_node(x, y->l), y->r);
        return make_node(make_node(x, y->l->l), make_node(y->l->r, y->r));
    } else {
        ...
    }
}

このコードはどういうことかというと、lとrをマージしたい時、

lとrをそのままマージして問題ない: マージする
lがrに対してデカすぎてマージできない場合は、l->rとrを再帰的にmergeする。そしてl->lをx、merge(l->r, r)をyとする。
a = x, b = y->l->l, c = y->l->r, d = y->rとして、下図の3つの木のうち、少なくともどれか一つはうまくバランスしている。

という、大変魔法のようなマージ関数になります。

もちろん、任意の $\alpha$ についてこのmerge関数が動くわけではなく、wikipediaにあるように $0 \lt \alpha \lt 1 - \frac{1}{\sqrt{2}}$ ならば動きます。

今日はこの事実をWolfram Engine (Wolfram Engine) を利用して確かめていきましょう。

変数 t を $\frac{1}{\alpha} - 1$ とします、つまり左右の子は高々 t 倍しかサイズが違わないという意味です。
変数 a, b, c, d を上図の a, b, c, d のサイズとします
変数 e を r のサイズとします。つまり l のサイズは a + b + c + d - e です。

まず、次のことが言えます

lは r より t 倍以上大きい: (a+b+c+d-e) > t e
元々 l->lとl->rはバランスしていた: a <= t(b+c+d-e) && t a >= (b+c+d-e)
bとcはバランスしている: b <= t c && t b >= c
b + cとdはバランスしている: (b+c) <= t d && t(b+c) >= d

そしてこの条件下で

図の一番上のマージが失敗する = (aとb+c+dがバランスしていない): (t a < b+c+d || a > t(b+c+d))
二番目のマージが失敗する = (aとb+cがバランスしていない OR a+b+cとdがバランスしていない): (t a < b+c || a > t(b+c) || t(a+b+c) < d || a+b+c > t d)
三番目のマージが失敗する = (aとb / cとd / a+b と c+d のどれかがバランスしていない): (t a < b || a > t b || t(a+b) < c+d || a+b > t(c+d) || t c < d || c > t d )

これを全てまとめてwolfram engineに投げると次のようになります

In[1]:= Resolve[Exists[{a, b, c, d, e}, 1 <= t && 0 <= a && 0 <= b && 0 <= c && 0 <= d && 0 <= e && (a+b+c+d-e) > t e && a <= t(b+c+d-e) && t a >= (b+c+d-e
) && b <= t c && t b >= c && (b+c) <= t d && t(b+c) >= d && (t a < b+c+d || a > t(b+c+d)) && (t a < b+c || a > t(b+c) || t(a+b+c) < d || a+b+c > t d) && (t
 a < b || a > t b || t(a+b) < c+d || a+b > t(c+d) || t c < d || c > t d )], t]

Out[1]= 1 <= t < 1 + Sqrt[2]

というわけで、$1 + \sqrt{2} \le t$、つまり$\alpha \le \frac{1}{2 + \sqrt{2}} = 1 - \frac{1}{\sqrt{2}}$ならば正しく動くことがわかりました。

結論: wolfram engineってすごい

データ構造をマージする一般的なテクを高速化するやや一般的なテク

2023-11-30T01:38:08+09:00

知る人ぞ知る謎の知識みたいになってる気がしたのでメモ。

サイズ $A$ とサイズ $B$ のデータ構造 ($A < B$) が $O(A \log B)$ 時間でマージできる場合、合計 $O(N \log ^2 N)$ 時間で $N$ 個の要素がマージできます。競プロだと std::set や std::priority_queue などです。

ここで、もしもマージが $O(A (\log B - \log A + 1))$ に高速化できたならば、合計の計算量が $O(N \log N)$ になります。証明は普通のデータ構造をマージする一般的なテクとほぼ同じで、ある要素を含むデータ構造のサイズが $1 \to x \to y \to N$ と成長したなら、この要素にかかる計算量は $(\log x - \log 1 + 1) + (\log y - \log x + 1) + (\log N - \log z + 1) = O(\log N)$ 、といったノリです。

でも$O(A (\log B - \log A + 1))$ なんて謎の計算量なんて…と思うかもしれませんが、実はかなり多くのデータ構造がこの計算量を達成できます。すごいですね。

平衡二分木の merge / split が登場してややこしいので、データ構造をマージする操作を meld と呼ぶことにします

二分ヒープ

std::priority_queue の中身です。(自分で std::priority_queue 相当のものを実装する必要がありますが)実はpriority_queue + マージテクは $\log$ 一個です。でも $O(N \log ^2 N)$ のマージがそもそも爆速だからうまみが少なそう。

まず、二分ヒープを線形時間で構築するアルゴリズムを理解する必要があります。たとえば下のコードのようになります。

void down_heap(vector<int>& d, int u) {
    int n = int(d.size());
    while (2 * u + 1 < n) {
        int v = (2 * u + 1);
        if (v + 1 < n && h.d[v] < h.d[v + 1]) v++;
        if (h.d[u] >= h.d[v]) break;
        swap(h.d[u], h.d[v]);
        u = v;
    }
}

void build_heap(vector<int>& d) {
    int n = int(d.size());
    for (int i = n - 1; i >= 0; i--) {
        down_heap(d, i);
    }
    return h;
}

「ある頂点について、葉の方向に自分より大きい要素とswapしていく」down_heap関数を、葉から順に全ての頂点に呼ぶと二分ヒープが構築できます。計算量は各頂点の「葉までの距離」の総和になり、式をコネコネすると線形時間であることがわかります。

meld関数のコードは次のようになります。

void meld(vector<int>& h, vector<int>& other) {
    if (h.len() < other.len()) swap(h, other);
    if (other.empty()) return;

    int l = int(h.size()), r = l + int(other.size()) - 1;

    h.insert(h.end(), other.begin(), other.end());

    while (l) {
        l = (l - 1) / 2;
        r = (r - 1) / 2;
        for (int i = r; i >= l; i--) {
            down_heap(h, i);
        }
    }
}

これは何をしているのかというと、小さいほうのヒープの要素を適当に大きいヒープの末尾に追加した後、「新しく追加した要素を子孫に持つ要素」全てに対して先述のdown_heap関数を呼んでいるだけです。計算量ですが、各頂点についてmin(other.size(), 葉までの距離)であること、そしてこれの総和が上記の $O(A (\log B - \log A + 1))$ になることが示せます。

std::set (by merge-split baseの平衡二分木)

std::setも、自作の平衡二分木で実装することで $O(A (\log B - \log A + 1))$が達成できます。まず、一般に merge-split base の平衡二分木ならなんでも可能な(ハズの)方法を紹介しますが、おそらく定数倍はとても悪いです。

$A \le \sqrt{B}$ の場合は愚直に $A$ 回 insertすればよいので、$\sqrt{B} < A$ としてよい。

サイズ $B$ の木をサイズ $B / A$ (ぐらい)の木に $A$ 分割する。
- 愚直にsplitを使うと $O(A \log B)$ だが、例えば8分割したいなら (2分割 => それぞれを2分割 => それぞれを2分割)、のように、なるべくsplitする木のサイズが小さくなるように切っていくと $O(A (\log B - \log A + 1))$ になる
分割した木それぞれに対して、サイズ $A$ の木の(対応する値の範囲の)要素を追加していく
- 追加する要素が $B / A$ 個以下なら愚直にinsert
- 追加する要素が $B / A$ 個以上なら(両方の木をvectorにする) => (std::merge) => (vectorを長さ $B / A$ のブロックに分割する) => (それぞれのブロックから、線形時間で新しい木を構築する)で、線形時間でマージする
分割した木たちを(splitと同様に、いい感じに)マージして新しい木を作る。
- サイズが $(B / A)$以上$2(B / A)$以下の木たちのマージになり、splitと同様の計算量解析が可能

で$O(A (\log B - \log A + 1))$ になっている…ハズ

std::set (by merge-split baseの多くの平衡二分木)

葉にだけ値を持たせる赤黒木など、サイズ $L, R (L < R)$の木のmerge (not meld)が $O(\log R - \log L + 1)$であることが保証可能な平衡二分木は割と簡単に実装できます。(参考: https://www2.ioi-jp.org/camp/2012/2012-sp-tasks/2012-sp-day4-copypaste-slides.pdf) このような平衡二分木なら、次のような割と素朴なmeld関数が上手くいくはずです。

Node* meld(Node* n, deque<int>& q) {
    while(q.size() && q.front() == n->val) q.pop_front(); // multisetにしたい場合はこの行を消す
    if (n->val < q.front()) return n;
    if (is_leaf(n)) {
        vector<int> v;
        while (q.size() && q.front() < n->val) {
            v.push_back(q.front()); q.pop_front();
        }
        return merge(build_tree(v), n); // build_tree(v): |v|時間で木を構築する関数
    }
    Node* l = meld(n->l, q);
    Node* r = meld(n->r, q);
    return merge(l, r); // (1)
}

Node* meld(Node* n, Node* m) {
    if (n->size < m->size) swap(n, m);
    deque<int> q = to_deque(m); // to_deque(m): mの要素を舐めて(sortedな)dequeを線形時間で生成する関数
    n = meld(n, q);
    return merge(n, build_tree(q));
}

まず、meld関数が呼ばれる回数は、n->sizeが $B / A$以上かどうかで場合分けすれば示せます。

n->size が $B / A$ 以上 : そもそもこういう頂点は $O(A)$ 個しかない
n->size が $B / A$ 未満: 高さが $O(\log (B / A)) = O(\log B - \log A + 1)$ なので合計 $O(A (\log B - \log A + 1))$

コード中の(1)の部分の計算量が本質です。ここで、merge関数の計算量により、meld前後で木のサイズが $k$ 倍に増えていたら (1) の部分の計算量が $O(\log k)$ であることを利用します。

木のサイズが $2$ 倍以上に増えるような頂点数は？: 高々 $O(A)$
木のサイズが $4$ 倍以上に増えるような頂点数は？: 高々 $O(A / 2)$
:

より、(*)の部分の計算量の合計は(meldが呼ばれた回数に加えて)高々 $O(A)$ です。

std::set (by splay-tree)

は愚直に小さいほうの集合を昇順(or 降順)にinsertしていくだけで $O(A (\log B - \log A + 1)$ って噂を聞いたんですが、本当かわかりません。

std::set (by treap)

は割と容易に $O(A (\log B - \log A + 1)$ のmeldが書けるって聞きました。いかがでしたか

UCUP 2-11 (Nanjing) E: Extending Distance / 最小費用流の双対

2023-11-27T23:08:16+09:00

久しぶりですごい時間がかかったのでメモ

大体次の問題。

$N$ 頂点 $M$ 辺の有向グラフと非負整数 $K$ が与えられる。各辺には非負整数の重みが付いていて、辺 $e$ の重みを $d_e$ とする。$K$ は $1 \to N$ の最短距離より小さくない。 $1$ 円払うと好きな辺の重みを $1$ 増やせる時、頂点 $1$ から $N$ の最短距離を $K$ にするために必要な最小コストは？ 構築あり: 各辺について何回伸ばすかも復元する必要あり

まず、この問題はほぼ最小費用循環流の双対問題そのものなので、構築がなければ難しくない。というか大体コレ J - Longest Shortest Path

最小費用循環流:

$N$ 頂点 $M$ 辺の有向グラフが与えられる。各辺 $e$ には非負の容量 $c_e$ と(非負とは限らない)コスト $d_e$ が付いている。辺ごとに $0 \le f_e \le c_e$を満たす流量 $f_e$ を割り当てる。頂点ごとに流量の出入りが等しい必要がある。 $\sum_e f_e d_e$を最小化せよ。

最小費用循環流の双対問題:

$N$ 頂点 $M$ 辺の有向グラフが与えられる。各辺 $e$ には非負整数 $c_e$ と整数 $d_e$ が付いている。頂点ごとにポテンシャル $p_v$ を割り当て、$- \sum_{e = (u \to v)} c_e \max(0, p_v - p_u - d_e)$ を最大化せよ。

この2つの問題はLP双対から得られる問題である。そのため、同じグラフに対するこの2つの問題の答えは必ず一致する。なお、(答えが $-1$ 倍されるが)後者の目的関数は「$\sum_{e = (u \to v)} c_e \max(0, p_v - p_u - d_e)$ を最小化」としたほうが見通しがいいと思う。参考: 双対性 | PPT 。

今回の問題

は、牛ゲー(最短経路問題の双対)に思いを馳せると、$(u, v, c, d) = (N, 1, \inf, -K), (1, N, \inf, K)$ の $2$ 辺を追加して、最小費用循環流の双対問題を解けばよいことがわかる。追加した $2$ 辺は $p_N - p_1 = K$という制約を追加することに対応する。これは普通の逐次最短路法+少しの工夫でもいいし、強力なアルゴリズムを用いてもいい (参考: https://judge.yosupo.jp/problem/min_cost_b_flow 周りの諸々)。つまり、この問題の本質は「最小費用循環流の双対問題の解 $p_v$ をどうやって復元するのか？」という点になる。

$p_v$ の復元方法

結論から言うと、大体のライブラリは内部にこの $p$ を変数として持っているし、最小費用循環流を流せるだけ流した後にベルマンフォード法を行えば直接求まる。どういうことだろうか？

まず、最小費用循環流の基礎として、次が成立する。

最小費用循環流において、ある流量 $f$ が最適解である $\Leftrightarrow$ 残余グラフに負閉路が存在しない

($\Rightarrow$)は自明、($\Leftarrow$)は自明ではないけど、現在の流量 $f$ と最適解の流量 $f'$ の差分に注目すると示せる。

また、負閉路が存在しない、またその時のみ、残余グラフの(容量が $0$ でない)各辺について $p_v - p_u - d_e \le 0$ を満たすポテンシャル $p$ が存在する。これはベルマンフォード法などで計算可能。また、このポテンシャルは多くのライブラリが内部に直接変数として持っている。

逆に言うと、流量条件を満たす流量 $f$ と、$f$ の残余グラフにおいて $p_v - p_u - d_e \le 0$を満たすポテンシャル $p$ が見つけられたなら、そのペア $(f, p)$ は $f$ が最適解であるという証拠になる。…というわけで https://judge.yosupo.jp/problem/min_cost_b_flow では、流量 $f$ に加えてこのポテンシャル $p$ も復元させている。

2つのポテンシャル

この記事では $2$ つのポテンシャル $p$ が登場している。ひとつは「最小費用循環流の双対問題」で紹介した $p$ であり、これが今回の問題を解くために必要なものである。もう一つは最小費用循環流の最適解の残余グラフにベルマンフォード法を行うと計算可能な $p$ である。後者が計算可能なのはわかったが、どうやって前者を計算すればいいのか？実は後者の $p$ をそのまま前者の $p$ にすればいい(ええー！)

今までの話を再度まとめる。

計算可能なことがわかっているもの : 次の条件を満たすペア $(f, p)$

各辺 $e$ について、$0 \le f_e \le c_e$
各頂点について、流量の出入りの総和が等しい
$f_e > 0$ を満たす辺 $e = (u \to v)$ について、$p_u - p_v + d_e \le 0$
$f_e < c_e$ を満たす辺 $e = (u \to v)$ について、$p_v - p_u - d_e \le 0$

ここで、「最小費用循環流」の答えは $\sum_e f_e d_e$ となる。

計算したいもの: $\sum_{e = (u \to v)} c_e \max(0, q_v - q_u - d_e)$ が「最小費用循環流の答えの $-1$ 倍」となる $q$。

証明したいこと: $p$が求める $q$ のうちひとつであること。つまり、$\sum_{e = (u \to v)} c_e \max(0, p_v - p_u - d_e)$ = $- \sum_e f_e d_e$ を示せればよい。

証明

$f_e < c_e$ならば、$p_v - p_u - d_e \le 0$、つまり $\max(0, p_v - p_u - d_e) = 0$であるので、$\sum_{e = (u \to v)} c_e \max(0, p_v - p_u - d_e)$

$= \sum_{e = (u \to v)} f_e \max(0, p_v - p_u - d_e)$ となる。

また、$f_e > 0$ならば $p_v - p_u - d_e \ge 0$ なので、

$= \sum_{e = (u \to v)} f_e (p_v - p_u - d_e)$ となる。

そして、$f$ を単純閉路に分解して考えることで

$= \sum_{e = (u \to v)} - f_e d_e$

が言えるため、示せた。

結論

https://judge.yosupo.jp/problem/min_cost_b_flow を解くライブラリを準備(or 何らかの方法で入手)しておけば、張ると通る

こういう出題は許されるのか？⇒競プロで学ぶ統計学でした？

2023-09-20T00:07:50+09:00

AtCoderではともかく、ほかのジャッジでは想定解の正当性の保証がされていない出題が行われることがあります。想定解の正当性の保証が出来ていなくても、ジャッジが大量にケースを入れてちゃんと動いたからOK!という出題は可能なのか考えてみます。例えば色々こだわると、次のような出題になると思います。

問題

長さ10000の数列が与えられる。各要素はそれぞれ1以上10000以下の整数である。次の条件を満たす部分列を探し、見つけたら出力せよ。

条件: ナンタラカンタラ

ジャッジ方法

あなたの提出は次のようにジャッジされる。

以下を独立に100回行う。あなたのコードが少なくとも30ケースに対して正しい部分列を出力していた場合、ACとする。

ランダムケースを一様に$[1,10000]^{10000}$からジャッジが生成する。これは事前に作成されたものではなく、ジャッジごとに新たに作り直される。

このランダムケースをあなたのコードに入力し、部分列を出力した場合それが正当かを検証する

解説

解法コードについて、$[1, 10000]^{10000}$について正しい部分列を出力するケースの割合を $p$ とする。これはその解法コードのランダムケースに対して正しく動く確率である。

もし確率$p \geq 0.5$で正しい部分列を出力する解があれば、そのコードは<十分高い確率>でACする。

私たちジャッジは次のヒューリスティックを行う解答を用意しました。

ヒューリスティック: ナンタラカンタラ

そして、この解答に同様にランダムケースを5000ケース入力したら、4000ケースに対して正しい部分列を出力した。もしこの想定解法が正しく動く確率$p$が$p < 0.5$ならば、ランダムケースを5000ケース入れて4000ケースに対して正しく動く確率は<ハチャメチャ低い確率>である。よって、このジャッジ解は$p \geq 0.5$であると考えられる。

疑問

このような問題は許容されるのか？
「よって、このジャッジ解は$p \geq 0.5$であると考えられる。」これはどういうことなの？
許容される場合、ジャッジが事前に行うべきテストの量(今回でいうと4000/5000AC)は何らかの式で計算できるのか？

考察: 大嘘解法の可能性は消せない

例えば想定解が$p=0.01$であったとしても、確率$0.01^{5000}$で5000ケースに連続ACする。つまり、想定解が大嘘である可能性というのは0には出来ない。

一方で、宇宙線、突然writerの頭に隕石が、AtCoderがハッキングを食らう、など、そもそもコンテストが台無しになる可能性がそもそもそれなりにある。

典型ミス: 「想定解は(ハチャメチャ低い確率)でp < 0.5」を言うには追加の仮定が必要

P(4000ケースAC | ($p \geq 0.5$))とP(($p \geq 0.5$) | 4000ケースAC)は違うという話。例えば、

こういう問題を作る
$p=0.01$の解法を作って5000ケース入れる
4000ケースACしたら出題

これをとんでもない回数、例えば$100^{5000}$回行うと、このような問題が大量に出題され、そしてその全てが$p = 0.01$の大嘘解法となる。

もちろんこれは$100^{5000}$回の試行を要求している時点で非現実的である。全く効果のない薬をたくさん作ってテストし続けるとどれかは効果がありそうな結果が出てくる、というのと似た話。

「4000/5000ケースACした」かつ「大量に試行していない」 => 「想定解は$p < 0.5$であると考えられる」
「4000/5000ケースACした」かつ「$p$の事前分布が一様分布であると仮定する」 => 「想定解は(ハチャメチャ低い確率)で$p < 0.5$」

のように、追加で何らかの仮定が必要で、「4000/5000ケースACした」だけから「想定解は(ハチャメチャ低い確率)で$p < 0.5$」は数学的には言えない…ハズ

有意水準

$p$の事前分布はわからないだろうし、(今現在の)競プロ界隈のスタンス的に「writerが大量に試行していないから正しい」も広く受け入れられないと思う。なので$p$についてなにも言えなくて困る…と思いきや、こういう時のために有意水準というのがあるらしい(統計初心者)。つまり、「$p < 0.5$なのに4000/5000ACするとんでもない確率を引いた」or「$p \geq 0.5$である」　ということならば言えるので、これで物事をやっていこうという話。

「確率 $q$ を引いた」or「X」が言えたとして、例えば $q$ が一生かけても引けないぐらいの確率(例: (1000年 / 試行にかかる時間) * q < 1)ならXは正しいと仮定して人生に問題はない？(例: 隕石は衝突しないと思い込んで行動しても人生に問題はない？)

薬の検定などと違い、テストケースをいくらでも簡単に増やせるのが強みで、それこそ$q \leq 2^{-256}$とかが達成できる問題も少なくないと思う。世の中は$2^{-256}$は起こらないということで回っているはず(例: 適当にEd25519の秘密鍵を当てられる確率が$2^{-256}$)なので、これなら大丈夫そう。

結論

「$p < 0.5$なのに4000/5000ACするとんでもない確率を引いた」or「$p \geq 0.5$である」　ということならば言える。
こういう思想を(競プロで)許すか、許すとしてどのぐらいの確率からは個人次第。

自分の思想: とんでもない確率が$2^{-64}$とかならOK

思想についての余談

そもそも乱択に関する思想
- 想定解の通る確率がケースごとに$p$以上が証明できていればOK派閥
- 想定解の通る確率が全体で$p$以上が証明できていればOK派閥
  - ロリハ使うならケース数を公開しろ派閥がおそらくここ
- 想定解は決定的(=確率1)アルゴリズムであるべき派閥
(1, 2番目の思想の場合)許せる確率$p$はいくつか
- 全体で$\frac{1}{1000}$とか
- 全体で$2^{-64}$とか(ハッシュの衝突など、世の中で0とされている確率ぐらい)
- Full feedbackかにも依存しそう

自分の思想: ケースごとに$10^{-6}$ぐらいならええやろ派閥

ちょっと速いかもしれないローリングハッシュ

2023-08-06T18:19:42+09:00

追記：速くなってませんでした！sorry https://x.com/yosupot/status/1689337328547016704?s=20

競技プログラミングではmod 2⁶¹ - 1のローリングハッシュが安全性と速度のバランスが良く、広く使われています。　詳しくは https://qiita.com/keymoon/items/11fac5627672a6d6a9f6 などの記事が有用です。

このmod 2⁶¹ - 1のmodintをより高速化することを試みます。先ほどの記事や、適当にライブラリを確認すると*1 *2、乗算は以下の実装方法が広く使われています

using u64 = unsigned long long;
using u128 = unsigned __int128;

const u64 MOD = (1ULL << 61) - 1;

u64 mul(u64 a, u64 b) {
    u128 t = (u128)(a) * b;
    t = (t >> 61) + (t & MOD);

    return (t >= MOD) ? t - MOD : t;    
}

ここで、値をそのままではなく8倍して管理することを考えます。こうするとif (t >= MOD)相当の処理がoverflow checkになり、雰囲気的に良さそうな気がします。

u64 mul2(u64 a8, u64 b8) {
    u128 c = (u128)(a8) * b8;

    u64 x = (c >> 67 << 3), y = (c << 61 >> 64);

    u64 z;
    if (__builtin_uaddll_overflow(x, y, &z)) z -= MOD << 3;

    return z;
}

u64 mul(u64 a, u64 b) {
    u64 t = mul2(a * 8, b * 8) / 8;
    if (t == MOD) t = 0;
    return t;
}

実際に確認してみましょう。

godbolt.org

mul2のほうがめちゃくちゃすっきりしているのが確認できます。マジックナンバーがなく、本当に正しいのかこれという感じですが、読むと正しそうに思えます。

実際に O(N log² N) SAを実装してみます

before 4368ms: https://judge.yosupo.jp/submission/154054
after 3692ms: https://judge.yosupo.jp/submission/154056

2割ほど早くなりました

注記

まだあんまり使ってないので、バグってるかも
そもそも従来のmodintのほうに改善の余地がありそう？tweet
値を[0, MOD]で管理する都合上比較が汚くなってしまう　これなんとかなるのかな？ -> https://twitter.com/noshi91/status/1688130780718092288

*1:https://nyaannyaan.github.io/library/internal/internal-hash.hpp

*2:https://hitonanode.github.io/cplib-cpp/number/modint_mersenne61.hpp.html

Multiuni 2020 Day10 F

2023-02-17T01:28:42+09:00

問題概要

問題

長さNのカッコ列 $a_1,a_2,\cdots,a_n$ が与えられる。これは正しく閉じているとは限らない。各文字は32bit非負整数の重み $b_1,b_2,\cdots,b_n$ を持っている。

カッコ列Sに対して、 $f(S)$ を次のように定義する

$S$ が ()を部分文字列として持っているかぎりそれを削除し続ける、その時の最終的な文字列。

$f(S)$はどのindexの文字を残すかまで含めて一意に定まることに注意。

次の $Q$ 個のクエリを処理。

1 x y: $b_x$を $y$ に変更する(問題文には $a_x \to 1 - a_x$ もすると書かれているが、これは嘘)
2 l r: $f(S[l..r])$ の重みを $c_1, c_2, \cdots, c_k$ としたときの、$\max (c_1, c_2, \cdots, c_k), \mathrm{nand}(...\mathrm{nand}(\mathrm{nand}(2^{32}-1, c_1), c_2), ..., c_k)$を求める。この2つをxorしたものを出力する。
3 l r: $l..r$文字目と$r+1..n$文字目が入れ替わるようにswapする

制約

$N \leq 2 \times 10^{6}$
$Q \leq 2 \times 10^{5}$

解法

クエリ2で求めるmax / nandは共にモノイドの演算として考えることができる。

カッコ列から () を取り除き続けたときの最終的な文字列の長さが平衡二分木に乗るのはそこそこ有名。最終的な文字列は ))..)(..((という形になるので、 )と ( の個数を x, y とすると、 op((lx, ly), (rx, ry)) = (lx + rx - min(ly, rx), ly + ry - min(ly, ry) のような演算ができる。

今回の問題で同様のことをすると、ノードごとに

))..)の長さ ln
((..(の長さ rn
))..)の重みの総和 lval
((..(の重みの総和 rval

を持たせたくなるけど、これだとうまくノードがマージできない。

ここで、次の3つのパターンに限ればmerge可能なことに注目する。

l->rn = 0
r->ln = 0
l->rn = r->ln

「すべての葉以外のノードがこの3つの条件のいずれかを満たす」ような、葉に値を持たせる平衡二分木を管理する。

この追加条件を保つようにsplay treeを改造する。

方針としては、次のクエリを実装する。

lsplit(node, k): ノードを2つに分割する。左のノードに対応する文字列 $S$ について、$f(S)$ は ))..) ($k$ 文字)。
rsplit(node, k): ノードを2つに分割する。右のノードに対応する文字列 $S$ について、$f(S)$ は ((..(($k$ 文字)。

これらの関数が実装できると、通常の平衡二分木のようにmergeが実装できる。mergeの引数が上記の3条件を満たさない場合でも、lsplitかrsplitを呼ぶことでmerge可能な形に変形できる。

lsplitやrsplitは、このmerge関数が実装できれば実装できる。つまり相互再帰みたいな感じになる。

計算量

何もかもが謎

手元で適当に試すと $O(\log N) / \mathrm{query}$ っぽい挙動をするが、はたして…
実はもう少し違う方針で $O(\log ^2 N) / \mathrm{query}$ は達成できるが、これはTLEした
writer解も謎のsplay treeっぽいことをしていた、editorialがないのでこれも計算量は謎

コード

#include <cstdio>
#include <cassert>
#include <memory>
#include <algorithm>
#include <vector>

using namespace std;
using uint = unsigned int;

struct Monoid {
    uint mx, zero, one;
    Monoid() {
        mx = 0;
        zero = 0;
        one = -1;
    }
    Monoid(uint x) {
        mx = x;
        zero = -1;
        one = ~x;
    }
    uint eval() { return mx ^ one; }
};
Monoid operator+(const Monoid& l, const Monoid& r) {
    Monoid m;
    m.mx = max(l.mx, r.mx);
    m.zero = (l.zero & r.one) | (~l.zero & r.zero);
    m.one = (l.one & r.one) | (~l.one & r.zero);
    return m;
}

struct Node;
using NP = unique_ptr<Node>;

struct Node {
    NP l = nullptr, r = nullptr;
    int sz = -1;

    int ln, rn;
    Monoid lval, rval;

    Node() {}

    // leaf node, true='(', false=')'
    Node(bool type, uint x) : sz(1) {
        if (!type) {
            ln = 1;
            rn = 0;
            lval = Monoid(x);
            rval = Monoid();
        } else {
            ln = 0;
            rn = 1;
            lval = Monoid();
            rval = Monoid(x);
        }
    }
    // non leaf node
    Node(NP _l, NP _r) : l(move(_l)), r(move(_r)), sz(l->sz + r->sz) {
        assert(l && r);
        if (l->rn == r->ln) {
            ln = l->ln;
            rn = r->rn;
            lval = l->lval;
            rval = r->rval;
        } else if (l->rn == 0) {
            ln = l->ln + r->ln;
            rn = r->rn;
            lval = l->lval + r->lval;
            rval = r->rval;
        } else if (r->ln == 0) {
            ln = l->ln;
            rn = l->rn + r->rn;
            lval = l->lval;
            rval = l->rval + r->rval;
        } else {
            assert(false);
        }
    }
};

pair<NP, NP> lsplit(NP x, int k);
pair<NP, NP> rsplit(NP x, int k);

NP merge(NP l, NP r) {
    if (!l) return r;
    if (!r) return l;
    if (l->rn == 0 || r->ln == 0 || l->rn == r->ln) {
        return NP(new Node(move(l), move(r)));
    }

    if (l->rn < r->ln) {
        auto u = lsplit(move(r), l->rn);
        return NP(
            new Node(NP(new Node(move(l), move(u.first))), move(u.second)));
    } else {
        auto u = rsplit(move(l), r->ln);
        return NP(
            new Node(move(u.first), NP(new Node(move(u.second), move(r)))));
    }
}
template<class F>
pair<NP, NP> split2(NP x, F f) {
    int type = f(x);
    if (type == 0) {
        return {move(x->l), move(x->r)};
    }
    if (type == -1) {
        int type2 = f(x->l);
        if (type2 == 0) {
            return {move(x->l->l), merge(move(x->l->r), move(x->r))};
        }
        if (type2 == -1) {
            // zig-zig
            auto u = split2(move(x->l->l), f);
            return {move(u.first),
                    merge(move(u.second), merge(move(x->l->r), move(x->r)))};
        } else {
            // zig-zag
            auto u = split2(move(x->l->r), f);
            return {merge(move(x->l->l), move(u.first)),
                    merge(move(u.second), move(x->r))};
        }
    } else {
        int type2 = f(x->r);
        if (type2 == 0) {
            return {merge(move(x->l), move(x->r->l)), move(x->r->r)};
        }
        if (type2 == 1) {
            // zig-zig
            auto u = split2(move(x->r->r), f);
            return {merge(merge(move(x->l), move(x->r->l)), move(u.first)),
                    move(u.second)};
        } else {
            // zig-zag
            auto u = split2(move(x->r->l), f);
            return {merge(move(x->l), move(u.first)),
                    merge(move(u.second), move(x->r->r))};
        }
    }
}

pair<NP, NP> lsplit(NP x, int k) {
    assert(0 <= k && k <= x->ln);
    if (k == 0) {
        return {nullptr, move(x)};
    } else if (k == x->ln) {
        return {move(x), nullptr};
    }

    return split2(move(x), [&](const NP& n) {
        assert(0 < k && k < n->ln);
        int lsz = n->l->ln;
        if (lsz == k) return 0;
        if (k < lsz) return -1;
        k -= lsz;
        return 1;
    });
}

pair<NP, NP> rsplit(NP x, int k) {
    assert(0 <= k && k <= x->rn);
    if (k == 0) {
        return {move(x), nullptr};
    } else if (k == x->rn) {
        return {nullptr, move(x)};
    }

    return split2(move(x), [&](const NP& n) {
        assert(0 < k && k < n->rn);
        int rsz = n->r->rn;
        if (rsz == k) return 0;
        if (k < rsz) return 1;
        k -= rsz;
        return -1;
    });
}

pair<NP, NP> split(NP x, int k) {
    assert(0 <= k && k <= x->sz);
    if (k == 0) {
        return {nullptr, move(x)};
    } else if (k == x->sz) {
        return {move(x), nullptr};
    }

    return split2(move(x), [&](const NP& n) {
        assert(0 < k && k < n->sz);
        int lsz = n->l->sz;
        if (lsz == k) return 0;
        if (k < lsz) return -1;
        k -= lsz;
        return 1;
    });
}

int main() {
    int n, q;
    scanf("%d %d", &n, &q);

    vector<int> a(n);
    vector<uint> b(n);
    for (int i = 0; i < n; i++) {
        scanf("%d %d", &(a[i]), &(b[i]));
    }

    auto build = [&](auto self, int l, int r) -> NP {
        if (l + 1 == r) {
            return NP(new Node(a[l] == 1, b[l]));
        }
        int mid = (l + r) / 2;
        return merge(self(self, l, mid), self(self, mid, r));
    };
    NP tr = build(build, 0, n);

    for (int ph = 0; ph < q; ph++) {
        int ty, l, r;
        scanf("%d %d %d", &ty, &l, &r);
        l--;

        if (ty == 1) {
            auto t0 = split(move(tr), l + 1);
            auto t1 = split(move(t0.first), l);

            assert(t1.second->sz == 1);

            *t1.second = Node(t1.second->rn == 1, r);
            tr = merge(merge(move(t1.first), move(t1.second)), move(t0.second));
        } else if (ty == 2) {
            auto t0 = split(move(tr), r);
            auto t1 = split(move(t0.first), l);

            auto val = t1.second->lval + t1.second->rval;

            printf("%u\n", val.eval());

            tr = merge(merge(move(t1.first), move(t1.second)), move(t0.second));
        } else {
            auto t0 = split(move(tr), r);
            auto t1 = split(move(t0.first), l);

            tr = merge(merge(move(t1.first), move(t0.second)), move(t1.second));
        }
    }
}

Suffix Automaton

2021-01-31T16:02:15+09:00

概要

文字列 $S$ のSuffix Automatonとは、ざっくりいうととても性質のいいDFA(決定性オートマトン)である。一番代表的な性質は次のとおりである。

$S$ の部分文字列全て、またそれらのみを受理する。
頂点数，辺数が $O(|S|)$、より正確には $|V| \leq (2|S| - 1), |E| \leq (3|S| - 4)$
$O(|S|)$ 時間で構築可能

このようなオートマトンが存在するということがまず非自明なのだが、これらに加えて、更に様々な良い性質がある。

構築

構成

最初に、どのようなオートマトンを作るのか(および、存在性の証明)を示す。結論から言うと、Suffix Automatonは$\mathrm{rev}(S)$のCompressed Suffix Treeから機械的に作ることが出来る。

例えば、$S = "babcc"$、つまり $\mathrm{rev}(S) = "ccbab"$ の場合、Suffix Treeは次のようになる。黒色のノードは、そのノードを終端とする Suffix が存在することを表す。

「次数 $1$ かつ白色のノード」を子のノードとマージしたものがCompressed Suffix Treeである。これと、$S$ の Suffix Automaton が次のようになる。

ここで、左右のノードは一対一対応している。実際に、ノード7について、受理する文字列の集合が(revすると)全く同一である。他のノードに対しても同じ性質が成り立つ。

このようなAutomatonが必ず存在することが、次の定理によりわかる。証明は容易なので略する。

Compressed Suffix Treeの(根以外の)任意のノードについて、受理する文字列たちから最初の文字を削除した集合は、いくつかのノードの受理する文字列たちの直和で表せる。

実際に、Compressed Suffix Treeの各ノードについて、上記の直和のノードたちから最初の文字で遷移を貼るだけでSuffix Automatonが構築できる。

頂点数 / 辺数

頂点数は明らかに線形である(一般に、$n$ 個の文字列からパトリシアを作ると頂点数は$O(n)$になる)。

辺数はまずSuffix Automatonから(有向)全域木を取る。当然これの辺数はノード数 - 1である。全域木に含まれない辺それぞれについて、(全域木のパス + 含まれない辺)から生成される文字列たちを考える。すると

全て $S$ の部分文字列
文字列の間に、「片方が片方のprefix」という関係はない

が成立するので、文字列の個数 = 全域木に含まれない辺数は高々 $|S|$

アルゴリズム

Compressed Suffix Tree / Suffix Automaton を対応を意識しながら並列で構築する。KMPアルゴリズムのように、$S$ の後ろ($\mathrm{rev}(S)$の先頭)に一文字ずつ文字を追加していく。これは Compressed Suffix Treeでは、(新しい)文字列全体をSuffix Treeに追加することに対応する。

Compressed Suffix Tree / Suffix Automatonの情報として、次の情報を持つ。

$\text{next}(\text{node}, \text{char})$ : Suffix Automatonの辺
$\mathrm{link}(\mathrm{node})$ : Compressed Suffix Treeでの親ノード
$\mathrm{len}(\mathrm{code})$ : nodeが受理する最長の文字列の長さ(=Suffix Treeでの一番下のノードの深さ)
$\mathrm{last}$ : $S$ 全体を入れた時に受理するノード

lenだけ不自然に感じるが、構築で必要になる。

構築においての本質は、Suffix Automatonの次の性質である。

(非空の文字列) $S$ の最後の文字を削除した文字列を $S'$ とする。Compressed Suffix Treeでの $S'$ / $S$ のパス上のノードを $n'1, n'2, \cdots, n'l$ / $n_1, n_2, \cdots, n_m$ とする($n'1 = n_1 = \mathrm{根}$)。このとき、$\mathrm{根}, \mathrm{next}(n'1, x), \mathrm{next}(n'2, x), \cdots, \mathrm{next}(n'_l, x)$ をランレングス圧縮したものが、$n_1, n_2, \cdots, n_m$ となる。

構築では、新しい文字を後ろに追加した後この性質を満たすように様々な値をいじればよい。

実際には新しいノードを作り、 $\mathrm{last}$ からlinkをたどっていく。そして

$\mathrm{next}(n, x)$ が存在しない間 $\to$ 新しく作ったノードに$\mathrm{next}(n, x)$を張っていく
$\mathrm{next}(n, x)$ が存在する場合。ノード $m = \mathrm{next}(n, x)$を分割(Clone)しないといけない場合がある。この判定に $\mathrm{len}$ を使う。$\mathrm{len}(n) + 1 = \mathrm{len}(m)$ ならば Cloneする必要がない。
- 分割するためには、新規ノードを追加する。これはSuffix Treeで根から近い側に対応する。更に$m = \mathrm{next}(n, x)$ の間linkを辿り、nextを新規ノードに張り替える必要があることに注意。

構築の計算量について考える。頂点数、辺数が線形であるので大部分は大丈夫だが、唯一怪しいのは「ノードをCloneした後にnextを張り替える」部分である。実際には、「Compress Suffix Treeでの $\mathrm{last}$ ノードの高さ」をポテンシャルとすることで抑えることが出来る。

性質

その他の性質を列挙する

Suffix Automatonは「Sの部分列、またそれのみを受理する」DFAの中で頂点数が最小(らしい)
$S$ のSuffixと、cloneされてないノードたちは1対1対応する。

拡張

Compressed Suffix Treeが自然に複数の文字列に対応できるように、Suffix Automatonも対応できる。

lastを初期化して文字列追加、を同じ Suffix Automaton に繰り返せば良い。ここで、新しいノードが生まれない場合もあることに注意。

問題例

$S$ の部分文字列の種類数

DAGのパスの総数となるので、DP出来る
各頂点 $n$ について$\mathrm{len}(n) - \mathrm{len}(\mathrm{link}(n))$ を足すだけでもよい(これはCompressed Suffix Treeでのパスの長さ=受理する文字列数に対応する)。

$S, T$の共通部分列の種類数

$S$, $T$, $S$ + "$" + $T$ の部分列の個数から計算できる。
${ S, T }$ から Suffix Automaton を作ることで直接計算できる。$S$ のSuffix, $T$ のSuffixのどちらからも到達可能なノードのみについて$\mathrm{len}(n) - \mathrm{len}(\mathrm{link}(n))$を足せば良い

参考

使用例

AC code of Number of Substrings

struct SuffixAutomaton {
    struct Node {
        unordered_map<char, int> next;
        int link, len;
    };
    vector<Node> nodes;
    int last;

    SuffixAutomaton() {
        nodes.push_back({{}, -1, 0});
        last = 0;
    }

    void push(char c) {
        int new_node = int(nodes.size());
        nodes.push_back({{}, -1, nodes[last].len + 1});
        int p = last;
        while (p != -1 && nodes[p].next.find(c) == nodes[p].next.end()) {
            nodes[p].next[c] = new_node;
            p = nodes[p].link;
        }
        int q = (p == -1 ? 0 : nodes[p].next[c]);
        if (p == -1 || nodes[p].len + 1 == nodes[q].len) {
            nodes[new_node].link = q;
        } else {
            // clone node (q -> new_q)
            int new_q = int(nodes.size());
            nodes.push_back({nodes[q].next, nodes[q].link, nodes[p].len + 1});
            nodes[q].link = new_q;
            nodes[new_node].link = new_q;

            while (p != -1 && nodes[p].next[c] == q) {
                nodes[p].next[c] = new_q;
                p = nodes[p].link;
            }
        }
        last = new_node;
    }
};

int main() {
    string s;
    cin >> s;

    SuffixAutomaton sa;
    for (char c : s) {
        sa.push(c);
    }

    int m = int(sa.nodes.size());
    ll ans = 0;
    for (int i = 1; i < m; i++) {
        ans += sa.nodes[i].len - sa.nodes[sa.nodes[i].link].len;
    }

    cout << ans << endl;
    return 0;
}

AGC 046 E Permutation Cover

2020-08-08T22:46:09+09:00

解けずに解説読んだ

本質

答えが-1かどうか <=> (max < 2*min)に気づくかどうか
[1, 1, ..., 1, 2, 2, ..., 2]のパーツができる <=> ↑の条件は全部できる

思考反省

方向性を間違えた

出来た: 辞書順最小なので判定条件出来たが使わなかった: パーツごとに独立間違えた方針: 先頭のごちゃごちゃとかがあるから判定条件を書き下すのは無理だろう　考えたくねえ -> きっとなんらかの貪欲が最適なことが証明可能で、これを実装すればいいんだろう正しい方針: とりあえず先頭にごちゃごちゃがない場合の判定条件を考える。

競プロ実装テクニック

2020-07-30T22:15:04+09:00

これはなに

実装力で戦える！～競プロにおける実装テクニック14選～ - Qiita に触発された

競技プログラミングでコーディングの際気を付けていること - うさぎ小屋を強く参考にしている

効果が高い or 一般性がありそう　なことから書いたつもり

重要なこと

「競プロのきれいなコードと業務のきれいなコードは違う」と定期的に唱える。未来の自分 or 他の人が読む必要がないことを仮定できるため、様々なバッドノウハウ(業務)が正当化される。(あえて過激なことを書くと、)「using namespace stdを使わない」などは逆にバッドノウハウ(競プロ)だと思っている。

-fsanitize=undefined,address / -D_GLIBCXX_DEBUG

#include <iostream>

using namespace std;

int main() {
    int a[10];
    cout << a[100] << endl; 
    return 0;
}

このコードは当然未定義動作だが、これを g++ main.cpp -g -fsanitize=undefined,address とコンパイルして実行すると

A.cpp:7:13: runtime error: index 100 out of bounds for type 'int [10]'
SUMMARY: UndefinedBehaviorSanitizer: undefined-behavior A.cpp:7:13 in

などと出てくる。他にも様々な未定義動作をキャッチできる。速度に影響があるが、手元で使わない理由はないと思う。他にも-D_GLIBCXX_DEBUGをコンパイルオプションに入れると色々検知するようになるが、macで使えない…

当然ながら g++ main.cpp -g -fsanitize=undefined,address などといちいち打つのは時間の無駄なので、aliasなどの機能を適時使うと良い。

コーディングスタイル

コーディングスタイル(インデント, space/tab, ...)は揃ってないより揃ってたほうがいい。有名規約で言うと Google C++ Style Guide に従っている人が身近では多い気がする。

インデントを手で整えるのは時間の無駄なので、エディタの自動整形に任せるべき。自分は以下の.clang-formatでvscodeに全部任せている。

BasedOnStyle: 'Chromium'
IndentWidth: 4
AccessModifierOffset: -2

# for competitive programing
AllowShortFunctionsOnASingleLine: All
AllowShortIfStatementsOnASingleLine: true
AllowShortLoopsOnASingleLine: true
AlwaysBreakTemplateDeclarations: false

いわゆる「きれいな」コーディングスタイルが(競プロで)常に正しいかというと怪しい。例えば1 * 2 + 3 * 4と1*2 + 3*4なら後者のほうが読みやすいと思う(自分はもう手癖で入れてしまうが…)。

using namespace std

575とも呼ばれる。std::があらゆるところから消せるのでコードがスッキリする。名前空間が汚染されるというデメリットがあるが、引っかかるのは無視できるぐらいの確率なので圧倒的にメリットのほうが大きいと思う。

マクロ / スニペット

マクロは俗に言う

#define rep(i, n) for (int i = 0; i < n; i++)
#define all(v) v.begin(), v.end()

みたいなやつ。僕はマクロは使っていないがfori / all でこれらが出てくるスニペットを登録している。マクロを使っても競プロなら何のデメリットもない。

とりあえず手でいちいちfor (int i = 0; i < n; i++)を書いているならば見直したほうがいい。

printfデバッグ /デバッガ

個人的には多くの場合でデバッガよりprintfデバッグのほうが速いと考えているが、デバッガのほうが強いときもある。assertで落ちたときにスタックトレースを確認するなど。僕は雑にlldbを使うが、これは改善の余地がある気がする。

printfデバッグするにしろ、printfをいちいちつけたり消したりするのは時間の無駄、僕は以下のようなマクロ(を強化したもの)を使っている。

また、vector / mapなども簡単に出力できるようにするといい。operator<<をオーバーロードするなど

#ifdef LOCAL
#define dbg(x) cerr << __LINE__ << " : " << #x << " = " << (x) << endl
#else
#define dbg(x) true
#endif

goto

競プロでもgotoを使ってメリットが有るタイミングは少ないと思うが例外もある、有名な例は多重ループの大域脱出がある。

bool ok = false;
for (int i = 0; i < n; i++) {
    for (int j = 0; j < n; j++) {
        if (solve(i, j)) {
            ok = true;
            break;
        }
    }
    if (ok) break;
}

が

bool ok = false;
for (int i = 0; i < n; i++) {
    for (int j = 0; j < n; j++) {
        if (solve(i, j)) {
            ok = true;
            goto loop_out;
        }
    }
}
loop_out:

のように書けるというやつ。2重だとありがたみが薄いが、競プロでは平然ともっと多重のループが出てくるので、そういう時に強い。

bool ok = [&]() {
    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            if (solve(i, j)) return true;
        }
    }
    return false;
}();

このようにも書け、自分はこちらをよく使う。

再帰ラムダ

普通にdfsを書こうとすると

vector<vector<int>> g;

void dfs(int v, int parent) {  
    for (int u: g[v]) {
        if (u == parent) continue;
        dfs(u, v);
    }
}

int main() {
    dfs(0, -1);
}

となるが、これを

int main() {
    vector<vector<int>> g;

    auto dfs = [&](auto self, int v, int parent) -> void {
        for (int u: g[v]) {
            if (u == parent) continue;
            self(self, u, parent);
        }
    };
    dfs(dfs, 0, -1);
}

と書ける。独特な記法を覚える必要があるが、処理を上から下へと書けるのは大きい。なお、ラムダ式は覚えると便利な事が多いので慣れると吉。

vector<vector<>>を短く書けるようにする

個人的おすすめ。V<int> / VV<int>でそれぞれvector<int> / vector<vector<int>>になるようにしている。便利。

WTF C2 Triangular Lamps Hard 別解法

2020-03-03T19:04:35+09:00

今回は、Nimberを使ってWTF C Triangular Lamps Easy / Hardを解いていこうと思います。

C1

このような問題では、操作で変わらない不変量を考えたくなります

具体的にはにを書き込めば、では不変量です。なのでこれを適切にシフトしたものを考えて、うまくやるとOKです

C2

先述の不変量は一般の場合ではあまり役に立ちません。なぜならば、1の数が少なすぎるからです。つまり不変量を求めたところで元の点に関して得られる情報量が少なすぎます。

じゃあどうするかというと、元々の想定解法では先述の不変量を同時に大量にばら撒きます。もちろん適切に計算できるようなばらまきかたをしないといけなくて、そういうことを考えると自然とが出てきます。

今回はもっと情報量の多い不変量を考えることにします。

実際に、あるについて、にを書き込むと、これは不変量になっています。ただし、要素は全てとします。でダメならというのは自然ですね。

この不変量により、を原子根にすると、として、が求まります。もう一つ、他のaについても調べると、あるについてが求まります。

結果として、が求まりました。

実装としては、で離散対数を求める必要があります。ところで、最近Nimberで離散対数を求める問題が出ました: Problem - F - Codeforces　ちょうどいいですね。

実装例: Submission #10507304 - World Tour Finals 2019 Open Contest

Library Checkerを支える技術

2020-01-02T00:16:17+09:00

あけましておめでとうございます。これは Competitive Programming (2) Advent Calendar 2019 - Adventar の 14日目の記事です。あけましておめでとうございます。

この記事では、Library Checker の宣伝をします

Library Checkerって？

競プロのライブラリを整備するために爆誕したサイトです。特徴としては、問題が全部ライブラリを整備する目的に特化していること、ケースジェネレーター、チェッカーなどが全て公開されていることが大きな特徴です

中身を全て公開することにより

誰でも問題の追加が出来る
誰でもケースの修正などが出来る
CIに組み込める*1

などの、様々な利点を得ることが出来ます。理論上はO(使用人数)でケースが強くなっていくので、最強のテストケースが出来ると言う目論見です。

概要

こんな感じです

こういう図をブログに貼りたかった

見ての通り、GCP(Google Compute Platform)で動いています。

一つ一つ紹介していきます

Problems

library-checker-problems で問題の情報を管理しています。

ジェネレーターとかは全部C++で、それをpythonから叩く仕組みになっています。目的上どの環境でも同じテストケースを吐き出すようにしないといけないので、とても苦労しています。(uniform_int_distributionは環境依存なんですよ、知っていましたか？)

Cloudbuild

図にやたら出てくるやつです。yamlファイルにコマンドを書き並べるだけで、githubにpushするたびに実行とかをやってくれるので乱用しています。今5種類ぐらい使っています。

ジャッジサーバー

dockerなどの既存のコンテナは時間計測 / メモリ計測がむずかったので、いっそのことと思い、unshare / cgroups / overlayfs などの(dockerの中で使われてる技術たち)を直接叩き、コンテナを作っています

unshare: プロセスからネットワークのアクセスを禁止したり、mountを分離したりしてくれるすごいやつ
cgroups: これがないと何も出来ない。プロセスのCPU、メモリ消費量とか諸々を制限してくれるすごいやつ
overlayfs: プロセスから/tmpとか変な場所にファイルを書き込んでも、パッとやるとそれらを一瞬でなかったことにしてくれるすごいやつ

ずっとサーバー借りてると高いので、preemptible(AWSのスポットインスタンスみたいなもの)を借り続けるという雑なことをしています。24時間(or もっと短い)で勝手に停止してしまうので、停止を検出したらCloud Functions(≒ AWS Lambda)で自動再起動、うまくいくのかと思いましたが、今のところうまくいっています。

SQL

Cloud SQLと言うフルマネージドのサービスでPostgre SQLを立てています。バックアップなども取ってくれているようなので慢心しています。

このサービスのコアで、全てが入っています。問題のテストケースもbytea型でそのまま入っています　ええんかこれ？

APIサーバー

(最近正式サービスとなった)Cloud Runで動いています。理由はApp engineだとgRPCが動かなかったからです。 apiv1.yosupo.jp:443 で動いていて、API一覧は library-checker-judge/library_checker.proto at master · yosupo06/library-checker-judge · GitHub です。(RESTではないので、GitHub - ktr0731/evans: Evans: more expressive universal gRPC client のようなgRPCクライアントを使わないと何も見れないです)

フロントエンド

言ってしまえばAPIサーバーを叩いて結果を出力するだけです。

APIサーバーを作る前はgoでSQL直接叩いてやっていたのを、API化と共にtypescriptとかそう言うのに置き換えようと思ったんですが、断念して今はgoでAPIを叩いてやっていっています。

おわりに

このプロジェクトは、いつでもみなさんの協力をお待ちしております。最近めちゃくちゃコントリビューターが増えて、嬉しい。普通のOSSよりは競プロ勢の人にとってとっつきやすいと思うので、pull requestsとかに興味があるけど、難しそうだし〜と言う人は、ぜひ！

明日(概念崩壊)はsaka_ponさんの競技プログラミングでも C# で簡潔に書きたいです。ありがとうございました。

*1:ざっくり言うと、自動で「ライブラリをちょっと修正するたびに全部の問題に投げ直す」ことが出来ます

yukicoder No.940 ワープ　ε=ε=ε=ε=ε=│;p>д＜│

2019-12-03T23:41:49+09:00

基本方針

ガン見

maspypy.com

解法

最近ipad買いました(私事)

goodnote

Static Range Union Find

2019-11-12T00:15:35+09:00

N頂点のUnion Findが与えられます。以下のクエリがQ個与えられます。

given l, r, dist: merge(l, r), merge(l+1, r+1), merge(l+2, r+2), ..., merge(l+dist, r+dist)

これを処理した後のUnion Findを計算してください

これは D: LCP(prefix,suffix) - 「みんなのプロコン 2018」決勝 | AtCoder の本質部分です(ネタバレ)

O(N α(N) + Q)で解けます。

Submission #8391439 - 「みんなのプロコン 2018」決勝 | AtCoder

TTPC2019参加記

2019-09-04T01:11:11+09:00

TTPC2019にチームyosupo(yosupo, yosupo, yosupo)で参加して、優勝しました

前日

ここいる？*1

うんち

当日

コンテスト前

無(二度寝したので)

昼食

無(二度寝したので)

チーム決め

無(それはそう)

コンテスト

東　京　工　業　大　学と4年ぶりの再会

A

TTPC2020 たのしみ～(問題設定無視)

B

D言語なら正規表現があるんですよね→デバッグ出力、消し忘れ…

C

解けないから飛ばした

D

実験書こうとしたが、そういえば素数って奇数だったなって

素朴で好き

E

000
111
222

からちょっといじるとなんか出来た

F

最小費用流を貼ってグラフを構築しようとして、何かがおかしいことに気づいた

M

UKUNICHIAがFAしてるから開いた

抽象化ライブラリじゃ処理できないけど俺の全方位木DP実装力を見せてやるぜ→デバッグ、42分…

L

初感が(x * 100,000 + y)で分けたら良さそうだなぁだったから対して苦労しなかった　天才かも

半分全列挙だけど見たことない気がする

G

丁寧に場合分けをやった

O

とりあえず2冪から考えてみるか→普通に出来た

BDDって31 * 31なんて処理できたっけ？って思ってたけど、経路数が少ないから(別の方法で)なんとかなるんですね(FPTじゃん)

C

再考したら普通に解けた

H

俺の平衡二分木ライブラリを見せてやるぜ→1年ぐらい使ってなかったため、使用法を完全に忘却…

動的Fenwick Treeでお茶を濁す

I

とりあえずQを素べきに分解して考えてたが、実は分解しないほうが見通しが良かった？細かいところを詰めずに実装を開始したら大変なことになった

J

Iの合間に解いてたので、パパっと実装

K

とりあえず手でケースを試しまくるとハミング距離(=FFT)が関係しそうなことがわかって、N=100,000 / 2.5sはいかにもFFTっぽい制約なので確信(は？)

とりあえず2種類のハミング距離を眺めて、大小関係がサンプルと一致したので提出…(競プロをやめろ)

MuriyarokonnNaNと4年ぶりの再会

N

問題設定がぶっ飛んでて好きとりあえず適当なのを投げたら全然ダメだった

懇親会

🍣が出てきて、嬉C

自分より若い人が大半で、もう気づいたら高齢者…(ホロリ)

話したことない人と喋ったので、満点！(コミュ障)

感想

久しぶりの5時間コンテストで楽しかったです。運営のみなさんありがとうございました。

~~AtCoderのせいで~~データ構造ライブラリが化石になってるんでちゃんと整備しなおさなきゃ…

*1:https://kenkoooo.hatenablog.com/entry/2019/08/31/084809

プロキシを建てた

2019-07-11T00:41:41+09:00

背景

マンションのネットが、マンション共有で安い！みたいなやつ

なんかネットが不安定だった

最近、不安定を再現する方法が分かった(研で使っているサイボウズをノートパソコンから開く)ので、真面目に調べることにした

原因

共有部分のルーターのIPマスカレード制限(多分)

要するに一度にめっちゃたくさんのサイトとか画像とかにアクセスすると死ぬってやつで、サイボウズは細かい画像が多い & http1.1 で死んでいたっぽい

対策

内側と外側にプロキシを建てた(内側: Raspberry Pi / 外側: GCP)

これが

こう

建て方

めんどそうだなぁと思ったけど、GitHub - ginuerzh/gost: GO Simple Tunnel - a simple tunnel written in golang を使ったら一瞬で立った　すごい

client(raspi)

./gost -L http://:1080 -F http+mws://yosupo:$PASSWORD@$SERVER_IP:1080

server(GCP)

./gost -L http+mws://yosupo:$PASSWORD@:1080

難点

http / httpsプロキシの設定が必要

なんか自動設定できるらしいが、DHCPサーバーをルーターのじゃなくて自前で用意しないといけなそうで、面倒…

お金がかかる

GCPのサーバー自体は他の用途にも使っているものだからいいんだけど、ネットワーク(下り)に料金がかかる

Gifted Infantsのチーム戦略について

2019-07-02T12:24:33+09:00

メンバー

yosupo, sigma, maroon

戦略

明確な戦略は特になかったです(完)。

いくつかのルールを守りながら(守らないこともある)、毎回適当にやってた感じです

ルール

今誰がどの問題を読んだか、考えたか　の紙を作る
特に得意ではないジャンルを無理にやらない例(yosupo: DP, 10⁹ + 7, sigma: JOI, maroon: AOJ-ICPC)
解いた後でも苦手な実装だったら人に投げる
ちゃんと実装を詰める
ちゃんと声かけをする
必要なら厳しい言葉をためらわない
人がある程度燃えたら他の人が強制的に介入する
実装が重かったら相談する(想定よりはるかに重い実装方針を考えていて、相談すると綺麗になるってことが結構ある)
解法が難しい / 未証明 / 貪欲 / 計算量が怪しいなどの場合は相談する
有名問題っぽい見た目になったら他の二人に知ってないか聞く

あたりかな　明文化されていたわけではないです。とにかく相談を沢山するチームだったと思います。

練習セット

5時間セットをやる→反省するを繰り返したぐらいで、特に特別なことはしてないです。ちゃんと動き方とかの反省をするといいかもしれません。

Petrozavodsk Camp(9)

セット数: 11日9セット(oooxoooxooo)
難易度: [ICPC-Japan, INF]
開催地: Petrozavodsk, オンライン(有料)
注意点: 凍死

MIPT Camp(6)

セット数: 7日6セット(oooxooo)
難易度: Petrozavodskと同じかちょっと簡単
開催地: MIPT, 同時開催で世界のどっか(年による)
注意点: パスポートを忘れない

Opencup(11)

セット数: 15 ~ 20セットぐらい
難易度: [ICPC-Japan, INF], 時々ゴミ
開催地: オンライン(無料)
注意点: 上2つのキャンプと同じ問題セットが使われることがある, 終了が遅い

知っての通り別にOpenじゃないです

Ejudge(15)

セット数: たくさん
難易度: 様々
開催地: オンライン

キャンプとかOpencupの過去問が詰まったジャッジです。

これもOpenじゃないです

その他(13)

コドフォのGymとかRUPCとか夏合宿とか

ライブラリ

ライブラリにファイル容量制限とかがあって、それを超えて大変だったりした(html + @printerで作ってたら、印刷するOSによって容量が変わったなぜ？)

www.dropbox.com

単体法出典: GitHub - koosaga/DeobureoMinkyuParty: 럭스를 럭스답게 든든한 연습헬팟 더불어민규당

少なくとも行列式がバグっています

環境

ある程度は本番に環境を合わせて練習したつもりです。突然環境が変わると上手くいかなくて悲しい気持ちになりがち(経験則)

個人的にはキーボード >>>> エディタ >= OS >>>> その他　ぐらいの重要度

キーボード

英字配列以外の選択肢はないです。日本語配列は今すぐやめましょう。ポルトガル配列はやめろ
高速にタイピング出来る人がいないとライブラリ写経が絶望的になる

OS

Ubuntu以外の選択肢はないです(フラグ)。バージョンは最新のLTSでよさそう
yokohamaはほとんどデフォルト設定だと思いました。WFではなんか見た目とかが弄られていました。

エディタ

visual studio / atom が使えないことに注意。本番で使えるエディタ一覧はサイトから見れます
色々設定をする場合、それだけ時間を失うことに注意する必要があります
理想的には3人でエディタ, 設定を合わせることですが、あまり強制しようとすると喧嘩になります。

Gifted Infantsは

maroon: gedit
sigma: CLion
yosupo: CLion
CLionのキーバインド: emacs + (ctrl+c, ctrl+v, ctrl+z)=(copy, paste, undo)

でした。カオス。CLionはデフォルトで色々上手く動くのでいいです。でもノーパソだと発熱がすごい。

プリンター

印刷のタイムラグを表現するために、「ファイルをアップロードして1分後にダウンロード出来るようになる」サイトを作って使っていました。あんまり意味なかった気がする

Google hash code 2019 Final

2019-05-03T22:08:16+09:00

Google hash code 2019に参加してきました

hash codeって？

google主催のコンテストで、GCJみたいなものです。一番の違いは形式で、2-4人チーム、パソコン無制限で短時間(予選:4時間, 本戦:5時間)というコンテストになっています。予選は一発で、上位から、人数の総和が150人ぐらいになるまで進出らしいです。

ということからわかるように、GCJ Finalなどのtop25コンテストよりはるかに進出しやすいコンテストな気がします。

交通費

交通費、ホテル、食費のうちいくらか出すとサイトには書いてあります。僕らがもらう予定の交通費は、全額ではないけど大半、ぐらいです。詳しく知りたい人は直接聞いてください。

環境

ファイルの共有はdropboxを使用しました。短時間なのでgitの旨味がほとんどないからです。

ディレクトリは

- common・
     - common.h
     - random.h
- yosupo/
     - main.cpp
- sigma/
     - A.cpp
- sugim/
     - A.cpp
- maroon/
     - A/
          - main.cpp

みたいな感じです。common.hには問題のファイルからの入力、出力、スコア計算などを書き並べ、全員importします。

戦略みたいなのはなくて、分担したり協力したりをぬるっとやりました。

結果

🌞

感想

5時間で4人4台チームコンテストすると、もうめちゃくちゃになります(チーム戦とは？)

事前に誰が何をやるかとか、もはや完全に分割して別のケースを解くとかするといい気がします。

あとpast gloryはしっかり優勝してて、さすがだなあって思いました。

余談1

Mac book pro(2018)を使っているんですが、最近いろんなキーがチャタリングを開始して、本戦がしんどかったです。 space, nあたりが酷い、対策されたって聞いたのに…

余談2

GWだったのでダブリン->イタリア->ドイツの大型旅行にして、今イタリアにいるんですが、パスポート失くしました。

DDCC 2019

2019-01-20T08:48:59+09:00

コード部門

A: なんかバグった、素直にD言語のgroup関数を使うべきだったかも、遅かった
B: 平衡二分木使うか悩んだけどしばらく考えたら貪欲で普通に解けた、遅かった
D: もう典型、segtree.hとmatrix.hを貼って終わり、速かった
C: みんな解法は簡単というけどそんなことない気がする、実装の方は2ヶ月後にICPC WF行く人幾何担当がこれを解けないとチームをクビになる、でも遅かった(は？)
E: コンテスト開始からチマチマ考えていた、1080までは見えていて、残り時間との兼ね合いでそこで諦めることにした、見積もりを間違えてて1110が取れた、速かった

DISCOの人が順位表の凍結にこだわっていそうだったので、せっかくだからすっとぼけることにした。

昼食の時はCが大変なことになって終わった(終わったとは当然文字通り問題が終わった=ACという意味です)とか、Eも提出だけはした(提出した結果0点だったとは言っていない)とか言ってた

装置実装部門

予選: なぜか壮大なものを実装しようとしていたが、そもそも正の点数を取ることすら相当難しいと気づいて方針転換。これが幸いしてギリギリ滑り込めた

10位に入れていそうだったので、予選が終わった後の休憩時間ではすぐに本戦のためにプログラムを改善開始

本戦はesper力、観察力、実装力、盤外戦術力みたいなのが全部問われる不思議なコンテストだった

pre本戦:

向こうの口ぶり的に最速で移動するとどうせ大変なことになる設定なんだろう
最高速を減らすことのメリットが少なすぎる、いじるべきは加速減速時間のみでいいだろう
普通に実装すると45度移動になるが、水をこぼさないように運ぶなら明らかに直線的に動くべきだろう
AとかBに移動するとき、真下まで行かずにちょっと前で止まると少しだけお得
pre本戦は自分の挙動を確認する以上に、他人の挙動を確認するのが大事だろう
submissionの点数を見ることで、n週ギリギリの調整が出来る

あたりには気づいていて、これらを踏まえて適当に良さそうなのを実装して、pre本戦は紙とペンを持って気づいたことをなんでもメモを取ることにした

また、pre本戦ではわざとダメなの送って気づいたことを秘匿しようかとも思ったけど、ぶっつけ本戦で挙動が終わるリスクを考えたら素直に送った方がいいと判断した

以下はpre本戦中の考察や、人を見て気づいたこと

E -> Aは水がないんだから最速で移動すればいい(また、A -> Bは水が少ないから少し早くてもいい)
AとかBに移動するとき、真下じゃなくてちょっと前で止まると少しだけお得だが、ここでギリギリを攻めると水がうまく給水できずに零れる
4週しかない、5週は時間的にまず不可能だろうし、3週だと水が少なすぎる気がする
pre本戦でもっと情報を収集するべきだった(sugimは各週ごとに速度を変えて水のこぼれ具合を調べていた)

また、自分のコードはほとんど自分の予想通りに動いていることが確認できて嬉しかった、特に直線的に動けているかは不安だったので

これを踏まえて、その後の実装タイムでは

まずは、E -> Aの速度をmaxにし、A -> Bの加速度はB -> Eの2倍にすることにした(水量が半分だから)
5週でまともな量は運べないだろうこと、3週だとどれだけ上手くやっても4週に勝てないだろうことを確認
理論値480では勝てないだろうと予想して、理論値と加速度のバランスを雰囲気で調整していくことに
↑pre本戦一位(自分)が水をかなりこぼしていたのに435であったことを加味すると、450 ~ 460程度は平気で出るだろうと予想した
また、ここらへんでA -> Bの加速度が2倍ではお話にならないことに気づく(ビーカーの形的に水量が半分でも水位は結構高くなる)、謎の仮定(めちゃくちゃでした)を置いた計算の結果1.43(1 / 0.7)倍にすることにした
理論値528で挑むことにした、理由は特になくて、注ぐ時間を100ms刻みで選ぶと480, 504, 528, 552になるんだけど、504だと流石にしんどいだろう & 552は欲張りすぎだろうみたいな判断から)

結果は予想より全然水がこぼれず500.5になった、preよりこぼした量が減ったというのは驚きで、多分もっと理想の理論値は上だったっぽい(下手したら552まで行くかも)

AGC 029

2018-12-16T01:10:50+09:00

A

隣り合う要素をswapして数列をsortする最小回数は転倒数と呼ばれています

B

2で割れる回数でグループ分けして←いらない
大きい順にマッチしていく

という解法で解いた、1個目いらない

証明

xとマッチできる値たちのうち、x以下のものは1種類しかない、というのが本質

最大の値xとマッチできるyが存在しなかったらx消していい

存在したらx - yでマッチ作っていい(x - yを使わないマッチングがあったとしても、x - yを使うマッチングに変換できる、なぜならx - yを使わないならxはぼっちで、yはx以外の何かとマッチしている、よってy - 何かをばらしてx - yを足せばいい)

C

そもそもどういう文字列をつくっていけばいいか考える

二分探索をする

シミュレーション

D

E

実装を詰めなかったため、破滅

F

twitter

CODE FESTIVAL 2018

2018-11-18T13:49:08+09:00

本選

対策

特になし

結果

ふつう

原因

Hの得意度は参加者の中でトップクラスだった自信があるため，Iを速やかに解ければ勝っていたと思うが，Iに90分掛けたためどうしようもないね

対策

転生？

りんごの挑戦状

対策

ペイントで様々な色を作って眺める
トップページを暗記する，日時を重点的に

結果

どうしてこんなことに

原因

R:G:Bの比だけを注意していて，明るさという概念を忘れていた。|R-r| + |G - g| + |B - b|ならR:G:Bの比は本質じゃないんだよな

対策

そもそも地理系に弱いので詰んでいませんか？詰んでいますね(チーム戦にしませんか？)

リレー

対策

例年はふわっとやってふわっと終わるみたいな戦略だったけど，今年は真面目に

最初の5問に2人 * 5で取り掛かって後の5問は臨機応変にみたいな(いややっぱりふわっとしていない？)

結果

2位

原因

戦略が上手く行った，とかではなく他のチームの話を聞くとそもそもチームメンバーが優秀だったっぽい(完)

対策

文句なし

minimize しんどさ s.t. 早起き

2018-10-18T15:51:59+09:00

背景

突然寒くなって二度寝不可避 →出来る限りしんどくなく早起きしたい

目的関数

minimize しんどさ s.t. 早起き, 現実的な予算

10時起き安定を目標にする

環境

照明

空き巣対策に決まった時間に勝手に電気がつく機能があるのでオンタイマーとして使用，30分ぐらい前につくようになってればいい？

温度

エアコンのオンタイマーを使用，指定方が絶対時間じゃなくて相対時間なのでめんどい。寝起きは体が冷えているのでちょっと温度高めがいいかもしれない。

寝起き直後の行動

布団でスマホを開くと9割がた二度寝なので対策を行う必要がある。布団から遠くにスマホをおいておく，アプリで目覚ましを止めたあとしばらくはスマホにロックをかける？

食事

飲み物

朝起きるといえばコーヒーだが，そこまで好きではない。紅茶(ティーバッグ)が最善だろうか

食べ物

食パンはポロポロこぼれるので苦手，レーズンロールを夜のうちに準備しておくとかだろうか，深夜に食べてしまわない強靭な精神力が必要

起きたあとの目的

これがあるかないかで起床成功確率は大きく違う

授業/ゼミ

そもそも午前に無い

研究

最もだが，寝起きでやってなにか進むものではない

散歩

寒い

ばちゃ

一番ありかも，そもそも起床の目的とも合致している

気づき

着替え