") top/contain no-repeat}.external-link:visited:after{background-color:#3f0071}main{font:400 1rem/2.08rem f-sans,sans-serif;margin:0 auto;padding:24px 0 64px;width:calc(min(100%,840px) - 32px)}main h1{font:400 1.82rem/3.12rem f-sans,sans-serif}main h2{font:400 1.56rem/2.08rem f-sans,sans-serif}main h3{font:400 1.43rem/1.56rem f-sans,sans-serif}main h4{font:400 1.3rem/1.56rem f-sans,sans-serif}main h5{font:400 1.17rem/1.56rem f-sans,sans-serif}main h6{font:400 1rem/1.56rem f-sans,sans-serif}main h1:not(:first-child),main h2:not(:first-child),main h3:not(:first-child),main h4:not(:first-child),main h5:not(:first-child),main h6:not(:first-child){margin-top:24px}main p{text-align:justify}main ol,main ul{padding-left:24px}main ol{list-style:decimal}main ul{list-style:disc}main strong{font-weight:700}main h1,main h2,main h3,main h4,main h5,main h6,main p,main ul,main ol,main img,main pre{margin-bottom:16px}main img{display:block;max-width:100%;height:auto;margin:0 auto}main table{border-collapse:collapse;margin:16px auto}main table td,main table th{border:0;padding:2px 8px}main table tr:first-child th{border-top:2px solid #74796c;border-bottom:1px solid #74796c}main table tr:last-child td{border-bottom:2px solid #74796c}main hr{width:100%}main blockquote{margin:0;padding:0 0 0 12px;border-left:2px solid #74796c}main code{font-family:f-mono,f-sans,monospace}main pre{outline:1px solid #74796c;border-radius:2px}main pre code{display:block;width:fit-content;padding:12px}main details summary{cursor:pointer;list-style:none;width:fit-content;border-radius:2px}main details summary:before{content:"";display:inline-block;margin-right:.25em;width:1em;height:1em;vertical-align:-7.5%;background-color:#1a1d16;mask:url("data:image/svg+xml;utf8,") center/contain no-repeat}@media (hover: hover){main details summary:hover{color:#0001b4;outline:1px dashed}main details summary:hover:before{background-color:#0001b4}}main details summary:active{color:#0001b4;text-decoration:none;outline:1px solid}main details summary:active:before{background-color:#0001b4}main details[open] summary:before{mask:url("data:image/svg+xml;utf8,") center/contain no-repeat}main .footnotes{padding-top:32px}main .footnote{overflow:hidden;width:100%;height:0px;border:none;border-bottom:1px solid #74796c}main sup a{font-weight:700;text-decoration:none;border-radius:2px}main sup a:visited{color:#0001b4}@media (hover: hover){main sup a:hover{text-decoration:none;outline:1px dashed}}main sup a:active{text-decoration:none;outline:1px solid}main .data-footnote-backref{font-weight:700;text-decoration:none;border-radius:2px}main .data-footnote-backref:visited{color:#0001b4}@media (hover: hover){main .data-footnote-backref:hover{outline:1px dashed}}main .data-footnote-backref:active{outline:1px solid}main .footnotes p{margin:0 0 8px}.aa--l-pm{margin-left:-.5em}.aa--r-pm{margin-right:-.5em}.aa--m-pm{margin:0 -.25em}.aa--jw-aki:after{font-size:57.5862068966%;vertical-align:top;content:" "}.aa--lr-pm-aki:after{font-size:172.4137931034%;vertical-align:top;content:" "}.aa--m-pm-aki:after{font-size:86.2068965517%;vertical-align:top;content:" "}.aa--d-pm-aki:after{font-size:344.8275862069%;vertical-align:top;content:" "}math{font-family:"Fira Math",f-sans,sans-serif;font-style:normal;font-weight:400;line-height:normal;font-size-adjust:none;text-indent:0;text-transform:none;letter-spacing:normal;word-wrap:normal;direction:ltr;font-feature-settings:"dtls" off;display:inline-flex;flex-wrap:wrap;align-items:baseline}math .tml-display{display:block}math *{border-color:currentColor}mo.prime-pad{padding-left:.08em}menclose{-webkit-print-color-adjust:exact;print-color-adjust:exact}.tml-right{text-align:right}.tml-left{text-align:left}@supports (not (-webkit-backdrop-filter: blur(1px))) and (not (-moz-appearance: none)){menclose{position:relative;padding:.5ex 0ex}.tml-overline{padding:.1em 0 0;border-top:.065em solid}.tml-underline{padding:0 0 .1em;border-bottom:.065em solid}.tml-cancel{display:inline-block;position:absolute;left:.5px;bottom:0;width:100%;height:100%;background-color:currentColor}.upstrike{clip-path:polygon(.05em 100%,0em calc(100% - .05em),calc(100% - .05em) 0em,100% .05em)}.downstrike{clip-path:polygon(0em .05em,.05em 0em,100% calc(100% - .05em),calc(100% - .05em) 100%)}.sout{clip-path:polygon(0em calc(55% + .0333em),0em calc(55% - .0333em),100% calc(55% - .0333em),100% calc(55% + .0333em))}.tml-xcancel{background:linear-gradient(to top left,#0000 0% calc(50% - .06em),#000 50%,#0000 calc(50% + .06em) 100%),linear-gradient(to top right,#0000 0% calc(50% - .06em),#000 50%,#0000 calc(50% + .06em) 100%)}.longdiv-top{border-top:.067em solid;padding:.1em .2em .2em .433em}.longdiv-arc{position:absolute;top:0;bottom:.1em;left:-.4em;width:.7em;border:.067em solid;transform:translateY(-.067em);border-radius:70%;clip-path:inset(0 0 0 .4em);box-sizing:border-box}.menclose{display:inline-block;text-align:left;position:relative}.phasor-bottom{border-bottom:.067em solid;padding:.2em .2em .1em .6em}.phasor-angle{display:inline-block;position:absolute;left:.5px;bottom:-.04em;height:100%;aspect-ratio:.5;background-color:currentColor;clip-path:polygon(.05em 100%,0em calc(100% - .05em),calc(100% - .05em) 0em,100% .05em)}.tml-box{padding:3pt 0;border:1px solid}.tml-fbox{padding:3pt;border:1px solid}.circle-pad{padding:.267em}.textcircle{position:absolute;inset:0;border:.067em solid;border-radius:50%}.actuarial{padding:.03889em .03889em 0;border-width:.08em .08em 0em 0em;border-style:solid;margin-right:.03889em}.tml-crooked-2{transform:scale(2,1.1)}.tml-crooked-3{transform:scale(3,1.3)}.tml-crooked-4{transform:scale(4,1.4)}.tml-right{text-align:-webkit-right}.tml-left{text-align:-webkit-left}}@supports (-webkit-backdrop-filter: blur(1px)){.tml-xshift{transform:translateY(.45em)}.tml-capshift{transform:translateY(.35em)}}math>mrow{padding:.5ex 0ex}mtable.tml-jot mtd{padding-top:.7ex;padding-bottom:.7ex}mtable.tml-small mtd{padding-top:.35ex;padding-bottom:.35ex}@-moz-document url-prefix(){math{display:inline}math>mrow{padding:0}mtd,mtable.tml-small mtd{padding-top:0;padding-bottom:0}mtable.tml-jot mtd{padding-top:.2ex;padding-bottom:0ex}}.tml-eqn:before{counter-increment:tmlEqnNo;content:"(" counter(tmlEqnNo) ")"}body{counter-reset:tmlEqnNo}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2]{display:flex;align-items:baseline;margin:0 auto;padding:24px 0 18px;width:calc(min(100%,840px) - 32px)}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] a[data-astro-cid-3ef6ksr2]{color:inherit;text-decoration:none;border-radius:2px}@media (hover: hover){header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] a[data-astro-cid-3ef6ksr2]:hover{color:#0001b4;outline:1px dashed}}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] a[data-astro-cid-3ef6ksr2]:active{color:#0001b4;outline:1px solid}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] .title[data-astro-cid-3ef6ksr2]{font:500 1rem/1.56rem f-sans,sans-serif;margin-bottom:6px}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2]{font:500 .91rem/1.56rem f-sans,sans-serif;margin-left:auto}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2]{display:flex}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] li[data-astro-cid-3ef6ksr2]:not(:first-child){margin-left:12px}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .nav-item[data-astro-cid-3ef6ksr2]{display:inline}@media (hover: hover){header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .nav-item[data-astro-cid-3ef6ksr2]:hover{color:#0001b4;outline:1px dashed}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .nav-item[data-astro-cid-3ef6ksr2]:hover:before{background-color:#0001b4}}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .nav-item[data-astro-cid-3ef6ksr2]:active{color:#0001b4;outline:1px solid}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .nav-item[data-astro-cid-3ef6ksr2]:active:before{background-color:#0001b4}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .posts[data-astro-cid-3ef6ksr2]:before{content:"";display:inline-block;margin-right:.25em;width:1em;height:1em;vertical-align:-7.5%;background-color:#1a1d16;mask:url("data:image/svg+xml;utf8,") center/contain no-repeat}header[data-astro-cid-3ef6ksr2] .header-content[data-astro-cid-3ef6ksr2] nav[data-astro-cid-3ef6ksr2] ul[data-astro-cid-3ef6ksr2] .tags[data-astro-cid-3ef6ksr2]:before{content:"";display:inline-block;margin-right:.25em;width:1em;height:1em;vertical-align:-7.5%;background-color:#1a1d16;mask:url("data:image/svg+xml;utf8,") center/contain no-repeat}footer[data-astro-cid-sz7xmlte]{position:sticky;top:100lvh}footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte]{display:flex;margin:0 auto;padding:8px 0 24px;width:calc(min(100%,840px) - 32px)}footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte] .copyright[data-astro-cid-sz7xmlte]{font:500 .91rem/1.56rem f-sans,sans-serif;margin-right:12px}footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte] .nav[data-astro-cid-sz7xmlte]{font:500 .91rem/1.56rem f-sans,sans-serif;margin-left:auto}footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte] .nav[data-astro-cid-sz7xmlte] li[data-astro-cid-sz7xmlte]:not(:first-child){margin-top:8px}footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte] .nav[data-astro-cid-sz7xmlte] a[data-astro-cid-sz7xmlte]{text-decoration:none}@media (hover: hover){footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte] .nav[data-astro-cid-sz7xmlte] a[data-astro-cid-sz7xmlte]:hover{text-decoration:underline 8%}}footer[data-astro-cid-sz7xmlte] .footer-content[data-astro-cid-sz7xmlte] .nav[data-astro-cid-sz7xmlte] a[data-astro-cid-sz7xmlte]:active{text-decoration:underline 8%}
.date[data-astro-cid-egg7nqdx]{font:400 .91rem/1.56rem f-sans,sans-serif;color:#44483e;display:flex;margin-top:4px}.date[data-astro-cid-egg7nqdx] .updated[data-astro-cid-egg7nqdx]{margin-left:12px}.date[data-astro-cid-egg7nqdx] .space[data-astro-cid-egg7nqdx]{margin-left:4px}.tags[data-astro-cid-egg7nqdx]{font:400 .91rem/1.56rem f-sans,sans-serif;margin:2px -8px 32px 0}.tags[data-astro-cid-egg7nqdx] .tag[data-astro-cid-egg7nqdx]{display:inline-block;margin-right:8px;color:#44483e;text-decoration:none;border-radius:2px}@media (hover: hover){.tags[data-astro-cid-egg7nqdx] .tag[data-astro-cid-egg7nqdx]:hover{color:#0001b4;outline:1px dashed}}.tags[data-astro-cid-egg7nqdx] .tag[data-astro-cid-egg7nqdx]:active{color:#0001b4;outline:1px solid}
bitを高速に数える(手法の比較) | Daiji256bitを高速に数える(手法の比較)
はじめに
本記事ではbitの1の数を数える手法(アルゴリズム)の比較を行います。アルゴリズムの詳しい内容等は紹介せずあくまで処理速度の比較だけ行います。アルゴリズムの詳しい内容は下の参考文献に飛んでください。
アルゴリズム
Hamming weightで紹介されている5つの手法の演算回数について簡単にまとめます。Aは有名なアルゴリズムをそのまま実装した状態です。BとCはAの高速化である派生です。Dはbitが立っている(1になっている)数に比例して演算量が増えます。Eは力技で、16 bitすべての数に対して立ってるbitの数をメモしておき、64 bitを4分割してその合計として求めています。メモリを多く使用し、64 bitのようにbit数が多い場合はあまり高速ではありません。
手法 | 算術 | 乗算 | 比較/分岐 | メモリ読み込み | 特徴 |
---|
A | 24 | 0 | 0 | 0 | 単純な実装 |
B | 17 | 0 | 0 | 0 | 乗算が遅い環境で優秀 |
C | 12 | 1 | 0 | 0 | 乗算が速い環境で優秀 |
D | 3n | 0 | 1n | 0 | nは1になっている数 |
E | 9 | 0 | 0 | 4 | 16 bitごとに読み取る |
実験
実験環境・ソースコード
実験で使用したソースコードはGitHubにあげておきます。実験環境は下のとおりです。最適化についてはGitHubにあげているMakefileを見てください。
- OS: Ubuntu 20.04.1
- Kernel: 5.4.0-58-generic
- CPU: Intel i5-3360M (4) @ 3.5 GHz
- gcc: version 9.3.0 (C11)
実験1単純な比較
まずは全bitに対して処理を行う安直な手法Nと5つの手法A—EをC言語に実装してタイムを計測します。1億個の乱数に対してビットカウントを行いその処理時間を計測します。計測結果を表にまとめます。このときの立っているbitの平均は32です。(64 bitの乱数でやりました。)この環境ではCがBよりも高速でした。Dはこの中ではもっとも遅いですがそれでもNに比べて十分高速です。EもCと同等の速度ですが、メモリのことを踏まえると微妙に感じます。
手法 | 時間 |
---|
N | 4.447 s |
A | 0.541 s |
B | 0.467 s |
C | 0.386 s |
D | 3.025 s |
E | 0.393 s |
実験2特殊環境下での比較
次に立っているbitの数が平均0.5の場合で測定します。Dは4倍程度高速になったがもっと高速化されてもいいのかなと思いました。しかし、Cなどと比較しまだ遅いことからこの環境下では使用する必要性はないと思います。また、Nは下位bitから参照し0になったとき終了するようにしているため、高速化されたがそもそもNは使わない。
手法 | 時間 |
---|
N | 1.966 s |
A | 0.534 s |
B | 0.458 s |
C | 0.381 s |
D | 0.735 s |
E | 0.364 s |
実験3 -march=native
による最適化
-march=native
は特定のCPUを指定して高速化を行います。コンパイル後のバイナリデータを他の人と共有する場合は不適切ですが、自分の環境だけでの使用の場合はオススメします。実験結果を示します。D以外は少し高速化されました。注目できるのはDで、30倍程度高速化されこの中で最速となっています。
手法 | 時間 |
---|
N | 4.257 s |
A | 0.380 s |
B | 0.235 s |
C | 0.181 s |
D | 0.091 s |
E | 0.212 s |
実験4 _popcnt64
と__asm__
最後に_popcnt64
と__asm__
を利用して計測する。-march=native
無しの結果をN、有りの結果をYに示しています。結果はどの自作関数より高速になりました。これらが使える環境では使用したほうが良いと思います。
手法 | 時間 (N) | 時間 (Y) |
---|
_popcnt64 | 0.234 s | 0.071 s |
__asm__ | 0.234 s | 0.071 s |
まとめ
bitを高速に数える手法の比較を行いました。安直に数える場合に比べて10倍程度高速に数えるアルゴリズムであると確認できました。_popcnt64
と__asm__
はこれらに比べてより高速であることも確認できました。
文献
- ソースコード
- Hamming weight
- x86_64でpopcnt / tzcnt / lzcntする【ビット演算テクニック Advent Calendar 2016 5日目】
- GCC
- bitを高速に数える 手法の比較