WinRAR (часть 3) - [65] :: Программы :: Компьютерный форум Ru.Board

Цитата:

Оно сможет эффективно искать в 1гб словаре? А на карте какого уровня? И будет ли какой-нибудь толк от использования встройки?

у меня на 4-ядернике i7-4770 скорость RAR - порядка 50 МБ/с, что - не так уж случайно - совпадает с поточной скоростью случайных обращений к памяти

BSC с GPU-акселерацией кодирует со скоростью 140 МБ/с. На GPU при этом ложится сортировка, на CPU - только кодирование. если кодирование упростить (к примеру, до алгоритма, эквивалентного bzip2), то можно добить скорость до 1 ГБ/с, потеряв ~5% сжатия. Даже без GPU такой упрощённый алгоритм сможет сжимать со скоростью 300-500 МБ/с. Но понятно - у BWT/ST алгоритмов медленная распаковка и наилучшее сжатие только для текстов. Хотя если сравнить с другими алгоритмами, работающими на таких скоростях, то вероятно bzip2 обойдёт их и на бинарниках. Это достаточно простой, заведомо реализуемый проект. Я провёл необходимые для его реализации исследования в https://github.com/Bulat-Ziganshin/Compression-Research

По LZ-сжатию у меня есть только намётки различных подходов к поиску и оптимальному парсингу, оценки в районе 300-1000 МБ/с для 1080ti исходят из того, что мы сможем сделать поиск с одним обращением в память на один входной байт (позицию во входном буфере) и при этом не упереться в скорость вычислений

Вообще, отличия GPU от CPU:
1) на порядок больше memory throughput, в частности больше миллиарда случайных обращений в секунду
2) на порядок больше число ядер, например gf1080 - 2560/32=80 ядер, vega64 - 4096/16=256 ядер
3) строго in-order выполнение, большие чем у CPU задержки выполнения команд и обращений к памяти, особенно обращения к L1 кешу и shared memory - десятки циклов. чтобы покрыть их, у нвидии каждое ядро должно выполнять ~10 потоков, а у амд 3-4. т.е. в целом вынь да положь ~1000 потоков выполнения
4) это исключительно SIMD-процессоры с шириной simd-команд у intel 8-32, nvidia - 32, amd - 64. если твой алгоритм не simd-ифицируем, то ты теряешь большую часть вычислительных ресурсов. Впрочем, во-первых, в GPU simd очень гибкий, во-вторых даже на скалярных вычислениях GPU сопоставимы по мощи с CPU (но уже не превосходят их на порядок как в SIMD)
5) размеры кеш-памяти сопоставимы с CPU-шными, таким образом на каждый поток выполнения приходится раз в 100 меньше кеша. это собственно единственная причина, почему большинство даже хорошо распараллеливаемых CPU-алгоритмов плохо ложатся на GPU. Алгоритмы для GPU не должны полагаться на то, что данные лягут в кеш и 90% обращений к памяти до неё не дойдут. С другой стороны, память тут куда быстрее

В целом, GPU алгоритмы должны переносить тяжесть с хеширования как универсального способа решения всех проблем на сортировку в том же качестве

Например, твой m/t алгоритм поиска уже рассортировывает позиции на несколько потоков. Представь сортировку по номеру хеш-бакета (а radix сортировка на GPU очень быстрая, миллиарды записей в секунду), после чего ты небольшие сегменты, соответствующие каждой хеш-корзине, можешь обрабатывать совершенно независимо от других корзин. Т.е. запустить ту самую тысячу потоков на GPU. При этом каждый поток будет держать в кеше по 32 байта из последних 32 позиций в своей хеш-корзине, т.е. 1024 байта на поток, 1 МБ достаточно для тыщи потоков

Т.е. в целом алгоритм поиска может выглядеть так - берём 8 МБ входных данных, сортируем их по корзинам, собираем матчи, сортируем их по позициям и отдаём это оптимальному lz-парсеру

Это лишь один из возможных подходов, которые я придумал, но понятно что тут куча ньюансов. В целом, GPU-алгоритмы - это отдельная область, нуждающаяся в большом объёме исследований. Когда кто-то их проведёт, расставит вешки, тогда уже другим будет легче

С другой стороны, внедрение GPU-алгоритмов не происходит потому, что все думают только об идеальных результатах, когда раз - и весь твой кодек на GPU заработал, только в 10 раз быстрее, причём на встройке и с гигабайтным словарём. А надо начинать с малого - скажем, в zstd -1 половина времени уходит на хафмена. В BSC на gpu перенесли алгоритм сортировки. У меня в новом srep память GPU будет использоваться вместо свопинга на HDD. И т.д.

Отдельный вопрос - встройки. У интеловских встроек мощность что в SIMD, что в скалярном режиме сопоставима с CPU, не говоря уже об одинаковой памяти. Т.е. тут о превосходстве на порядок можно забыть. Но с другой стороны - это всё же вторая пара рук, причём совершенно бесплатно и на любом компьютере. Разве плохо переложить на них того же хафмена и получить от 10% ускорения в обычных режимах до 2-кратного в -m1?

Более того - поскольку simd в gpu более развит, чем в cpu, есть шанс, что алгоритмы, которые не удаётся впихнуть в прокрустово ложе SSE/AVX, будут эффективно работать на GPU включая встройки. Тот же оптимальный парсинг в них вполне реализуем (впрочем, он даже на AVX2 может худо-бедно лечь), упираясь лишь во всё те же проблемы соотношения объёма кеш-памяти и уровня simd-параллелизма.

Так что от мифа, что GPU принципиально не подходят для наших алгоритмов, я перешёл к вере в то, что их реализация возможна, но потребует огромного объёма работы с освоением совершенно новых для нас подходов к оптимизации. Вот только востребовано ли это?

----------
Автор FreeArc

Модерирует : gyra, Maz
Maz (27-08-2020 19:31): WinRAR (часть 4)	Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199