Seti@Home optimized science apps and information
Optimized Seti@Home apps => Windows => GPU crunching => Topic started by: Raistmer on 11 Sep 2010, 07:19:47 am
-
ATI/AMD GPU-only and HYBRID GPU+CPU Optimized AstroPulse 5.06 (r449-r456) for Windows OS
Three editions available now at GPU Apps Public Downloads area (http://lunatics.kwsn.net/index.php?module=Downloads;catd=39)
First of all: This release intended for ADVANCED USERS. If you not sure you can repair your BOINC installation if something will go wrong - wait when this app will be included in Lunatics installer.
There are 3 different builds suitable for different types of ATI/AMD hardware.
1) OpenCL based application that can be used on HD4xxx/5xxx series of ATI GPUs.
2) OpenCL/Brook+ combo app that can be used on same GPU classes (HD4xxx/HD5xxx) but maybe provide different (better) performance/experience for some host setups
3) Brook+ GPU/CPU "hybrid" build - it suitable for older ATI GPUs and on-board chips starting from HD2xxx seria. It's update release for released before Hybrid AP rev393.
Requirements:
1), 2):
ATI GPU 4xxx or 5xxx, ATI Stream SDK2.2 installed, CPU with SSE2 and better support, Catalyst 10.7b drivers.
[
for some hosts with only HD4xxx GPU installed additional environment variable may be needed: GPU_MAX_HEAP_SIZE=256
To set it go My computer->Properties->Advanced->Environment variables (path can be slightly different in different windows versions). But before setting such variable run application and check stderr.
If you see line:
Global memory size:
with value >128MB - you don't need this environment variable
]
You can download SDK here: http://developer.amd.com/gpu/ATIStreamSDK/Pages/default.aspx
Release notes for 1):
There are 2 command line switches that can be used for app performance tuning:
-ffa_block 8192 (default value) - defines how many different periods GPU will process per single kernel call
-ffa_block_fetch 2048 (default value) - defines how many threads will be used in FFA initial fetch kernel
Rules for using these values:
-ffa_block_fetch <number> can be used only if -ffa_block <number> already listed in command line
numbers should be even,better if they will be power of 2, ffa_block should be divisible by ffa_block_fetch.
If you experience lags during application execution try to decrease these values.
-disable_slot <slot_number>
It should allow to exclude broken device even if BOINC assigns task to it. For better use it's worth to set count value in coproc section from 1 to 2 (or as appropriate) to limit number of tasks launched by BOINC. If all GPUs work OK no need to use this option.
Known issues::
1) App will not work (no progress on secondary chip at all or will produce invalid results) on second core of dual-core GPUs like 5970 and will produce invalid results(or no progress at all) with CrossFire enabled on non-primary GPUs in system.
It's ATI SDK2.2 related bug, ask ATI for fix.
2) It can blink with popup console windows at each new task start. Again, it's long standing bug with ATI SDK: http://forums.amd.com/devforum/messageview.cfm?catid=390&threadid=136672&enterthread=y
Ask AMD for fix.
EDIT: this bug was solved in Cat 10.12, update drivers.
Requirements for 3) :
ATI GPU 2xxx or better, Catalyst 9.x or better drivers
To get any AP tasks for GPU don't forget to enable "Send work from other apps" on web preferencies page
app_info.xml section for this app (for testing on main):
app_info.xml file sections for using these apps:
1), 2): ( for 2) don't forget to change executable file name in provided sample. Sample can be used as is only for 1) app )
<app>
<name>astropulse_v505</name>
</app>
<file_info>
<name>ap_5.06_win_x86_SSE2_OpenCL_ATI_r456.exe</name>
<executable/>
</file_info>
<file_info>
<name>AstroPulse_Kernels.cl</name>
<executable/>
</file_info>
<app_version>
<app_name>astropulse_v505</app_name>
<version_num>506</version_num>
<avg_ncpus>0.01</avg_ncpus>
<max_ncpus>0.01</max_ncpus>
<plan_class>ati13ati</plan_class>
<cmdline>-ffa_block 8192 -ffa_block_fetch 2048</cmdline>
<coproc>
<type>ATI</type>
<count>1</count>
</coproc>
<flops>15987654321</flops>
<file_ref>
<file_name>ap_5.06_win_x86_SSE2_OpenCL_ATI_r456.exe</file_name>
<main_program/>
</file_ref>
<file_ref>
<file_name>AstroPulse_Kernels.cl</file_name>
<copy_file/>
</file_ref>
</app_version>
3)
<app>
<name>astropulse_v505</name>
</app>
<file_info>
<name>ap_5.06_x86_win_SSE_BROOK_NO_DOUBLE_r453.exe</name>
<executable/>
</file_info>
<app_version>
<app_name>astropulse_v505</app_name>
<version_num>505</version_num>
<avg_ncpus>0.1</avg_ncpus>
<max_ncpus>0.1</max_ncpus>
<plan_class>ati13ati</plan_class>
<coproc>
<type>ATI</type>
<count>0.5</count>
</coproc>
<flops>6000000000</flops>
<file_ref>
<file_name>ap_5.06_x86_win_SSE_BROOK_NO_DOUBLE_r453.exe</file_name>
<main_program/>
</file_ref>
</app_version>
Please, edit <max/avg_ncpus> and <count> tags values as appropriate for your config.
For hosts participating in other ATI-based projects <count>0.5</count> can be changed to <count>0.1</count>
I would like to thank all Lunatics crew for continual and very helpfull support. W/o it this release could not be happen.
-
2xHD5970:
There has not been any response on AMD Forum (http://forums.amd.com/devforum/messageview.cfm?catid=390&threadid=138917&enterthread=y/), but I have established a "truce" so to speak, so that the percentage of validated task are now almost normal.
By disabling only slot 1, there is no longer a memory leak (both tasks @ around 90MB RAM), and the tasks are using only 2 of the 4 GPUs on the 2x5970.
The only problem remaining is that both tasks will after a random amount of time hang, and I have to suspend/activate tasks for them to progress again.
Is this something that you can look into, or is this SDK 2.2-bound?
M
-
Is this something that you can look into, or is this SDK 2.2-bound?
If you see no error messages in stderr I think nothing can be done for now until new SDK/driver release.
-
Well done and many thanks to everyone who made this real!!!
Despite the bad omens:
a. problems with 10.8/10.8b drivers on 4870x2 with games (stayed at 10.5a for stability on games) and
b. very difficult to get one AP unit nowadays,
I will give it a try on my 4870x2 very soon and will give any feedback to the crew.
Again, thank you guys!!!
-
a. problems with 10.8/10.8b drivers on 4870x2 with games (stayed at 10.5a for stability on games) and
Look first post carefully - Cat 10.7 listed, not Cat 10.8/10.8b.
I will not say it will not work with Cat 10.8, but recommended one is 10.7
-
Yes, I saw it.
But because only with 10.5a I have stability in games and possible with the 10.8b ones, I'll give 10.8b a try with games and then try the AP with them.
Unfortunately, the main role of the pc with the 4870x2 is for games, so I have to be careful with the catalysts I install.
-
On my rig it works fine with 10.8.
-
Well, installed Catalysts 10.8b, AMD SDK 2.2, fixed app_info.xml and selected "OpenCL" for starters.
Until SETI is up again (stupid A/C), I have a question on:
To get any AP tasks for GPU don't forget to enable "Send work from other apps" on web preferences page
I already have enabled all three checks on preferences (Seti@Home Enhanced, Astropulse and Astropulse v5),
are you sure that I have to enable also this to get any AP task?
Does this check refer to other projects, out of the Seti@Home project family?
PS. I hope this whole release is not for Seti@Home beta only!
-
Well, installed Catalysts 10.8b, AMD SDK 2.2, fixed app_info.xml and selected "OpenCL" for starters.
Until SETI is up again (stupid A/C), I have a question on:
To get any AP tasks for GPU don't forget to enable "Send work from other apps" on web preferences page
I already have enabled all three checks on preferences (Seti@Home Enhanced, Astropulse and Astropulse v5),
are you sure that I have to enable also this to get any AP task?
Does this check refer to other projects, out of the Seti@Home project family?
PS. I hope this whole release is not for Seti@Home beta only!
Yes, you need "Send work from other apps" ticked, as the Astropulse and Astropulse_v5 switches are for obsolete apps,
and there's no Astropulse_v505 switch yet, the switch is in Setiathome Project Preferences, so is only for the Main Setiathome Project.
Claggy
-
OK then. Waiting for seti servers to "wake up", as the preferences pages are offline right now.
Thank you!
-
Due to the A/C failiar, it could be friday, before we see any activity from SETI, hoping I'm wrong with this...... :o
But I've todo some 'maintenance' , too, computers, they can keep you busy ;D
Hope they'll look/repair the A/C unit, too and a "Back-Up A/C", comes to mind, too.
-
how long till its included in the lunatics installer? i can probably figure it out but if its an easier way not far away, let me know ;)
ps what is meant by MB unit? can i make the ati gpus run regular seti units that hte cpu does? nvidia seems to crunch them pretty fast. let me know :)
-
I just can't wait for downloading a AP workunit to start crunching with my ATi4870x2 !!!
MB stands for MultiBeam, which is the setiathome enchanced, which CPU and Nvidia GPU can crunch.
AP stands for Astropulse, which its workunits can be crucnhed by Raistmer's application on a supported ATi GPU.
-
I just can't wait for downloading a AP workunit to start crunching with my ATi4870x2 !!!
Hope it will go OK. Our beta tester with two-core GPU had lot of issues before found a way to run app more or less smoothly.
Look first page - two-cores GPUs not quite supported (ATi SDK limitation). But worth to try anyway ;)
-
Well, I have bad news. :(
Just downloaded the first one, and after 5 seconds, the computation stops as completed without any errors.
Raistmer, could you guide me to return any logs back to you?
It just downloads AP units one after the other now.
Do these helps?
http://setiathome.berkeley.edu/result.php?resultid=1709396634
http://setiathome.berkeley.edu/result.php?resultid=1709395807
-
"Error in ap_remove_radar.cpp: generate_envelope: num_ffts_performed < 100. Blanking too much RFI?"
First task completed just OK, no prob here, just too much noise (not app problem).
(and second your task just the same). They are valid, will get credit and so on. (if your wingman will find same % of blanking too)
-
OK.
The same here http://setiathome.berkeley.edu/result.php?resultid=1709396634
How possible is 3/3 of having too much RFI? Unlucky of me :(
-
If they have sequental numbers (i.e, came from almost same point in time and space) - very possible ;)
[Let see:
ap_05ap10ab_B3_P1_00022_20100917_13109
ap_05ap10ab_B3_P1_00021_20100917_13109
ap_05ap10ab_B3_P1_00022_20100917_13109
]
I would say - yes, very probable, especially taking into account that third just one of first two ;)
-
BTW, I see 2 more AP tasks assigned for your host. They are from another day.If they will have too much RFI too - it would be more strange...
-
BTW, I see 2 more AP tasks assigned for your host. They are from another day.If they will have too much RFI too - it would be more strange...
Hmmm.. I see them... Assigned but never downloaded to my PC.
-
If they have sequental numbers (i.e, came from almost same point in time and space) - very possible ;)
[Let see:
ap_05ap10ab_B3_P1_00022_20100917_13109
ap_05ap10ab_B3_P1_00021_20100917_13109
ap_05ap10ab_B3_P1_00022_20100917_13109
]
I would say - yes, very probable, especially taking into account that third just one of first two ;)
There have also been at least two extended periods in the past where all _B3_P1_ tasks had bad data which causes that "...Blanking too much RFI?" exit, some kind of problem at the multibeam recorder I think. By extended I mean weeks or months, but as it is only one channel out of 14 there were still many good WUs to do.
Joe
-
the only question remains - if SO long periods involved why to split apparently broken data... tasks were completed in few seconds, each task takes 8MB to download. Downloading time will exceed crunching time even for typical ADSL connection....
-
I have some data to share with you guys about my first non-"too much RFI" workunit of AP.
ATi 4870x2 running on stock clocks using Catalysts 10.9, BOINC 6.10.56 x64 and OpenCL_r456 application.
Up to now I can see that the application:
a. is doing 14,1% per hour meaning a ~7 hours for a 100% (% per hour is rising every interval so it might hit 4-5 hours for a 100%),
b. is using 45%-98% of the GPU with an average usage of 83%, and
c. is using 3%-50% one core of the CPU with an average usage of 24% (same core is shared with a MB workunit)
I also see that the intervals of the BOINC Manager is every 0,9% of the workunit.
BOINC Manager continuously asks for a task for the 2nd GPU, but up to now it seems unable to get one, although there are some available.
Any other date that might be interesting to give you, please tell me to.
PS. Great work guys!!!
-
Performance depends from % of blanking for particular task. From your description one could infer you seeing task with high enough % of blanking. To check this, please, post link to result for this task when it finishes.
-
Good news, managed to download another task for the 2nd GPU.
Bad news, 3D clocks do not kick in, so 2nd GPU is running on 507MHz and not in 750MHz (possibly an error of 10.9 Catalysts as this appears on some games also).
I'll post the result link of the first task as soon as it finishes.
-
For Cat 10.7 and HD4870 I see clock increase when app works.
It's Cat 10.9, definitely.
-
Just a small update on the 2 AP tasks of mine.
Task 1 crunching on the 1st GPU @ 3D clocks, having an usage on an average of 85%, with lows and peaks of 55%-98%
GPU Time 4:14 @ 60.360% (14,3% per hour) , found 2 pulses up to now
Task 2 crunching on the 2st GPU @ 2D clocks, having an usage on an average of 82%, with lows and peaks of 31%-91%
GPU Time 3:15 @ 21.621% (6,7% per hour) , found 30 pulses up to now
Both appear to have taken 94-114MB of memory.
Also, many times Boinc Manager paused and started the tasks on high CPU usage -as I have told it to, without any problem like a "Computation Error" or "Restarting the task from the beginning".
-
First AP is ready http://setiathome.berkeley.edu/result.php?resultid=1710297393 ( percent blanked: 23.30 )
-
2 more tasks finished during the night:
http://setiathome.berkeley.edu/result.php?resultid=1710348645 (percent blanked: 51.39)
http://setiathome.berkeley.edu/result.php?resultid=1710348658 (percent blanked: 2.39)
Last one gave me 1,357.91 credits. Nice boost!!!
-
2 more tasks finished during the night:
http://setiathome.berkeley.edu/result.php?resultid=1710348645 (percent blanked: 51.39)
http://setiathome.berkeley.edu/result.php?resultid=1710348658 (percent blanked: 2.39)
Last one gave me 1,357.91 credits. Nice boost!!!
:)
-
Whether probably further performance improvement AP of the client? ::)
P.S. Excuse for my "French" ;D
-
Yes, FFA part just ported from Brook, w/o algorithm adaptation to different OpenCL abilities. Here some improvement should be possible. Also, some improvement for heavy blanking tasks.
-
To Raistmer:
А почему нельзя переложить работу по шумоподавлению на ГПУ?
-
Потому что там используется генератор случайных чисел, который использует двойную точность. Поддержка двойной точности есть не во всех картах, что уже ограничило бы применимость. Кроме того, генерируемая последовательность должна в точности совпадать с той, которая получается на ЦПУ. Вопрос можно ли сымитировать в точности такой же генератор случайных чисел на ГПУ в данный момент обсуждается. В принципе, возможна, наверное, и другая оптимизация тут, но пока "руки не дошли".
После первого релиза АстроПульса я переключился на МультиБим. Его для АТИ карточек выпущу - можно будет и к АстроПульсу вернуться.
-
Ещё, в виду не полной загрузки ГПУ, я попробовал поменять <count>1</count> на <count>0.5</count>, для запуска работы от проэкта Milkyway, но этого не произошло.
Что я упустил?
-
А "не произошло" - это что конкретно означает?
BOINC не запустил задачу от MW ? ИЛИ BOINC запустил второй AP ?
ДЕло в том, что BOINC не понимает, какие задачи могут выполняться одновременно, а какие - нет. Скорее всего он будет либо запускать 2 MW иил 2 AP.
Т.е. придется вручную суспендить все задачи АстроПульса, кроме одной, чтобы она могла в параллель с MW работать.
Ну и конечно нужно поставить 0.5 и для MW. Иначе он хочет ГПУ целиком и не будет запускаться на "половинке".
-
BOINC не запустил MW, но и второй AP он тоже не запустил
-
Это странно, должен был запустить (т.е. в строке статуса будет написано Running), но на самом деле второй астропульс будет висеть в памяти просто с минимальным ее потреблением и ждать пока первый закончится.
-
Да, так и есть, я сейчас ещё раз попробовал. А почему он невыполняет работу?
Это странно, должен был запустить (т.е. в строке статуса будет написано Running), но на самом деле второй астропульс будет висеть в памяти просто с минимальным ее потреблением и ждать пока первый закончится.
-
Приложению требуется довольно много памяти. Чтобы не создавать проблем с переполнением я ввел ограничение на число одновременно работающих копий.
На своей карточке я вижу довольно хорошую загрузку ГПУ на большинстве заданий. Лишь особенно "шумные", где сильно шумоподавление работает, показывают низкую загрузку ГПУ.
-
На своей я всего пару раз наблюдал загрузку более 50%, да и то это были лишь кратковременные пики. Я какнибудь попробую записать статистику загрузки если получится. А так загрузка в среднем 36-41%
Вот Млечныйпуть загружает ГП на всю катушку, но и время выполнения одного задания всего 1 минута 22 секунды.
Приложению требуется довольно много памяти. Чтобы не создавать проблем с переполнением я ввел ограничение на число одновременно работающих копий.
На своей карточке я вижу довольно хорошую загрузку ГПУ на большинстве заданий. Лишь особенно "шумные", где сильно шумоподавление работает, показывают низкую загрузку ГПУ.
-
А какой объем памяти на ГПУ?
[Было бы неплохо приаттачить к ответу stderr.txt из слота с работающим заданием. Там вся информация по карточке есть]
P.S. И заодно можно приаттачить принтскрин GPU-Z. Там картинка загрузки ГПУ в течении нескольких минут очень хорошо показывается.
К примеру, вот что у меня наблюдается в данный момент:
min=74%, max=99%, avg=95%
-
И что еще можно попробовать:
0.55 у астропульса и 0.45 у MW. + поставить долю ресурсов бОльшую у SETI.
Тогда по идее бОльшую часть времени будет работать 1AP +1 MW, но иногда конечно может запускать и 2 MW. Нормального разделения ресурсов между несколькими проектами мы наверное еще не скоро дождемся :-\
-
Вот вся инфа:
min=25%, max=55%, avg=47%
-
Причём за всё время использования клиента r449, это задание сильней всех загружало ГПУ.
ap_11jn10ab_B4_P1_00000_20101001_24435.wu_2
Средняя загрузка предыдущих была ниже.
-
Понятно почему загрузка 50 % :)
Max compute units: 20
у моей карточки, для которой всё и писалось в основном - 10.
В общем, надо будет новую версию выпускать в ближайшее время. А пока см. выше как милкивей с астропульсом хоть немного подружить.
[Хотя это поможет не сильно. Проблема в том, что не все модули заняты счетные. А HD58xx - это всё же не FERMI, она в параллель два разных ядра не запустит. ТАк что, боюсь, толку от одновременной работы 2 программ будет мало. Надо поваышать нагрузку на вызов ядра в самом астропульсе. Это требует доп. затрат памяти. + Ещё дурацкое ограничение на 128Мб выделяемых одним куском, больше одним куском выделить нельзя...]
-
Вот к примеру тот что работает сейчас, уже 93% за 2 часа 23 минуты.
ap_07jn10ac_B2_P0_00271_20101001_06630.wu_2
min=0%, max=49%, avg=10%
загрузка ЦП в среднем 11%
-
А это уже наверняка или может в 58хх это возможно?
А HD58xx - это всё же не FERMI, она в параллель два разных ядра не запустит.
-
Вот к примеру тот что работает сейчас, уже 93% за 2 часа 23 минуты.
ap_07jn10ac_B2_P0_00271_20101001_06630.wu_2
min=0%, max=49%, avg=10%
загрузка ЦП в среднем 11%
Это, видимо, задание с большой долей шума (в stderr потом можно будет посмотреть blanking %).
-
А это уже наверняка или может в 58хх это возможно?
А HD58xx - это всё же не FERMI, она в параллель два разных ядра не запустит.
Насколько мне известно такая возможность только в ферми есть.
-
On my 5850 I've noticed that the more blanked the WU is the longer it takes to complete. I had one that had about 25% blanked and it took nearly 8 hours.
overflow WU's (30 pulses) usually finish in under 2 hour. regular completion times are 2-4 hours.
-
On my 5850 I've noticed that the more blanked the WU is the longer it takes to complete. I had one that had about 25% blanked and it took nearly 8 hours.
overflow WU's (30 pulses) usually finish in under 2 hour. regular completion times are 2-4 hours.
Yes, it behaves just in that way.
I will attach performance vs blanking % graph soon (I did that on beta before, now it will have more points).
-
А это уже наверняка или может в 58хх это возможно?
А HD58xx - это всё же не FERMI, она в параллель два разных ядра не запустит.
Насколько мне известно такая возможность только в ферми есть.
Хотя....
cl_ext_device_fission
http://www.khronos.org/registry/cl/extensions/ext/cl_ext_device_fission.txt
судя по тому, что я прочитал, это расширение позволяет использовать GPU в той же манере, что и в FERMI карточках. Так что может быть какимто образом все же можно два ядра одновременно запускать. Осталось понять что для этого конкретно требуется.
-
Тоесть можно выделить конкретное число вычислительных единиц, под конкретную задачу? К примеру 10 из 20-и
Хотя....
cl_ext_device_fission
http://www.khronos.org/registry/cl/extensions/ext/cl_ext_device_fission.txt
судя по тому, что я прочитал, это расширение позволяет использовать GPU в той же манере, что и в FERMI карточках. Так что может быть какимто образом все же можно два ядра одновременно запускать. Осталось понять что для этого конкретно требуется.
-
Я так это понял. Вопрос в том, что будет с остальными десятью. FERMI вроде как умеет на уровне драйвера задействовать остатки под ядро из другого процесса. Т.о. можно две задачи в параллель запустить - будет выигрыш, если есть свободные вычислительные модули. Умеет ли это АТИшная карточка - не очевидно. Можно попробовать в самой программе одновременно запускать два ядра, каждое на половине счетных модулей. _НО_ очередь для АТИшной карточки строго последовательная (in-order), поэтому для такого подхода придется использовать видимо несколько очередей выполнения, делать между ними синхронизацию... короче, существенное усложнение кода.
Посмотрим, когда-нибудь и до такого дойдем конечно, пока я попробую загрузку ГПУ повысить при вызове одного ядра все же.
[Я сейчас тестирую варианты с возможно бОльшей загрузкой ГПУ (и бОльшим потреблением памяти соответственно). Могу выложить для тестирование несколько вариантов. Желательно сначала опробовать на укороченных тестовых модулях. Я тест-кейс загружу, останется только запустить на выполнение и прислать потом результат]
-
Я готов опробовать. Если можно по подробней на счёт тест кейса, это набор из клиента и задания для него?
-
Я готов опробовать. Если можно по подробней на счёт тест кейса, это набор из клиента и задания для него?
Почти. На самом деле программа может работать и без BOINC клиента вообще. В standalone режиме.
Соответственно при тестировании используется скрипт, который запускает программу с различными тестовыми модулями (они существенно короче онлайновых + различные особенности онлайновых модулей в них проявляются четче).
Вообще часть этих тестов должна быть общедоступной (хотя я не уверен в уровне привилегий).
Вот ссылки на уже выложенные, но я подготовлю (чуть позже, тут сейчас кажется нашел проблемный участок, который для нвидиевской карточки жизнь портил, надо пофиксить) спец-набор:
http://lunatics.kwsn.net/index.php?module=Downloads;catd=5
-
Прав пока не густо... ;D Даже бета область пока не появилась, сколько постов то надо? ::)
А если серьёзно, то жду спец-набор, буду рад помоч.
-
Прав пока не густо... ;D Даже бета область пока не появилась, сколько постов то надо? ::)
А если серьёзно, то жду спец-набор, буду рад помоч.
Да раньше и 10 хватало, потом там подкрутили что-то, сколько сейчас даже и не знаю. Ну будем работать публично, что поделаешь ;D
-
Прав пока не густо... ;D Даже бета область пока не появилась, сколько постов то надо? ::)
А если серьёзно, то жду спец-набор, буду рад помоч.
Вот обещанная ссылка:
http://files.mail.ru/QQOUB8
надо разархивировать в подкаталог отдельный и запустить cmd файл.
Скрипт BOINC должен будет остановить сам.
Потом все содержимое каталога TestData нужно мне вернуть будет :)
Предупреждаю, что версия x13 на моей карточке работает ну _очень_ долго. Резвее всего у меня х12. х10 - это чуть ускоренный эквивалент релиза.
Как себя поведет х13 на 5870 - очень интересно.
-
Архив забрал, ща буду тестить...
-
Первые результаты:
х10 отработал быстро и без всяких проблем,а вот после старта
х11 через какое то время вылезло следующее сообщение: ohibka1.jpg
после чего всяческая работа на ГПУ прекратилась, (даже частота ГПУ автоматически упала до 400MHz), а вот загрузка 0-го ядра ЦПУ выросла до 100% и в таком режиме он работает уже 3 часа 10 минут.
Подобную проблему я уже описывал с r456, но после установки Cat 10.9 она вроде бы исчезла.
С r449 таких проблем не возникало, потому именно им я сейчас и пользуюсь.
-
А ещё при старте скрипт ненашёл мой BOINC, вот что выдал:
Stopping Boinc ...
Системная ошибка 1060.
Указанная служба не установлена.
"wkill" не является внутренней или внешней
командой, исполняемой программой или пакетным файлом.
"boinccmd" не является внутренней или внешней
командой, исполняемой программой или пакетным файлом.
Для продолжения нажмите любую клавишу . . .
Потому я потушил BOINC в ручную.
-
Мне кажется, так висеть он будет долго. С r456 помагал рестарт задания, или перезапуск BOINC.
Что делать? вырубать или ждать оканчания?
-
после рестарта драйвера надо процесс убивать через таск менеджер.
Висеть будет бесконечно долго ... :( В этом большая проблема рестарта драйвера - приложение об этом не знает - просто последний вызов не возвращает управления и все, висим до бесконечности...
-
можно попробовать перезапустить тест, изменив параметры (отредактировав cmd файл.
вместо 8192 в обоих случаях (4 места в файле) надо написать 1024. И попробовать ещё раз. Если будет рестарт - сразу текущий процесс убивать, ждать после рестарта уже бесполезно.
А вот если рестарта нет - желательно подождать окончания, даже если работает медленно (но ЦПУ при этом не должен быть занят на 100% - это признак сбоя).
-
Поздно я эти два поста увидел... :)
Я в принципе так и сделал, процесс убил, остальные пошли нормально.
Затем я повторил тест под Windows 7 с драйвером 10.7
Затем обновил драйвер до 10.9 и снова повторил тест.
Затем снова повторил тест под Вистой, (там с самого начала стоял драйвер 10.9) на этот раз всё прошло нормально. (Повторил ещё 3 раза, всё было нормально)
Каждый раз я запускал тест из свеже распакованной папки, после окончания каждого теста сохранял TestDatas.
Результаты всех прогонов в архиве залил туда же откуда взял: http://files.mail.ru/AYSBSU
-
Под семёркой все тесты проходили без каких либо проблем, я так думаю Виста уже сильно загажена и потому возникли проблемы.
-
Отлично, буду разбираться что к чему теперь :)
[Попозже проанализирую все результаты и табличку приведу, а пока что самое интересное - x13 работала практически с той же скоростью, что и остальные. Для моей карточки это глубоко не так. Значит, можно пробовать до x16 версии]
-
К стати, хотел уточнить, х13 или 16 это как я понял количество вычислительных единиц?
И был ли смысл делать тесты в разных операционках? Надеюсь это будет полезно. :)
Папка с пометкой Err, это как раз тот проблемный запуск...
-
xN - это значение параметра DATA_CHUNK_UNROLL. По идее, чем он больше, тем полнее загруз ГПУ при вызове некоторых из ядер.
Предел (по размеру выделяемой одним куском памяти в 128МБ) - х16.
+ ещё можно попробовать поиграть параметрами в коммандной строке. Опять же, чем число больше, тем больше работы делается за один вызов ядра. Но там есть опасность опять получить рестарт драйвера (или очень сильные лаги при работе программы).
-
И был ли смысл делать тесты в разных операционках? Надеюсь это будет полезно. :)
Ну, лишним не будет :)
Кстати, статус Squire должен открыть доступ к бета секции ;)
-
Ой, я и не заметил... :) спасибо! ;D
К стати, а нельзя в код добавить проверку, ну скажем раз в 2 - 5 минут на предмет - "выполняется ли работа на ГПУ", тогда и перезагрузка драйвера не срашна...
-
Для этого надо делать отдельную нить следящую за основной, т.к. основная просто блокируется (вызывает функцию, которая управление обратно просто не возвращает). В принципе это делается, но не "малой кровью". Перезагрузка драйвера - это крайний случай. Обычно лаги при работе делают программу непригодной к использованию гораздо раньше :)
-
Something's wrong with this thread, all the letters are upside down and backwards! ;D You two plotting the takeover of the world again? ::)
-
Something's wrong with this thread, all the letters are upside down and backwards!
It's not Chinese, it's Russian ;)
-
;D You two plotting the takeover of the world again? ::)
8) Oh yeah earthlings, ;D this world will be ours! And you can not stop us! ;D
-
Если есть возможность, было бы неплохо протестировать на 5870 и вот эти приложения:
нужно разархивировать в Science_apps каталог содержимое архива (старые экзешники можно убить чтобы не запускались по новой.
Так же можно убить sigind_v5 в TestWUs. Оставить только single_pulses.wu для ускорения процесса.
Результаты, как обычно, будут в TestDatas.
http://files.mail.ru/KOQ76O
@all
Here files for offline benchmarking on different GPUs. If you familiar with KWSN bench toolset, please, run them on single_pulse.wu test task and report results.
Full benchmark package available here:
http://files.mail.ru/QQOUB8
-
Ок, сейчас протестирую! Думаю много времени не займёт, так что результаты отправлю в ближайшие час - два... :)
Я так понимаю по первой ссылке исключительно для 5870? :) А чем отличается то что по второй? :)
-
Нет, вторая - то, что я уже выкладывал до этого. просто я по английски написал чтобы если вдруг кто еще захочет - потестировали.
Разные ведь карточки встречаются, один Cedar чего стоит. Всё практически уполовинено.
-
Сделал несколько прогонов под Вистой и Семёркой. Под 7-й время выполнения заданий в каждом следующем прогоне уменьшалось. (Вдруг будет полезно... :) )
radix0256 и 0512
ERROR:clBuildProgram: FFT: -11
ERROR: clFFT_CreatePlan failed: -46
Если есть необходимость могу под Win XP повторить тест.
http://files.mail.ru/FAVLEQ
-
Спасибо!
оптимум там же где и у моего ГПУ, на 64.
-
Если есть необходимость могу под Win XP повторить тест.
Нет, спасибо, не стоит. Не думаю что будут различия существенные.
-
Кстати, насчет ферми-подобности HD5870. Я видимо не на тот девайс глянул, fission поддерживается только для ЦПУ. Так что использовать отдельные модули АМД карточки пока все же не умеют. Можно только в ЦПУ выделить отдельные ядра для исполнения потокового ядра.
-
Печально... :(
Да и новые сведения о HD 68хх разочаровывают... Больше маркетинга чем инновацый.
Существенного прироста от чипов по 40нм тех процессу ждать не предётся, а я уже думал поменять 58хх на 68хх как появится. :(
-
Печально... :(
Да и новые сведения о HD 68хх разочаровывают... Больше маркетинга чем инновацый.
Существенного прироста от чипов по 40нм тех процессу ждать не предётся, а я уже думал поменять 58хх на 68хх как появится. :(
LoL, ну насчет инноваций это тут у нас нынче инновации - ключевое слово ;D ;D ;D А АМД да, похоже загибается потихоньку.
-
К стати я тут вот что нашёл, там вроде и ГПУ упоминается:
AMD Fusion is a new approach to processor design and software development, delivering powerful CPU and GPU capabilities for HD, 3D and data-intensive workloads in a single-die processor called an APU.
http://sites.amd.com/us/fusion/apu/Pages/fusion.aspx
-
Да, это, видимо, их ответ (ассиметричный, еще одно местное "ключевое слово из телевизора" ;D ) на сильно пиарившийся но пока кончившийся пшиком интеловский проект Larrabee.
-
LoL, ну насчет инноваций это тут у нас нынче инновации - ключевое слово ;D ;D ;D
Если речь про "сколково", то да! Только вот злости не хватает!!! >:(
Так активно продвигая один проэкт, другой, (Особые Экономические Зоны) стартовавший ранее и имеющий те же цели, обрекают на провал! Хотя за 4 года работы были достигнуты неплохие результаты!
Мы из кожи вон лезем привлекая ведущие мировые компании, и нам ни кто так активно не помагает. Зато в сколково приглашают на высшем правительственном уровне.
В общем, кроме как мысль о том, что "сколково" лишь ещё одна кормушка для распила бюджетных средств, на ум ничего не приходит!
-
huh i learned russian language on the basic school but it was 20 yeas ago .... :o
-
huh i learned russian language on the basic school but it was 20 yeas ago .... :o
Last time I looked, IIRC, if the russians are coming for Adelaide we should erect hedgehogs on the beach, shoot all the Kangaroos & move to Melbourne :o
-
Last time I looked, IIRC, if the russians are coming for Adelaide we should erect hedgehogs on the beach, shoot all the Kangaroos & move to Melbourne :o
In advance I am sorry for bad English.
In our country, flight from Russia to Australia, not cheap pleasure.
Only people with a good prosperity, presume to themselves such travel.
And they, as a rule, badly brought up people. Therefore there is about Russian people such low opinion in many countries.
You at all don't represent, as is insulting happens, to hear similar statements.
I too can, a lot of bad tell about some countries. But I have enough good breeding not to do it.
-
Last time I looked, IIRC, if the russians are coming for Adelaide we should erect hedgehogs on the beach, shoot all the Kangaroos & move to Melbourne :o
In advance I am sorry for bad English.
In our country, flight from Russia to Australia, not cheap pleasure.
Only people with a good prosperity, presume to themselves such travel.
And they, as a rule, badly brought up people. Therefore there is about Russian people such low opinion in many countries.
You at all don't represent, as is insulting happens, to hear similar statements.
I too can, a lot of bad tell about some countries. But I have enough good breeding not to do it.
Hi, sorry Subspace. It's my bad sense of humour that probably does not translate wel, I do not have a low opinion of Russian peoplesl. The remark was actually self deprecating of Australian people (Calling us 'silly'), not people from Russia bad. We actually have a large mix of different cultures here where I live and many of us are immigrant families of one origin or another. As a general rule our humour can sometimes appear insulting to others, but isn't intended as such. I'll think carefully before making statements that won't translate too well, and I hope this translates better. Welcome aboard and I hope my quirks don't upset you too much.
Best Regards, Jason.
-
I am sorry for too rough reaction.
In other language the humour is very difficult for seeing. And my knowledge of English too poorly. :)
-
I am sorry for too rough reaction.
In other language the humour is very difficult for seeing. And my knowledge of English too poorly. :)
I think it's pretty good considering the big difference from the printed language I see here :). Anyway, Casual Australian English tends to be laced with sarcasm & double meanings, so I have to learn to watch that, since we get a number of non-native English speakers back here. Just remind me if something doesn't make sense too well, and I can clarify, since sometimes I won't make sense to other people from English speaking countries either ;)
Jason
-
Everything is upside down down there. Even when you flush the toilet, water spins in the wrong direction :)
-
Does anyone use OpenCL AP under Windows 7 x64 with HD4xxx GPU ?
I see VERY poor performance with Windows 7 x64 + Cat 10.10 on HD4870 on 2 hosts already while one of them if working under Vista x86 + Cat 10.10 shows just OK performance....
-
Does anyone use OpenCL AP under Windows 7 x64 with HD4xxx GPU ?
I see VERY poor performance with Windows 7 x64 + Cat 10.10 on HD4870 on 2 hosts already while one of them if working under Vista x86 + Cat 10.10 shows just OK performance....
When I was testing your AP app I was on Windows 7 x64, and my GPU is a 4870 (512MB). I was not under Cat 10.10, there were older ones. But performances were really good. Nothing different from Vista x86, which I had but now I had removed completely (so I cannot even try now to see if latest cat version did something bad on win7)
I saw your posts on opencl ati forums, let me say that it seems a really strange behavior. Are you sure you do not have anything wrong on "your" side (misconfigs...)?
-
I see this on 2 hosts already. Both are fresh installed Win7 x64 + Cat 10.10 + SDK 2.2.
-
I've updated and have it running on my 4770. I'm running Milkyway at the moment and it appears to have knocked most of my work down from around 5 minutes to 4:30. So I am seeing an improvement on MW