2013年8月24日星期六

Ciencia: Fudge Negación móvil interpretación completa GPU ( dos)

Interpretaci��n en una GPU m��vil en la arquitectura de la GPU m��vil, se introdujeron los par��metros relevantes, que se describe en esta secci��n se est�� moviendo el Shader GPU, compatibilidad GPU, "n��cleo" de la verdad y ejecutar sub-problemas android tablet china.

android tablet china

Hable acerca de ser ignorado Shader

Luego volvemos Shader. Shader GPU se encarga de calcular la parte principal, mientras que ocupa la zona m��s grande, el consumo de energ��a tambi��n es hacia arriba. GPU de escritorio de hoy a menudo no se habla de la tasa de formaci��n de tri��ngulo, o la tasa de llenado de p��xeles, y dar indicadores son Shader potencia de c��lculo - GFLOPS. Visible, Shader rendimiento ser�� cada vez m��s importante. Mobile GPU tambi��n tiene esta tendencia. Nos fijamos en secciones de prueba Anandtech de Egipto HD 1080p puntuaci��n Offscreen del GPU GLBenchmark:

El derecho de la figura verde es ampliamente bajo el rendimiento inform��tico precisi��n FP16 GPU, la unidad es GFLOPS. Usted puede ver la eliminaci��n de individuo GPU, Egipto Shader capacidades de computaci��n de rendimiento con la correlaci��n es bastante obvio.

En primer lugar, no una adici��n o la multiplicaci��n de punto flotante,! se consideran como una sola operaci��n, denotados por 1 flops. Hay un cierto n��mero de punto flotante de precisi��n, tales como la precisi��n de punto flotante de 16 bits es FP16. El FP32 es un n��mero de punto flotante de 32 bits poco m��s alto, que a menudo se dice que la precisi��n simple, m��s alto es de 64 bits de doble precisi��n FP64 ella. Generalmente, s��lo FP32 y FP64 operaci��n puede considerarse como FLOP.

OpenGL ES en la plataforma m��vil, puede especificar un m��ximo de tres modos diferentes, media y baja. GPU diferente, la alta, media y baja precisi��n el valor real un poco diferente. Como se muestra a continuaci��n:

Para Adreno y la serie GC, independientemente de la elecci��n de la precisi��n se calcular�� de conformidad con FP32 precisi��n. El Mali-400 y la ULP GeForce parte Tegra de Pixel Shader no admite alta precisi��n, m��xima s��lo admiten precisi��n moderada FP16. Medio La mayor��a de los c��lculos de sombreado de p��xeles de juego se u! tilizan (FP16) la exactitud del c��lculo del Vertex Shader es generalmente FP32 precisi��n.

En segundo lugar, en relaci��n con la arquitectura shader unificada (Unified Shader) y una arquitectura de representaci��n independiente (Shader discreta). Vertex Shader, tanto para los c��lculos anteriores se puede realizar c��lculos de p��xeles, como PowerVR, Adreno, serie GC. El Vertex Shader y Pixel Shader ��ste es independiente de el ejemplo t��pico de Mali-400 y GeForce ULP. En t��rminos relativos, la prestaci��n arquitectura utilizaci��n Shader unificado ser�� mayor, sobre todo en caso de multi-pixel particularmente peque��o tri��ngulo, o el caso contrario, la capacidad de computaci��n Shader no es probable que se desperdicie.

Por ��ltimo, puesto que las coordenadas de v��rtice (xyzw) y color del p��xel (RGBA) tiene cuatro atributos, con el fin de mejorar la eficiencia, Shader dise��ado a menudo vec4 de SIMD, que es cuatro datos puede ser empaquetado, a continuaci��n, el mismo proceso con una sola instrucci��n . Por supuesto, si los d! atos son menos de cuatro, se desperdicia potencia de c��lculo. Tambi��n est�� dise��ado para funcionar en s��lo un dato de escalar (escalar) de la unidad.

Cada uno consta de GPU Shader

Una serie Qualcomm Adreno

Adreno serie unificada arquitectura de sombreado, sombreado ALU t��picos vec4 + Scalar, vec4 puede manejar periodo de cuatro semanas, las operaciones FP32 MAD (multiplicar-sumar operaci��n, denominado 2 FLOPS), equipo de escalar no puede hacer MAD, por lo tanto,

Un Adreno unidades de sombreado por per��odo proporciona operando de coma flotante es 4 �� 2 + 1 = 9 FLOPS.

Adreno 200, 2 vec4 1, 133MHz, 2.4GFLOPS

Adreno 205, 4 vec4 1, 266MHz, 9.5GFLOPS

Adreno 220, 8 vec4 1, 266MHz, 19.1GFLOPS

Adreno 225, 8 vec4 1, 400 MHz, 28.8GFLOPS

Adreno 320, si es 16Vec4 1, corriendo 400 MHz, entonces, es 57GFLOPS

Estos son FP32 potencia de c��lculo, ya que OpenGL ES, la escuela est�� en conformidad con baja precisi��n FP32 Ad! reno plazo, por lo que el caso de baja precisi��n, no puede obtener aumento de rendimiento.

Incluyendo SGX530/531/535/540/545, la unidad de c��lculo de sombreado es USSE. Usse un ciclo, puede 4 FX10 (10 bits puntos fijos inferiores a la precisi��n FP16) o dos FP16 y FP32 para una operaci��n de MADD. Desde FP32 es considerada sentido normal FLOPS, por lo que su rendimiento por ciclo de 2 FLOPS. Pero cuando los dos compartieron una operaci��n FP32 operando, USSE tambi��n puede ser procesado en un ciclo, y en ese momento los dos FP32 MAD operaci��n, 4 FLOPS. Por lo tanto, el rendimiento del FP32 USSE, por un periodo de 2 ~ 4 FLOPS.

SGX530, 2USSE, 200 MHz, 0.8 ~ 1.6 GFLOPS

Del MTK SGX531, 2USSE, 300MHz, 2USSE, 1.2 ~ 2.4 GFLOPS

Samsung Hummingbird SGX540, 4USSE, 200 MHz, 1.6 ~ 3.2 GFLOPS

OMAP4460, Atom Z2460 SGX540 400 MHz, 4USSE, 3.2 ~ 6.4 GFLOPS

Sin embargo, en FP16, sino tambi��n que la mayor parte del juego Pixel Shader precisi��n bajo la comparaci��n peor de los casos FP32 capaces doble. Tambi��n en el lado ! inferior FX10 exactitud, sino tambi��n volver a duplicarse.

Incluyendo SGX543/544/554 y sus diversos versi��n multin��cleo. Su unidad de c��lculo de sombreado es USSE2. USSE2 como lo hicieron antes, y es una vec4 + arquitectura escalar soporta cuatro FP32 operaci��n de un solo ciclo de MAD, adem��s de unos simples operaciones escalares (ADD / MUL), como con Adreno per��odo de 9 semanas FLOPS.

Individual 543/544 contiene cuatro USSE2, esencialmente el mismo rendimiento, m��s de 544 diversos soporte API DX. 554 contiene ocho USSE2 individuales.

iPhone 4S en el 543MP2, 2 x 4 = 8 ��� USSE2, 200 MHz, 14,4 GFLOPS

OMAP4470 en una sola 544,384 MHz, 4USSE2, similar con lo anterior

Allwinner A31 en el 544MP2, la llamada ocho tuber��a es 8USSE2, 300 MHz, hay 21,6 GFLOPS

iPad3 en el A5X, 543MP4, 16USSE2, 250 MHz, 36 GFLOPS

iPad4 el A6X, 554MP4, 32USSE2, 280MHz, para romper 80 GFLOPS de

En la operaci��n, cuando el menor precisi��n FP16, US! SE2 rendimiento todav��a tiene algunas mejoras.

Mali-400 no es un Shader Unificada, es independiente del procesamiento de v��rtices y p��xeles

Un procesador de v��rtices contiene un Vertex Shader, vec4, apoyo FP32 precisi��n

Un procesador de pixel contiene un vec4 el Pixel Shader, y TMU, soporte Shader FP16 precisi��n

A Mali-400 "Single-core", 400 MHz, la capacidad de c��lculo de 6,4 GFLOPS

Mali-400 MP4 del Exynos 4210, 266 MHz, en comparaci��n con 10,6 GFLOPS

MP4 Mali-400 del Galaxy S3, 440MHz, frente a los 17,6 GFLOPS

Nota 2 del Mali-400 MP4, corriendo a 533 MHz, en comparaci��n con 21 GFLOPS

Por supuesto, se trata de la FP16 ...... porque el Pixel Shader Mali-400 no soporta FP32 precisi��n.

T6xx adoptar una nueva arquitectura, Shader una arquitectura de sombreado unificada. Qu�� T604/624/628, un n��cleo que contiene dos ALU y T658/678, para fortalecer el modelo de c��lculo, un n��cleo que contiene cuatro ALU.

Cada ALU es una gran 128bit de Vector Unit, m��s una de 32 bits de la uni! dad escalar.

Por lo tanto, la precisi��n simple (FP32) la ejecuci��n de nueve por semana, con USSE2.

As�� Exynos 5250 en el Mali-T604 533 quad-core, FP32 potencia de c��lculo de 38,4 GFLOPS

Adem��s, como el juego con Pixel Shader es mucho FP16 precisi��n y T604 de VU capacidades de procesamiento de ALU se puede duplicar en este momento se convierte en 8, por lo que cada per��odo es de 8 * 2 + 1 = 17. Cumplir con las demandas del BRAZO 500MHz en un ��nico T604 17GFLOPS b��sicos, datos 68GFLOPS quad-core.

As�� Exynos 5250 en el Mali-T604 533 quad-core, FP16 potencia de c��lculo de 72,5 GFLOPS

GeForce ULP con Mali-400, se separan Arquitectura Shader. Su Vertex Shader y Pixel Shader son escalares, no vec4. Apoyo FP32 precisi��n v��rtice, apoyo parcial pixel FP20 y FX10 precisi��n. Por lo tanto,

"8-core" Tegra 2, 4VS + 4PS, 300 MHz, capacidad de c��lculo 4.8 GFLOPS

"12-core" Terga3, 4VS + 8PS, 520 MHz, capacidad de c��lculo es 12,5 GFLOP! S

Con Adreno casi tan bien vec4 1 estructura, la misma escuela secundaria de baja precisi��n FP32 c��lculos se ajustan a la baja precisi��n no tendr�� que actualizar.

RK29 la GC800, 1Vec4 1, 450MHz, 4 GFLOPS

Freescale i.MX6 de GC2000, 4Vec4 1600 MHz, 21,6 GFLOPS

Hass K3V2 de GC4000, 8Vec4 1480 MHz, 34,6 GFLOPS

GPU "Compatibilidad"

Todav��a frecuentemente citado es el GPU del problema "Compatibilidad", aqu�� tenemos que relacionarnos con diferentes formatos de textura apoy�� la GPU.

Primero ETC1, esto es OpenGL ES 2.0 Compatibilidad con formatos de textura, tuvimos que soportar. Sin embargo, un inconveniente es que esta textura no soporta canales alfa, por lo que no es un canal alfa para la textura, se debe dividir en dos texturas para leer, ineficaz y una p��rdida de ancho de banda.

Y PVRTC PowerVR propio formato de textura es los mismos formatos de textura ATITC Qualcomm Adreno, adem��s del escritorio S3TC DXT es muy com��n, DirectX de Microsoft formatos de textura en 3D, estos son los canales a! lfa de apoyo.

PowerVR GPU soporta su propio PVRTC y ETC1 vers��til (iOS s��lo es compatible con el PVR GPU PVRTC), Adreno apoyar su propia ATITC y ETC1 vers��til, GeForce de NV y GC DXT Support Series de Vivante y ETC1, dejando Mali-400 ���apoyo ETC1. Por lo tanto, lo que corresponde a diferentes GPU, y tienen diferentes paquetes de datos de juego. General packet aplica generalmente ETC1, aunque gen��rica, sino porque no son compatibles con canales alfa para trazar dos veces, por GPU no de Mal�� en realidad ser una desventaja. Si el resto de los formatos compatibles con los suyos, no estar��an sujetos a esta amarga. Para la unidad de mapeo (TMU, Unidad Texture Mapping) un n��mero relativamente peque��o series Adreno 2xx, me temo que es una desventaja.

Por supuesto, la textura es la compatibilidad de la ayuda, por una parte, no todos los problemas de compatibilidad.

Cada uno de los "core"

Parte de hardware GPU de fondo terminado, aqu�� resumir una mes! a, y le da la definici��n oficial proveedor GPU de un contenido "b��sico", cuyo nuclear forro y m��s, que es m��s la injusticia, sino que tambi��n debe ser clara. Se enfrentan a una variedad de "16-core" "8 pipeline" propaganda, tenemos que ser capaces de distinguir m��s claramente el bar.

Ejecutar Sub con el rendimiento real no es lo mismo? La optimizaci��n es muy importante!

Por ��ltimo, la especificaci��n es s��lo un aspecto de la GPU, el rendimiento real con la arquitectura tambi��n tiene una gran relaci��n. Adem��s, incluso en los puntos de referencia GPU corriendo casi, en un juego diferente, el rendimiento real ser�� diferente.

En primer lugar, el programa de referencia, la mayor��a de ellos son justos, por lo que, en esencia, de referencia es "la optimizaci��n de cero" el proceso, la equidad, utilizar��n RGBA textura del PNG, TGA, o ETC1 texturas, cada GPU no utilizar�� su propio formato.

Sin embargo, el juego no es la misma, el juego puede ser optimizada en consecuencia. Por ejemplo PVR GPU, y usted puede utili! zar el 4bpp PVRTC incluso textura 2bpp, en comparaci��n con las texturas comprimidas puede ahorrar ocho veces o 16 veces el ancho de banda. Lo que no se ha optimizado para el caso, s��lo se puede utilizar junto con Mal�� no admite canales alfa ETC1, hacer 2 veces mapa, malgastar ancho de banda. Algunos fabricantes incluso poner algunos paquetes de datos comunes texturas comprimidas, esa brecha es a��n mayor. Con los juegos, que pasa cerca de la GPU, iOS sobre los efectos cada vez mejor fluidez, hay causas de optimizaci��n.

En segundo lugar, de referencia son, en cierta medida, en relativamente avanzada. Benchmark mayor��a GPU corriendo framerate, no est��n al nivel de lisa (si la trama completa tambi��n la forma de medir la diferencia). Benchmark puede ser m��s ��nfasis en mapas antiguos y la parte pixel. Benchmark fue criado por una nueva generaci��n de complejidad de la escena, calculado sobre el pol��gono y Shader aumentar a��n m��s la presi��n, por ejemplo, 2,1 a ! 2,5 GLBenchmark mejorado. Por lo tanto, una cierta capacidad de generaci��n de tri��ngulo y cruda potencia de c��lculo de sombreado de alto GPU, como Adreno 220/225, la puntuaci��n mejorar�� m��s evidente. El Mali-400 en 2,5 obst��culos encontrados en la formaci��n de tri��ngulo, el rendimiento anotar que antes.

El juego consiste en darle a la gente el juego, fabricantes de terminales o vendedores SOC pueden cooperar con los fabricantes de juegos, para las caracter��sticas de la GPU optimizada en consecuencia. Diferentes GPU enfoque muy diferente, como Mali-400, el tri��ngulo es d��bil, la parte pixel, tasa de relleno fuerte. Qualcomm Adreno 2xx, GPU Vivante y pol��gonos fuertes, Shader calcular fuerte, pero la velocidad de llenado es d��bil. Si la escena para la optimizaci��n de Mal��, las compa����as de juegos se puede reducir la cantidad de pol��gonos en la pantalla, con la textura y el pixel consigue parcialmente m��s efectos. Esta desfavorable para la serie Adreno 2xx. Si la optimizaci��n de Adreno, puede aumentar la complejidad de ! la escena, con m��s tri��ngulos de modelizaci��n m��s fino, pero es desfavorable para Mal��. Esto es s��lo una parte, con cierto detalle, sino tambi��n por un mayor nivel de optimizaci��n, cada una de las GPU tambi��n proporcionar�� las herramientas apropiadas.

Por ��ltimo, GPU para ejecutar sub en cierta medida refleja el rendimiento real de la GPU, pero con el tiempo en el rendimiento del juego sigue siendo muy ver optimizaci��n fabricantes. As�� que no con la mirada perdida en los puntos de ejecuci��n, jug�� m��s de pedirle a un amigo para ver m��s mesurado, ser�� m��s ��til.

Fuente: Amor para participar m��quina

没有评论:

发表评论