Monday 11 September 2017

Moving Genomsnittet Spark


Flyttande medelvärde är ett knepigt problem för Spark och varje distribuerat system När data sprids över flera maskiner kommer det att finnas några tidsfönster som korsar partitioner. Vi måste duplicera data vid början av partitionerna, så att beräkning av glidande medelvärde per partition ger fullständig täckning. Här är ett sätt att göra detta i Spark Exemplet data. A enkel partitioner som sätter varje rad i den partition vi specificerar med nyckeln. Skapa data med det första fönstret - 1 rader kopierat till föregående partition . Bara beräkna det glidande genomsnittet på varje partition. Eftersom de dubbla segmenten har detta kommer det inte att ha några luckor i täckningen. Införd i Spark 1 4 förbättrade Spark-fönsterfunktionerna uttrycksförmågan hos Spark DataFrames och Spark SQL. Med fönsterfunktioner kan du enkelt beräkna en glidande medelvärde eller kumulativ summa eller referensvärde i en tidigare rad i en tabell Fönsterfunktioner gör att du kan göra många vanliga beräkningar med DataFrames utan att behöva tillgripa RDD ma nipulation. Aggregates, UDFs vs Window functions. Window funktioner kompletterar befintliga DataFrame operationsaggregat, som summa och avg och UDFs. För att granska, beräknar aggregat ett resultat, summa eller medelvärde för varje grupp av rader, medan UDF beräknar ett resultat För varje rad baserad på enbart data i den raden I kontrast räknar fönsterfunktionerna ett resultat för varje rad baserat på ett raderfönster. I ett glidande medelvärde beräknar du för varje rad genomsnittet av raderna som omger den aktuella raden detta kan göras med fönsterfunktioner. Flyttande medelexempel. Låt oss dyka direkt in i det glidande genomsnittliga exemplet I det här exempeldatasetet finns det två kunder som har spenderat olika mängder pengar varje dag. Bygga kunden DataFrame Alla exempel är skrivna i Scala med Spark 1 6 1, men detsamma kan göras i Python eller SQL. val kunder 2016-05-01, 50 00. Alice, 2016-05-03, 45 00. Alice , 2016-05-04, 55 00. Bob, 2016-05-01, 25 00.Window-funktionen och Window Spec-definitionen. Som visas i det ovanstående exemplet finns det två delar för att tillämpa en fönsterfunktion 1 som anger fönsterfunktionen, Såsom avg i exemplet och 2 som anger fönsterspecifikationen eller wSpec1 i exemplet För 1, kan du hitta en fullständig lista över fönstervärdena här. Du kan använda funktioner som anges under Aggregate Functions och Window Functions. For 2 anger ett fönster Spec, det finns tre komponenter partition av, order av och frame. Partition genom att definiera hur data grupperas i ovanstående exempel, det var av kunden Du måste ange en rimlig gruppering eftersom alla data inom en grupp kommer att samlas in till samma maskin Idealiskt har DataFrame redan delats av önskad gruppering. Order by definierar hur rader ordnas inom en grupp i det ovanstående exemplet, det var efter datum. Frame definierar gränserna för fönstret i förhållande till den aktuella raden i exemplet ovan, fönstret varierade mellan föregående rad och nästa ro. Cumulative Sum. Next, låt oss beräkna den kumulativa summan av det använda beloppet per kund. Fönsterspecifika rammen sträcker sig från början till nuvarande rad 0.val wSpec2 0. Skapa en ny kolumn som beräknar summan över den definierade fönsterkarmen. Diskussioner. Om jag vill ha ett glidande medelvärde över 10 minuter för några nycklar jag kan göra något som i Spark 2 0 Jag försöker implementera detta glidande medelvärde med Spark 1 6 x Jag försökte med reduceByKeyAndWindow men det hittade inte en lösning Imo jag måste hålla alla värden i fönstret för att beräkna den genomsnittliga One Sätt skulle läggas till varje. Hey, jag använder följande kod för att beräkna genomsnittet Problemet är att reducera operationen returnerar en DStream här och inte en tuple som det normalt gör utan Streaming Så hur kan vi få summan och räkningen från DStream Kan vi kasta den för att tuple val tal val sumandcount a 1 b 1, a 2 b 2. Hi, jag vill få åsikt från människor som är mer bekant med att förlora glidande medel Se för bakgrund Varje region innehåller antalet förfrågningar som ackumulerats så mycket mer Information kan vara annons ded per region, om det behövs I grund och botten behöver jag beräkna förfallande glidande medelvärden för förfrågningar per region, med jämna mellanrum Tack för din kommentar. Jag vet att jag kan genomsnittsa en sekvens som denna def-genomsnittliga seq-återkomst len ​​seq Ja, jag ser att det kommer att höja ZeroDivisionError om seq Aside Från det, 1 Finns det något annat dumt om ovanstående 2 Missar jag en inbyggd kusin av min, max som skulle göra det här för mig Oj, kanske svaret på 2 är import Numeriskt jag antar att jag bara. Carl Banks Ja, heliga ko, jag inte heller Tack för svaret Skål, markera. Anton Vredegoor Aw, varför gå igenom det problemet när du bara kan göra denna python Python 2 2 1 1, 25 juni 2002, 10 55 46 GCC 2 95 3-5 cygwin special på cygwin Typ hjälp, upphovsrätt, krediter eller licens för mer information returnera seq len seq 2 5 1, 2, 3, 4 m. Hej, Hur kan jag skapa ett glidande medelvärde med mongodb Mina dokument har 2 fält Månad och besök thx. Jag skulle vilja implementera det glidande genomsnittet som en UDF istället för en strömningsreducerare Här är vad jag tänker Vänligen låt mig veta om jag saknar något här VÄLJ produkt, datum, mavg produkt, pris, 10 FRÅN VÄLJA FRÅN PRISER DISTRIBUTERA PER PRODUKT SORT BY produkt, datum Jag måste skicka nyckeln till mavg För att den måste upptäcka när en produktgruppering slutar och en annan start. Hur kan du skapa ett rullande medelvärde. Denna stackoverflödesfråga frågar samma sak. Jag har hört mycket bra saker om Akka jag har en ström av pris och jag måste skapa Två glidande medelpriset och till sist har jag en strategi som lyssnar på th Ese pris, glidande genomsnittspris 1 och glidande genomsnittspris 2 och fattar några beslut jag implementerade detta via aktörer men tyvärr har jag ett orderproblem som jag inte vet hur man anger en tidstämpel. Inte vill återuppfinna hjulet här, Jag undrar om någon annan någonsin har gjort ett klassificeringssystem Det kommer att finnas två kolumner med titeln för titeln på filmen som rankas och sedan en klassificering från en till tio. Vad skulle vara det mest effektiva SQL-steget för att hitta ett titels viktat genomsnitt Ian Evans. Hej folk, jag tittade på kommandot uppehållstid och såg lastmedlet jag har tittat runt och såg att hur det här blir beräknat är ganska mistery, allt jag vet är att det är baserat på den genomsnittliga processkönan Genom att mäta processer state and IO Kan någon tacka lite mer Vad med ett bra tal för att hålla det under jag läste att det borde hållas under 1, men som jag försöker få medelåldern för några lag i min databas Används av underkodsgeraren esult mysqlquery välj AVG ålder FRÅN batrost VAR ÄGERID teamID medan rad mysqlfetchobject ageresult ålder eko Genomsnittlig ålder - teamID ålder Hur kan jag få medelåldern från denna Jeff. Hi vill vi observera medelvärdet av den genomsnittliga tiden per begäran för Sista N t. ex. 20 frågor aka enkelt glidande medelvärde av vår Solr-server med Nagios Vet någon om en sådan observerbar redan är genomförd Om inte tror jag det perfekta stället för det skulle vara metoden GetStatistics inuti. Jag har hört mycket bra saker Om Akka Jag har en ström av pris och jag måste skapa två glidande medelvärden av priset och till sist har jag en strategi som lyssnar på dessa signaler pris, flytta genomsnittspris 1 och glidande genomsnittspris 2 och gör några beslut jag implementerade detta via skådespelare men tyvärr har jag ett orderproblem som jag inte vet hur man anger en tidsstämpel. Jag gör ett område på webbplatsen där medlemmarna kan betygsätta specifika resurser. De kan lägga till en kommentar för betyg Jag är tr ying för att göra ett separat bord som innehåller medelvärdet av alla betyg så jag kan enkelt visa topprankade artiklar här är min tabellstruktur Tabellkommentarer KommentarID-nyckel ArtikelID Användar Kommentar Betygsätt tabell Betyg ArtikelID Artikelnamn Betyg. Jag vill genomsnitts några saker i en db med en vänsterklubb, hur kan jag returnera 3 om det inte finns något för medelvärdet för en viss post? Jag har kommentarer och en artikeltabell Kommentarer lämnas anslutna till artikeltabellen JJ Harrison email protected Vänligen svara på listgruppen om inte svara det OT. Hey, förhoppningsvis är det här nybörjarspecifika Jag använder för närvarande MySQL 3 23 35a och jag ser hur man får ett olympiskt stilmedelvärde i ett bord där de övre och nedre n-poängen tappas från den genomsnittliga beräkningen Exempel Tabellens åsikter kolumner id, värderingsvärden 1 9 1 9 1 9 1 1 1 10 2 7 2 8 2 7 2 6 2 7 Resultaten. Hur bestämmer du den genomsnittliga tiden per fråga i MySQL Jeff Johnson. Den sida jag jobbar med På upplever MySQL fr eeze ups när som helst efter frågorna per sekund genomsnittet sett på STATUS-utgången är 48-50 i värde När webbplatsägaren frågade värdtjänsten om detta berättade de för honom att MySQL inte kan gå över den gränsen. Han har fortfarande mycket CPU och RAM-resurser så det får mig att undra varför finns det en begränsning till MySQL i detta avseende.

No comments:

Post a Comment