Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

LINQ gikk inn i .NET som et kraftig nytt datamanipuleringsspråk. LINQ til SQL som en del av det lar deg kommunisere ganske praktisk med en DBMS ved å bruke for eksempel Entity Framework. Men ved å bruke det ganske ofte, glemmer utviklere å se på hva slags SQL-spørring den spørrende leverandøren, i ditt tilfelle Entity Framework, vil generere.

La oss se på to hovedpunkter ved å bruke et eksempel.
For å gjøre dette, opprett en testdatabase i SQL Server, og lag to tabeller i den ved å bruke følgende spørring:

Lage tabeller

USE [TEST]
GO

SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[Ref](
	[ID] [int] NOT NULL,
	[ID2] [int] NOT NULL,
	[Name] [nvarchar](255) NOT NULL,
	[InsertUTCDate] [datetime] NOT NULL,
 CONSTRAINT [PK_Ref] PRIMARY KEY CLUSTERED 
(
	[ID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]
GO

ALTER TABLE [dbo].[Ref] ADD  CONSTRAINT [DF_Ref_InsertUTCDate]  DEFAULT (getutcdate()) FOR [InsertUTCDate]
GO

USE [TEST]
GO

SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[Customer](
	[ID] [int] NOT NULL,
	[Name] [nvarchar](255) NOT NULL,
	[Ref_ID] [int] NOT NULL,
	[InsertUTCDate] [datetime] NOT NULL,
	[Ref_ID2] [int] NOT NULL,
 CONSTRAINT [PK_Customer] PRIMARY KEY CLUSTERED 
(
	[ID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]
GO

ALTER TABLE [dbo].[Customer] ADD  CONSTRAINT [DF_Customer_Ref_ID]  DEFAULT ((0)) FOR [Ref_ID]
GO

ALTER TABLE [dbo].[Customer] ADD  CONSTRAINT [DF_Customer_InsertUTCDate]  DEFAULT (getutcdate()) FOR [InsertUTCDate]
GO

La oss nå fylle ut Ref-tabellen ved å kjøre følgende skript:

Fylling av Ref-tabellen

USE [TEST]
GO

DECLARE @ind INT=1;

WHILE(@ind<1200000)
BEGIN
	INSERT INTO [dbo].[Ref]
           ([ID]
           ,[ID2]
           ,[Name])
    SELECT
           @ind
           ,@ind
           ,CAST(@ind AS NVARCHAR(255));

	SET @ind=@ind+1;
END 
GO

La oss fylle kundetabellen på samme måte ved å bruke følgende skript:

Fylle ut kundetabellen

USE [TEST]
GO

DECLARE @ind INT=1;
DECLARE @ind_ref INT=1;

WHILE(@ind<=12000000)
BEGIN
	IF(@ind%3=0) SET @ind_ref=1;
	ELSE IF (@ind%5=0) SET @ind_ref=2;
	ELSE IF (@ind%7=0) SET @ind_ref=3;
	ELSE IF (@ind%11=0) SET @ind_ref=4;
	ELSE IF (@ind%13=0) SET @ind_ref=5;
	ELSE IF (@ind%17=0) SET @ind_ref=6;
	ELSE IF (@ind%19=0) SET @ind_ref=7;
	ELSE IF (@ind%23=0) SET @ind_ref=8;
	ELSE IF (@ind%29=0) SET @ind_ref=9;
	ELSE IF (@ind%31=0) SET @ind_ref=10;
	ELSE IF (@ind%37=0) SET @ind_ref=11;
	ELSE SET @ind_ref=@ind%1190000;
	
	INSERT INTO [dbo].[Customer]
	           ([ID]
	           ,[Name]
	           ,[Ref_ID]
	           ,[Ref_ID2])
	     SELECT
	           @ind,
	           CAST(@ind AS NVARCHAR(255)),
	           @ind_ref,
	           @ind_ref;


	SET @ind=@ind+1;
END
GO

Dermed mottok vi to tabeller, hvorav den ene har mer enn 1 million rader med data, og den andre har mer enn 10 millioner rader med data.

Nå i Visual Studio må du lage et testprosjekt for Visual C# Console App (.NET Framework):

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

Deretter må du legge til et bibliotek for at Entity Framework skal samhandle med databasen.
For å legge det til, høyreklikk på prosjektet og velg Administrer NuGet-pakker fra kontekstmenyen:

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

Deretter, i NuGet-pakkeadministrasjonsvinduet som vises, skriv inn ordet "Entity Framework" i søkevinduet og velg Entity Framework-pakken og installer den:

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

Deretter, i App.config-filen, etter å ha lukket configSections-elementet, må du legge til følgende blokk:

<connectionStrings>
    <add name="DBConnection" connectionString="data source=ИМЯ_ЭКЗЕМПЛЯРА_MSSQL;Initial Catalog=TEST;Integrated Security=True;" providerName="System.Data.SqlClient" />
</connectionStrings>

I connectionString må du skrive inn tilkoblingsstrengen.

La oss nå lage 3 grensesnitt i separate filer:

  1. Implementering av IBaseEntityID-grensesnittet
    namespace TestLINQ
    {
        public interface IBaseEntityID
        {
            int ID { get; set; }
        }
    }
    

  2. Implementering av grensesnittet IBaseEntityName
    namespace TestLINQ
    {
        public interface IBaseEntityName
        {
            string Name { get; set; }
        }
    }
    

  3. Implementering av grensesnittet IBaseNameInsertUTCDate
    namespace TestLINQ
    {
        public interface IBaseNameInsertUTCDate
        {
            DateTime InsertUTCDate { get; set; }
        }
    }
    

Og i en egen fil vil vi lage en baseklasse BaseEntity for våre to enheter, som vil inkludere vanlige felt:

Implementering av basisklassen BaseEntity

namespace TestLINQ
{
    public class BaseEntity : IBaseEntityID, IBaseEntityName, IBaseNameInsertUTCDate
    {
        public int ID { get; set; }
        public string Name { get; set; }
        public DateTime InsertUTCDate { get; set; }
    }
}

Deretter vil vi opprette våre to enheter i separate filer:

  1. Implementering av Ref-klassen
    using System.ComponentModel.DataAnnotations.Schema;
    
    namespace TestLINQ
    {
        [Table("Ref")]
        public class Ref : BaseEntity
        {
            public int ID2 { get; set; }
        }
    }
    

  2. Implementering av kundeklassen
    using System.ComponentModel.DataAnnotations.Schema;
    
    namespace TestLINQ
    {
        [Table("Customer")]
        public class Customer: BaseEntity
        {
            public int Ref_ID { get; set; }
            public int Ref_ID2 { get; set; }
        }
    }
    

La oss nå lage en UserContext-kontekst i en egen fil:

Implementering av UserContex-klassen

using System.Data.Entity;

namespace TestLINQ
{
    public class UserContext : DbContext
    {
        public UserContext()
            : base("DbConnection")
        {
            Database.SetInitializer<UserContext>(null);
        }

        public DbSet<Customer> Customer { get; set; }
        public DbSet<Ref> Ref { get; set; }
    }
}

Vi fikk en ferdig løsning for å gjennomføre optimaliseringstester med LINQ til SQL via EF for MS SQL Server:

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

Skriv inn følgende kode i Program.cs-filen:

Program.cs-filen

using System;
using System.Collections.Generic;
using System.Linq;

namespace TestLINQ
{
    class Program
    {
        static void Main(string[] args)
        {
            using (UserContext db = new UserContext())
            {
                var dblog = new List<string>();
                db.Database.Log = dblog.Add;

                var query = from e1 in db.Customer
                            from e2 in db.Ref
                            where (e1.Ref_ID == e2.ID)
                                 && (e1.Ref_ID2 == e2.ID2)
                            select new { Data1 = e1.Name, Data2 = e2.Name };

                var result = query.Take(1000).ToList();

                Console.WriteLine(dblog[1]);

                Console.ReadKey();
            }
        }
    }
}

La oss deretter lansere prosjektet vårt.

På slutten av arbeidet vil følgende vises på konsollen:

Generert SQL-spørring

SELECT TOP (1000) 
    [Extent1].[Ref_ID] AS [Ref_ID], 
    [Extent1].[Name] AS [Name], 
    [Extent2].[Name] AS [Name1]
    FROM  [dbo].[Customer] AS [Extent1]
    INNER JOIN [dbo].[Ref] AS [Extent2] ON ([Extent1].[Ref_ID] = [Extent2].[ID]) AND ([Extent1].[Ref_ID2] = [Extent2].[ID2])

Det vil si at LINQ-spørringen generelt genererte en SQL-spørring til MS SQL Server DBMS ganske bra.

La oss nå endre OG-betingelsen til OR i LINQ-spørringen:

LINQ-spørring

var query = from e1 in db.Customer
                            from e2 in db.Ref
                            where (e1.Ref_ID == e2.ID)
                                || (e1.Ref_ID2 == e2.ID2)
                            select new { Data1 = e1.Name, Data2 = e2.Name };

Og la oss starte applikasjonen vår igjen.

Utførelsen vil krasje med en feil på grunn av at utførelsestiden for kommandoen overskrider 30 sekunder:

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

Hvis du ser på spørringen som ble generert av LINQ:

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server
, så kan du sørge for at utvalget skjer gjennom det kartesiske produktet av to sett (tabeller):

Generert SQL-spørring

SELECT TOP (1000) 
    [Extent1].[Ref_ID] AS [Ref_ID], 
    [Extent1].[Name] AS [Name], 
    [Extent2].[Name] AS [Name1]
    FROM  [dbo].[Customer] AS [Extent1]
    CROSS JOIN [dbo].[Ref] AS [Extent2]
    WHERE [Extent1].[Ref_ID] = [Extent2].[ID] OR [Extent1].[Ref_ID2] = [Extent2].[ID2]

La oss omskrive LINQ-spørringen som følger:

Optimalisert LINQ-spørring

var query = (from e1 in db.Customer
                   join e2 in db.Ref
                   on e1.Ref_ID equals e2.ID
                   select new { Data1 = e1.Name, Data2 = e2.Name }).Union(
                        from e1 in db.Customer
                        join e2 in db.Ref
                        on e1.Ref_ID2 equals e2.ID2
                        select new { Data1 = e1.Name, Data2 = e2.Name });

Da får vi følgende SQL-spørring:

SQL-spørring

SELECT 
    [Limit1].[C1] AS [C1], 
    [Limit1].[C2] AS [C2], 
    [Limit1].[C3] AS [C3]
    FROM ( SELECT DISTINCT TOP (1000) 
        [UnionAll1].[C1] AS [C1], 
        [UnionAll1].[Name] AS [C2], 
        [UnionAll1].[Name1] AS [C3]
        FROM  (SELECT 
            1 AS [C1], 
            [Extent1].[Name] AS [Name], 
            [Extent2].[Name] AS [Name1]
            FROM  [dbo].[Customer] AS [Extent1]
            INNER JOIN [dbo].[Ref] AS [Extent2] ON [Extent1].[Ref_ID] = [Extent2].[ID]
        UNION ALL
            SELECT 
            1 AS [C1], 
            [Extent3].[Name] AS [Name], 
            [Extent4].[Name] AS [Name1]
            FROM  [dbo].[Customer] AS [Extent3]
            INNER JOIN [dbo].[Ref] AS [Extent4] ON [Extent3].[Ref_ID2] = [Extent4].[ID2]) AS [UnionAll1]
    )  AS [Limit1]

Akk, i LINQ-spørringer kan det bare være én sammenføyningsbetingelse, så her er det mulig å lage en ekvivalent spørring ved å bruke to spørringer for hver betingelse og deretter kombinere dem gjennom Union for å fjerne duplikater blant radene.
Ja, spørringene vil generelt ikke være like, tatt i betraktning at fullstendige dupliserte rader kan returneres. Men i det virkelige liv er det ikke nødvendig med komplette dupliserte linjer, og folk prøver å bli kvitt dem.

La oss nå sammenligne utførelsesplanene for disse to spørringene:

  1. for CROSS JOIN er den gjennomsnittlige utførelsestiden 195 sekunder:
    Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server
  2. for INNER JOIN-UNION er den gjennomsnittlige utførelsestiden mindre enn 24 sekunder:
    Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server

Som du kan se fra resultatene, for to tabeller med millioner av poster, er den optimaliserte LINQ-spørringen mange ganger raskere enn den uoptimaliserte.

For alternativet med OG i betingelsene, en LINQ-spørring av skjemaet:

LINQ-spørring

var query = from e1 in db.Customer
                            from e2 in db.Ref
                            where (e1.Ref_ID == e2.ID)
                                 && (e1.Ref_ID2 == e2.ID2)
                            select new { Data1 = e1.Name, Data2 = e2.Name };

Riktig SQL-spørring vil nesten alltid bli generert, som vil kjøre i gjennomsnitt på omtrent 1 sekund:

Noen aspekter ved optimalisering av LINQ-spørringer i C#.NET for MS SQL Server
Også for LINQ to Objects-manipulasjoner i stedet for en spørring som:

LINQ-spørring (første alternativ)

var query = from e1 in seq1
                            from e2 in seq2
                            where (e1.Key1==e2.Key1)
                               && (e1.Key2==e2.Key2)
                            select new { Data1 = e1.Data, Data2 = e2.Data };

du kan bruke et søk som:

LINQ-spørring (første alternativ)

var query = from e1 in seq1
                            join e2 in seq2
                            on new { e1.Key1, e1.Key2 } equals new { e2.Key1, e2.Key2 }
                            select new { Data1 = e1.Data, Data2 = e2.Data };

der:

Definere to arrays

Para[] seq1 = new[] { new Para { Key1 = 1, Key2 = 2, Data = "777" }, new Para { Key1 = 2, Key2 = 3, Data = "888" }, new Para { Key1 = 3, Key2 = 4, Data = "999" } };
Para[] seq2 = new[] { new Para { Key1 = 1, Key2 = 2, Data = "777" }, new Para { Key1 = 2, Key2 = 3, Data = "888" }, new Para { Key1 = 3, Key2 = 5, Data = "999" } };

, og Para-typen er definert som følger:

Para Type Definisjon

class Para
{
        public int Key1, Key2;
        public string Data;
}

Derfor undersøkte vi noen aspekter ved optimalisering av LINQ-spørringer til MS SQL Server.

Dessverre glemmer selv erfarne og ledende .NET-utviklere at de må forstå hva instruksjonene de bruker gjør bak kulissene. Ellers blir de konfiguratorer og kan plante en tidsinnstilt bombe i fremtiden både ved skalering av programvareløsningen og ved mindre endringer i ytre miljøforhold.

Det ble også gjennomført en kort gjennomgang her.

Kildene for testen - selve prosjektet, oppretting av tabeller i TEST-databasen, samt fylling av disse tabellene med data er lokalisert her.
Også i dette depotet, i mappen Planer, er det planer for å utføre spørringer med OR-betingelser.

Kilde: www.habr.com

Legg til en kommentar